,
本文是 “2021 InfoQ 年度技術(shù)盤點與展望” 系列文章之一,由 InfoQ 編輯部制作呈現(xiàn),重點聚焦 AI 領(lǐng)域在 2021 年的重要進展、動態(tài),希望能幫助你準確把握 2021 年 AI 領(lǐng)域的核心發(fā)展脈絡(luò),在行業(yè)內(nèi)始終保持足夠的技術(shù)敏銳度。
“InfoQ 年度技術(shù)盤點與展望”是 InfoQ 全年最重要的內(nèi)容選題之一,將涵蓋架構(gòu)、AI、大數(shù)據(jù)、大前端、云計算、數(shù)據(jù)庫、中間件、操作系統(tǒng)、開源、編程語言十大領(lǐng)域,后續(xù)將聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關(guān)注。
特此感謝何苗、侯軍、蔣宏飛、劉知遠、?澤君、吳韶華、許欣然、曾冠榮、張杰、張凱(按姓名首字母排序)對本文的貢獻,他們的真知灼見,是本文能與大家見面的關(guān)鍵。
即將過去的 2021 年,又是跌宕起伏的一年。
疫情仍沒有結(jié)束的苗頭,缺芯造成的供應鏈中斷此起彼伏,與此同時,數(shù)字化、智能化轉(zhuǎn)型已是大勢所趨。全球企業(yè)和機構(gòu)在不斷學會適應“新常態(tài)”,并從中捕捉新的商業(yè)機會。
2021年, 人工智能領(lǐng)域依然熱潮洶涌。
AphaFold2 成功預測 98% 蛋白質(zhì)結(jié)構(gòu),預訓練大模型迎來大爆發(fā),自動駕駛邁入商業(yè)化試點探索新階段,元宇宙概念東風勁吹,首個關(guān)于 AI 倫理的全球協(xié)議通過,商湯科技即將摘得“AI 第一股”... 前沿技術(shù)突破令人欣喜,落地應用“潤物細無聲”般深入各行業(yè),業(yè)界也開始正視人工智能的問題和挑戰(zhàn)。
在歲末年初之際,InfoQ 采訪了眾多行業(yè)專家,回顧了 2021 年人工智能大模型、深度學習框架、 NLP、智能語音、自動駕駛、知識圖譜等各項 AI 技術(shù)的發(fā)展情況,并展望了未來一年可能的技術(shù)趨勢。
2021 年度 AI 技術(shù)突破
人工智能預測蛋白質(zhì)結(jié)構(gòu)
12 月 15 日,Nature 發(fā)布了《2021 年十大科學新聞》;12 月 17 日,Science 緊隨其后,公布了《2021 年度十大科學突破》。Nature 和 Science 都將「人工智能預測蛋白質(zhì)結(jié)構(gòu)」評為本年度最重要的發(fā)現(xiàn),Science 更是將其列為“2021 年十大科學突破進展”之首。
長期以來,蛋白質(zhì)結(jié)構(gòu)的預測一直是生物學領(lǐng)域的研究熱點和難點。傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)探測方法主要有三種:X 射線晶體學、核磁共振和冷凍電鏡。但這些方法成本較高,研究周期漫長,且進展有限。
人工智能為這一困擾生物學界數(shù)十年的難題按下了快進鍵。
今年 7 月,蛋白結(jié)構(gòu)兩大 AI 預測算法 —— DeepMind 的 AphaFold2 和華盛頓大學等機構(gòu)研發(fā)的 RoseTTAFold 相繼開源。
AphaFold2“解鎖”98% 人類蛋白質(zhì)組
7 月 16 日,DeepMind 在 Nature 發(fā)表 論文,宣布已利用 Alpha Fold2 預測了 35 萬種蛋白質(zhì)結(jié)構(gòu),涵蓋了 98.5% 的人類蛋白質(zhì)組,及其他 20 種生物幾乎完整的蛋白質(zhì)組。研究團隊還公布了 AlphaFold2 的開源代碼和技術(shù)細節(jié)。
RoseTTAFold 可十分鐘內(nèi)計算出蛋白質(zhì)結(jié)構(gòu)
同日,華盛頓大學蛋白設(shè)計研究所 David Baker 教授課題組及其他合作機構(gòu)在 Science 上發(fā)表 論文 ,公布了其開源蛋白質(zhì)預測工具 RoseTTAFold 的研究結(jié)果。研究團隊探索了結(jié)合相關(guān)思想的網(wǎng)絡(luò)架構(gòu),并通過三軌網(wǎng)絡(luò)獲得了最佳性能。三軌網(wǎng)絡(luò)產(chǎn)生的結(jié)構(gòu)預測精度接近 CASP14 中的 DeepMind 團隊的 AlphaFold2,且速度更快、所需計算機處理能力更低。僅用一臺游戲計算機,在短短十分鐘內(nèi)就能可靠地計算出蛋白質(zhì)結(jié)構(gòu)。
其他研究進展
8 月,中國研究人員使用 Alpha Fold2 繪制了近 200 種與 DNA 結(jié)合的蛋白質(zhì)結(jié)構(gòu)圖。11 月,德國和美國的研究人員利用 Alpha Fold2 和冷凍電鏡繪制了核孔復合物的結(jié)構(gòu)圖。12 月 22 日,深勢科技推出了蛋白結(jié)構(gòu)預測工具 Uni-Fold,在國內(nèi)首次復現(xiàn)谷歌 Alphafold2 全規(guī)模訓練并開源訓練、推理代碼。
AI 技術(shù) 2021 年發(fā)展總結(jié)與展望
人工智能邁向“煉大模型”階段
今年是超大規(guī)模預訓練模型的爆發(fā)之年。
去年,GPT-3 橫空出世,這個具有 1750 億參數(shù)規(guī)模的預訓練模型所表現(xiàn)出來的零樣本與小樣本學習能力刷新了人們的認知,也引爆了 2021 年 AI 大模型研究的熱潮。
谷歌、微軟、英偉達、智源人工智能研究院、阿里、百度、浪潮等國內(nèi)外科技巨頭和機構(gòu)紛紛展開大模型研究和探索。
超大規(guī)模預訓練模型的“軍備競賽”
2021 年 1 月,Google 推出的 Switch Transformer 模型以高達 1.6 萬億的參數(shù)量打破了 GPT-3 作為最大 AI 模型的統(tǒng)治地位,成為史上首個萬億級語言模型。
國內(nèi)研究機構(gòu)也不甘示弱。今年 6 月,北京智源人工智能研究院發(fā)布了超大規(guī)模智能模型“悟道 2.0”,達到 1.75 萬億參數(shù),超過 Switch Transformer 成為全球最大的預訓練模型。
值得一提的是,今年國產(chǎn)化大模型研發(fā)工作進展飛速,華為、浪潮、阿里、百度等都發(fā)布了自研的大模型。
浪潮人工智能研究院首席研究員吳韶華向 InfoQ 表示,現(xiàn)在業(yè)界提高模型參數(shù)量有兩種技術(shù)路線,產(chǎn)生兩種不同的模型結(jié)構(gòu),一種是單體模型,一種是混合模型。如浪潮的源大模型,華為的盤古大模型、百度的文心大模型、英偉達聯(lián)合微軟發(fā)布的自然語言生成模型 MT-NLG 等走的都是單體模型路線;而智源的悟道模型、阿里 M6 等走的是混合模型路線。
預訓練模型技術(shù)新進展
OPPO 小布智能中心、 NLP 算法工程師曾冠榮認為,預訓練模型在今年取得的重要技術(shù)進展有:
知識表示和學習機理進一步創(chuàng)新突破
隨著對預訓練模型的深入理解,預訓練模型的知識學習和表征的機理逐步明確,人們得以更加順利地往模型里注入需要其學習的知識,在這些知識的加持下,對復雜任務的應對能力得到了大幅提升。
對比學習、自監(jiān)督和知識增強
以對比學習為中心,多種增強方法為工具的方式能進一步提升預訓練模型的語義理解和表征能力,增強方法的深入讓模型自監(jiān)督成為可能,讓對比學習對樣本,尤其是正樣本的依賴降低,數(shù)據(jù)依賴的降低勢必讓模型對少樣本甚至無樣本任務的適應性提升,模型能更好地完成這類型的任務,這將讓預訓練模型落地的成本再降低一個層次。
降低 AI 規(guī)?;涞氐拈T檻
預訓練大模型降低了 AI 應用的門檻,解決了 AI 應用的兩個難題:數(shù)據(jù)和行業(yè)知識。它既不需要大量的標注數(shù)據(jù),又保障了基礎(chǔ)底座。
在預訓練模型的業(yè)務定制優(yōu)化和應用方面,曾冠榮認為,從第一個預訓練語言模型 BERT 發(fā)布至今,已在多個熱門任務下得到應用,逐步從一種“潮流”變成前沿技術(shù)的“基本操作”,如預訓練模型已成為機器翻譯領(lǐng)域的基礎(chǔ)關(guān)鍵性技術(shù)。此外,預訓練模型也成為大系統(tǒng)中的一部分,發(fā)揮著其語義理解的優(yōu)勢。
無論是業(yè)界還是科研,對預訓練模型的使用方式逐漸靈活,能從預訓練模型中拆解出適合任務的部分并組裝到自己的實際任務模型中。
時至今日,對預訓練大模型的性能優(yōu)化仍未終止,在學界,仍有大量的研究在預訓練模型的落地能力上努力,壓縮、剪枝、蒸餾的工作仍起到重要作用。不止于算法本身,編譯、引擎、硬件等方面的優(yōu)化也在大步邁進。
小結(jié)和展望
吳韶華認為,整體而言,現(xiàn)在大規(guī)模預訓練模型的研究,包括模型結(jié)構(gòu)的演進和落地仍處在探索階段,各家的持續(xù)探索正在不斷擴大對大規(guī)模預訓練模型的認知邊界。
“大規(guī)模預訓練模型是人工智能的最新技術(shù)高地,是對海量數(shù)據(jù)、高性能計算和學習理論原始創(chuàng)新的全方位考驗”,清華大學教授、智源大模型技術(shù)委員會成員劉知遠在接受 InfoQ 采訪時展望了明年大模型的發(fā)展趨勢。
劉知遠表示,他明年將重點關(guān)注兩個層面的問題:
一是人工智能技術(shù)正呈現(xiàn)“大一統(tǒng)”趨勢,如預訓練模型在 Prompt Tuning 等技術(shù)的支持下可用于很多不同的任務,再如 Transformer 模型框架正在從自然語言處理擴展到計算機視覺模態(tài),接下來我們也許會看到更多的從框架、模型和任務等方面推進人工智能技術(shù)趨向統(tǒng)一的工作 ; 另一個問題是,隨著預訓練模型規(guī)模增大,如何更好更高效地實現(xiàn)任務適配和推理計算,將是讓大模型飛入千家萬戶的重要技術(shù)。
國產(chǎn)深度學習框架不再是“技術(shù)的跟隨者”
過去十年涌現(xiàn)了大量的 AI 算法和應用,這背后都離不開開源深度學習框架提供的支持。
開源深度學習框架是 AI 算法研發(fā)和 AI 應用落地的“腳手架”,幫助 AI 研究員和開發(fā)者大幅降低算法研發(fā)門檻,提升研發(fā)效率。
IDC 的調(diào)研顯示,中國人工智能領(lǐng)域 90% 以上的產(chǎn)品都使用了開源的框架、庫或者其他工具包。
新進展,新趨勢
深度學習框架的發(fā)展核心是跟隨著深度學習領(lǐng)域的發(fā)展而前進的。
開源深度學習框架曠視天元 MegEngine 研發(fā)負責人許欣然在接受 InfoQ 采訪時,分享了過去這一年他所觀察到的深度學習的新進展:
(1)以 ViT、Swin 為代表的 Transformer 類模型開始向 NLP 以外的領(lǐng)域進軍,在更多場景中展現(xiàn)威力,讓“大”模型的趨勢愈演愈烈。
相應的,深度學習框架也在訓練大模型方面進展頗多(如 DeepSpeed+ZeRO),多種混合并行方案層出不窮。無論是深度學習框架還是硬件廠商,都在思考 Transformer 是否是會長期固定的計算 pattern。
(2)A100 這類顯卡的誕生,催生了一股從動態(tài)圖回到靜態(tài)圖的趨勢。本身對動態(tài)圖更友好的框架也紛紛嘗試通過編譯的方式提升效率,比如 PyTorch 的 LazyTensor、Jax 的 XLA。很多國產(chǎn)框架也在嘗試通過動靜結(jié)合的方式提升效率,比如曠視天元 MegEngine 推出的 Tensor Interpreter、MindSpore 的 Python 代碼轉(zhuǎn)靜態(tài)圖的方案等。
此外,MLIR 和 TVM 這兩個深度學習編譯器領(lǐng)域的燈塔都在快速增長,如何靠機器做好編譯也正成為各個深度學習框架研發(fā)的主要方向。同時隨著深度學習方法的持續(xù)發(fā)展,也誕生了更多的新興框架,如圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的 DGL。
技術(shù)自立之路
近兩年,國產(chǎn)深度學習框架陸續(xù)開源且發(fā)展迅速,逐漸在開源框架市場占有一席之地。
在技術(shù)研發(fā)方面,國產(chǎn)框架不再是技術(shù)的“跟隨者”的角色,研發(fā)出了很多領(lǐng)先的創(chuàng)新點,比如 MegEngine 的 DTR 技術(shù)、OneFlow 的 SBP 并行方案和 MindSpore 的 AKG 等等。此外,在功能、代碼質(zhì)量和文檔等方面都達到了很高的水準。
在開源生態(tài)建設(shè)方面,各家也都持續(xù)投入,通過開源社區(qū)扶植、產(chǎn)學研合作等方式,助力國產(chǎn)開源生態(tài)的發(fā)展和人才培養(yǎng)。
業(yè)界現(xiàn)有的主流深度學習框架多來自國外大廠,目前,國內(nèi)企業(yè)自研的深度學習框架還沒有哪一款進階成為國際主流的學習框架。
許欣然坦言,國產(chǎn)深度學習框架在生態(tài)建設(shè)上還有很長的路要走,既需要持續(xù)投入、不斷完善生態(tài)建設(shè),也需要找到差異化的技術(shù)競爭點,充分結(jié)合我國國情和國產(chǎn)硬件,發(fā)揮好自身的技術(shù)優(yōu)勢和更好的生態(tài)洞察力。
研發(fā)難點
現(xiàn)階段,在深度學習框架方面,業(yè)界普遍面臨的研發(fā)難點主要體現(xiàn)在以下三個方面:
(1)在訓練側(cè),NPU 開始入場,不少廠商已經(jīng)做出自己的訓練芯片,如何高效對接訓練 NPU 仍待解決;
(2)學術(shù)研究發(fā)展迅速,框架技術(shù)需要持續(xù)跟進,這為框架研發(fā)帶來了一定挑戰(zhàn)。接下來一段時間會持續(xù)一段大 Transformer 的趨勢,那么,下一個趨勢是什么?
(3)算力提升速度更多地開始依賴 DSA 硬件,只是單純的手寫 kernel 已難以支撐,框架需要更多的編譯技術(shù)、domain knowledge 才能不斷提升訓練效率。隨著 NPU、GPU 等芯片的快速迭代,包括 MLIR、XLA、TVM 在內(nèi)的編譯技術(shù)將受到更多關(guān)注。
將更好地支持大模型訓練
隨著大模型的持續(xù)火熱,預期深度學習框架將在并行策略、重計算等能力上不斷提升,以更好地支持大模型的訓練。
同時,目前訓練大模型仍需消耗大量資源,如何依靠深度學習框架的力量節(jié)省計算資源,甚至在更小規(guī)模上完成任務,將是一個值得探索的技術(shù)方向。
智能語音這一年:技術(shù)突破不斷,工業(yè)落地加速
語?領(lǐng)域的?規(guī)模預訓練模型層出不窮
字節(jié)跳動 AILAB 語?技術(shù)總監(jiān)?澤君向 InfoQ 表示,2021 年度,智能語音技術(shù)的演進呈現(xiàn)出三個層面的趨勢:
(1)基礎(chǔ)建模技術(shù)在打破領(lǐng)域邊界加速融合,如 Transformer 系列模型在?然語?、視覺和語?領(lǐng)域都展現(xiàn)出?致性的優(yōu)勢,頗有“?統(tǒng)江湖”的意思。
(2) 超?規(guī)模?監(jiān)督學習技術(shù)(self-supervised learning)在上述多個領(lǐng)域展現(xiàn)出很強的通?學習能?,即在海量?標簽數(shù)據(jù)上訓練?規(guī)模通?預訓練模型,然后?少量有標簽數(shù)據(jù)做精細調(diào)整就能取得?常好的效果。
過去?年里,基于這種兩段訓練模式的超?模型不斷刷新各項學術(shù)算法競賽紀錄,在?業(yè)界也成為?種模型訓練和調(diào)優(yōu)范式。
最近?年,F(xiàn)acebook、亞?遜、?歌和微軟等公司的研究學者陸續(xù)提出語?領(lǐng)域的?規(guī)模預訓練模型, 如 Wav2vec、 HuBERT、 DecoAR、 BigSSL、WavLM 等。
(3)除基礎(chǔ)技術(shù)外,在不同應?場合場景下,多個領(lǐng)域模態(tài)的技術(shù)也在快速相互融合,形成視覺、語?和語義結(jié)合的多模態(tài)綜合系統(tǒng),如虛擬數(shù)字?。
工業(yè)界落地加速
整體來說,智能語?技術(shù)在?業(yè)界的落地不斷加速,來?業(yè)務和技術(shù)兩個?向的合?共同作?牽引和驅(qū)動應?落地。
從應?場景的牽引看,???如短中?視頻業(yè)務,在全球仍保持著較?的增?速度,視頻內(nèi)容創(chuàng)作者和內(nèi)容消費者活躍度很?;另???,疫情令居家辦公和遠程協(xié)作的需求增?,智能語?技術(shù)能在視頻會議中提供通信增強和語?識別等關(guān)鍵能?,為參會者提供更佳的會議體驗;以智能汽?和虛擬現(xiàn)實 VR/AR 為代表的新場景不斷出現(xiàn),需要更?便、更低延遲、更沉浸式的語?交互體驗。
從核?技術(shù)的驅(qū)動看,基礎(chǔ)模型改進和?監(jiān)督技術(shù)不斷提升著模型性能上限,同時多模態(tài)技術(shù)融合使得技術(shù)?案的能?越來越強,可?持更復雜的場景并帶來更好的體驗。
商業(yè)化難點主要在于商業(yè)模式選擇
馬澤君認為,現(xiàn)階段,智能語音商業(yè)化的難點主要是商業(yè)模式探索和路線選擇的問題,具體包括如何更好地滿?需求,控制成本以及保證交付質(zhì)量。
???,AI 商業(yè)模式探索需要始終圍繞需求展開,提升模型效果和在真實場景中解決用戶或客戶的問題不能等同。解決實際問題需要 AI 研發(fā)?員深?業(yè)務場景,理解需求和條件限制,找到合理的產(chǎn)品技術(shù)?案,并不斷思考和抽象功能和技術(shù),沉淀通?的技術(shù)解決?案,探索驗證可規(guī)?;臉藴十a(chǎn)品,降低定制周期和代價。
另???,AI 技術(shù)研發(fā)成本?常?,如何通過優(yōu)化算法低對領(lǐng)域數(shù)據(jù)依賴,建設(shè)?動化平臺降低??消耗和提升研發(fā)流程效率對成本控制?常關(guān)鍵。
最后還要重視交付質(zhì)量和售后服務。只有同時做好上述三個環(huán)節(jié),才能完成從需求到交付到服務的整個鏈路,從而奠定規(guī)模商業(yè)化的基礎(chǔ)。
端到端和預訓練等技術(shù)仍然值得關(guān)注
端到端序列建模技術(shù)
(1)準確率和推理速度更上?層樓的端到端技術(shù)值得期待,其中對?機制(alignmentmechanism)是端到端序列建模的關(guān)鍵。字節(jié)跳動 AILAB 正在探索的連續(xù)整合發(fā)放 CIF 模型(Continuous Integrate-and-Fire)是一種創(chuàng)新的序列端到端建模對齊機制,具有軟對齊、計算代價低和容易擴展的特性。
(2)在端側(cè)設(shè)備上的端到端語?識別和合成技術(shù)落地值得關(guān)注,特別是輕量級、低功耗、?準確度和定制靈活的端到端語?識別和合成技術(shù)。
(3)端到端語?識別技術(shù)?向的熱詞定制和領(lǐng)域?適應技術(shù)???赡苡兄?進展。
?監(jiān)督預訓練技術(shù)
(1)超?數(shù)據(jù)規(guī)模和模型 size 的語??監(jiān)督預訓練技術(shù)值得關(guān)注,語??監(jiān)督預訓練的 BERT 已經(jīng)出現(xiàn) (Wav2vec2.0/Hubert), 語??監(jiān)督預訓練的 GPT-3 很可能在 2022 年到來。
(2)多模態(tài)語??監(jiān)督預訓練技術(shù)也?常吸引?,該技術(shù)可能會極?地提升預訓練模型的表征能?,從?帶來?監(jiān)督預訓練技術(shù)更?范圍的落地應?。
(3)無監(jiān)督預訓練技術(shù)在語?合成、?樂分類、?樂識別領(lǐng)域的應?同樣值得關(guān)注,借助?監(jiān)督預訓練的聲學?頻表征,可以有效提升下游任務的性能。
語?對抗攻擊與防御技術(shù)
(1)語?領(lǐng)域的對抗攻擊,從攻擊?段上來看,將從當前的?盒攻擊,進?步進化成?盒攻擊;從攻擊內(nèi)容來看,將從當前流?的 untarget 攻擊進化成 target 攻擊。
群雄逐鹿,誰能贏得自動駕駛之戰(zhàn)?
2021 年,自動駕駛領(lǐng)域格外熱鬧。
造車熱
今年,互聯(lián)網(wǎng)大廠、新造車勢力和傳統(tǒng)企業(yè)紛紛進場布局自動駕駛,可以說能下場的巨頭們基本上都下場造車了,自動駕駛“戰(zhàn)場”群雄逐鹿,不知未來誰執(zhí)牛耳?
在資本市場上,自動駕駛也備受追捧。據(jù)零壹智庫分析,繼 2016-2018 年熱潮之后,2021 年自動駕駛領(lǐng)域迎來第二次投資熱潮。今年 11 月,Momenta 完成超 10 億美元 C 輪系列融資,創(chuàng)下本年度自動駕駛領(lǐng)域最大規(guī)模融資記錄。
商業(yè)化前夜
Robotaxi 是自動駕駛最有價值的商業(yè)模式,現(xiàn)階段,很多自動駕駛技術(shù)公司都在做 Robotaxi 的嘗試。今年,很多自動駕駛車輛從封閉路測場地走向真實道路。百度、小馬智行、文遠知行、等企業(yè)已實現(xiàn)面向公眾的示范運營,開始探索商業(yè)化。11 月,國內(nèi)首個自動駕駛出行服務商業(yè)化試點在北京正式啟動,百度和小馬智行成為首批獲許開展商業(yè)化試點的企業(yè)。業(yè)內(nèi)人士認為,這標志著國內(nèi)自動駕駛領(lǐng)域從測試示范邁入商業(yè)化試點探索新階段。
今年,自動駕駛卡車賽道也格外火熱,量產(chǎn)和商業(yè)化均提速,頭部玩家走向上市。近日,毫末智行董事長張凱在接受 InfoQ 等媒體采訪時談到了自動駕駛卡車的發(fā)展,他表示,相對乘用車輔助自動駕駛運行場景的復雜性,RoboTruck 具有一些優(yōu)勢,例如長時間運行在較暢通的高速公路上,運行場景相對簡單?,F(xiàn)階段,RoboTruck 走得是類似于乘用車般從輔助駕駛到無人駕駛漸進式的發(fā)展路線。從發(fā)展前景看,Robotruck 具備商業(yè)化閉環(huán)的可行性,但自動駕駛系統(tǒng)的量產(chǎn)將會是一個坎。
毫末智行 COO 侯軍認為,2021 年是自動駕駛的爆發(fā)之年。一方面,得益于技術(shù)的持續(xù)進步、市場需求、政策加持、資本看好等各方面因素,高級別自動駕駛在落地探索方面,已有了初步的成果;另一方面,智能駕駛商業(yè)化落地也在快速滲透,開始走向量產(chǎn)時代。
2022,這些技術(shù)將是下半場競爭勝負的關(guān)鍵
根據(jù)張凱的預判,“2022 年將是自動駕駛行業(yè)發(fā)展最為關(guān)鍵的一年。乘用車輔助駕駛領(lǐng)域的競爭將會正式進入下半場,而下半場競爭的場景將會是城市開放場景。其他場景的自動駕駛也將正式進入商業(yè)化元年”。
張凱認為,2022 年,多項自動駕駛技術(shù)值得關(guān)注。
(1)數(shù)據(jù)智能將成為自動駕駛量產(chǎn)決勝的關(guān)鍵。數(shù)據(jù)智能體系是自動駕駛商業(yè)化閉環(huán)的關(guān)鍵所在,搭建高效、低成本的數(shù)據(jù)智能體系有助于推動自動駕駛系統(tǒng)不斷迭代前行。
(2)Transformer 與 CNN 技術(shù)深度融合,將會成為自動駕駛算法整合的粘合劑。Transformer 技術(shù)幫助自動駕駛感知系統(tǒng)理解環(huán)境語義更深刻,與 CNN 技術(shù)深度融合能解決 AI 大模型量產(chǎn)部署的難題,這是自動駕駛行業(yè)下半場競爭的關(guān)鍵技術(shù)。
(3)大算力計算平臺將在 2022 年正式量產(chǎn)落地,Transformer 技術(shù)與 ONESTAGE CNN 技術(shù)都需要大算力計算平臺做支撐。
(4)隨著自動駕駛系統(tǒng)的量產(chǎn)和規(guī)?;?,激光雷達與機器視覺組成的 AI 感知技術(shù),將與大算力計算平臺深度融合,這將大幅提升自動駕駛感知、認知模塊的運行效率。
NLP,黃金時代持續(xù)?
這幾年,NLP 處于快速發(fā)展階段。去年,多位 NLP 專家評判,NLP 迎來了大爆發(fā)的黃金時代。那么今年,NLP 的發(fā)展情況如何?
基于提示的微調(diào)技術(shù)迅速流行
作業(yè)幫產(chǎn)研中心蔣宏飛博士告訴 InfoQ,今年基于提示的微調(diào) (prompt-based tuning)的技術(shù)迅速流行起來,這是一種人類知識和大模型較高效的結(jié)合模式。該技術(shù)是今年較值得關(guān)注的新進展。
“今年 NLP 在基礎(chǔ)模型方面沒有大的突破。預訓練模型方面,今年涌現(xiàn)了很多很大的模型,但整體上同質(zhì)化也較嚴重,對于工業(yè)界實踐效果來講,往往按照‘奧卡姆剃刀’原則,傾向于使用最適當?shù)娜?Bert 往往就夠了”蔣宏飛表示。
現(xiàn)階段,NLP 技術(shù)在發(fā)展過程中還存在不少技術(shù)挑戰(zhàn),其中之一便是很難獲取到大量高質(zhì)量的標注數(shù)據(jù)。深度學習依賴大規(guī)模標注數(shù)據(jù),對于語音識別、圖像處理等感知類任務,標注數(shù)據(jù)相對容易,但 NLP 往往是認識類任務,人的理解都有主觀性,且任務和領(lǐng)域眾多,導致大規(guī)模語料標注的時間成本和人力成本都很大。
與 CV、語音識別相比,NLP 項目在業(yè)務中落地往往較慢
NLP 落地項目往往和業(yè)務強相關(guān)。不像圖像識別、語音識別,通用能力在具體業(yè)務也有大量落地場景,業(yè)務和算法協(xié)作邊界和指標相對好確定。而 NLP 項目在業(yè)務中落地往往會比較慢,需要上下游不斷深度磨合對齊。
NLP 解決的是最難的認知智能,而人類語言的歧義性、復雜性、動態(tài)性令其挑戰(zhàn)重重。但 NLP 商業(yè)化落地必須面對這些本質(zhì)的難題,所以不太可能有通用性的“一招吃遍天”的技術(shù)方案。
“盡管現(xiàn)在的預訓練模型一直在往這個方向努力,但我認為起碼目前這種 Transformer 式的,或者更通用地說,DNN 這種蜂巢智能式的技術(shù)范式不太行。所以,大家能看到也有不少研究學者在知識圖譜類的各種其他范式上在做努力”蔣宏飛說。
通用性的模型既然走不通,那垂類單一具體場景任務為什么也不能快速搭建?這個問題又涉及到數(shù)據(jù)的問題。數(shù)據(jù)標準的對齊、數(shù)據(jù)標注一致且高效、數(shù)據(jù)覆蓋度和均衡度、長尾數(shù)據(jù)的處理、數(shù)據(jù)動態(tài)漂移等都是 NLP 從業(yè)者每天面對的麻煩事。而相關(guān)的方法論和基礎(chǔ)工具還很不系統(tǒng)、不齊備,這是未來想達到快速商業(yè)化目的前必須打好的基礎(chǔ)。
明年,NLP 將在哪些場景實現(xiàn)規(guī)模化落地?
2022 年,NLP 的大規(guī)?;瘧每赡軙霈F(xiàn)在以下行業(yè)出現(xiàn)突破:
教育智能化
場景化高標準機器輔助翻譯,如專業(yè)領(lǐng)域文檔翻譯、會議實時翻譯等。
服務運營智能化:培訓、銷售、營銷、服務等場景的智能化。
外文學習 / 寫作智能輔助,參考 Grammarly 和 Duolingo 的快速發(fā)展。
醫(yī)療智能化。文本廣泛存在于電子病歷、臨床試驗報告、醫(yī)學產(chǎn)品說明書、醫(yī)學文獻中。分析、挖掘和利用這些文本,有大量且能直接使用的場景,可能會有突破式發(fā)展。
代碼智能分析。代碼 bug 識別、代碼智能優(yōu)化等。
2022 年,NLP 值得關(guān)注的技術(shù)點
基于提示的微調(diào) (prompt-based tuning) 的技術(shù)。
具有邏輯推理的文本生成技術(shù)、具有良好控制性以及一致性的文本生成技術(shù)。文本生成要在嚴肅場景用起來就必須滿足這些,否則只能應用在娛樂場景。
多模態(tài)技術(shù)。如 NLP+CV、 NLP + Image、 NLP+ Speech 等。
主動學習、數(shù)據(jù)增強等。NLP 大規(guī)模快速落地時的很多痛點需要這些技術(shù)來緩解。
代碼智能。代碼問題識別、代碼翻譯、自動代碼優(yōu)化、代碼工作量評估 (如 Merico 的方案)。
元宇宙概念大火,計算機視覺是基石技術(shù)之一
回首過去的一年,OPPO AI 技術(shù)產(chǎn)品化專家(語音語義和計算機視覺以及多模態(tài)融合方向)何苗總結(jié)了計算機視覺在工業(yè)界和學術(shù)界的進展。
具身智能,從被動式 AI 轉(zhuǎn)向主動式人工智能
具身智能(embodied AI),強調(diào)智能體(agent)要與真實世界進行交互,并通過多模態(tài)的交互 — 不僅僅是讓 AI 學習提取視覺上的高維特征,被“輸入”的認知世界,而是通過“眼耳鼻舌身意”六根來主動獲取物理世界的真實反饋,通過反饋進一步讓智能體學習并使其更“智能”、乃至“進化”。
今年 2 月,李飛飛提出了一套新的計算框架—— DERL(deep evolution reinforcement learning)深度進化強化學習。她提到了生物進化論與智能體進化的關(guān)系,并借鑒了進化論的理論應用于假設(shè)的智能體的進化學習中。
進入元宇宙,需要智能感知和交互這張門票
今年,元宇宙概念大火,各家紛紛入局。
Facebook 極為推崇元宇宙,為了表示投入元宇宙的決心,今年,F(xiàn)acebook 改名為 meta,并宣布 “all in 元宇宙”。
扎克伯格提出云宇宙需要具備八要素,其中之一是 Presence 開發(fā)平臺 / 套件。Presence 是 meta 為 Oculus VR 頭顯開發(fā)者提供的元宇宙基礎(chǔ)開發(fā)套件,提供的即為基于計算機視覺和智能語音技術(shù)的工具集,分別是 insight sdk、interaction sdk 和 voice sdk。
進入元宇宙需要智能感知與交互技術(shù)這張門票,而這張門票里的視覺和語音技術(shù)是最重要的基石。
趨勢一:面向內(nèi)容生成的 AIGC
元宇宙世界需要孿生大量現(xiàn)實世界的物體或是對于現(xiàn)實世界的人物進行重建,而這些海量的重建必然不能按照傳統(tǒng)游戲世界中的方法,由 CG 工程師一個個手工制作,這樣效率遠遠無法滿足實際場景的需求。因此面向內(nèi)容生成的 AIGC(算法層面)是必要的。相關(guān)技術(shù)方向包括:圖像超分、domain 遷移、外推、類似 CLIP(對比式語言圖像預訓練模型,可以從自然語言監(jiān)督中有效學習視覺模型)的隱式神經(jīng)表示 — 通過文字描述來生成圖像等多模態(tài)的(CV+NLP)等相關(guān)技術(shù)。
趨勢二:SCV 合成
虛擬現(xiàn)實引擎有專門的生成合成數(shù)據(jù)的組件,這些合成數(shù)據(jù)不僅美觀,而且有助于訓練更好的算法。
生成 / 合成的數(shù)據(jù)不僅是元宇宙的必備要素,也是訓練模型的重要原料。如果有合適的工具來構(gòu)建數(shù)據(jù)集,就可省去繁瑣的給數(shù)據(jù)手工打標的過程,更好地對計算機視覺算法進行開發(fā)和訓練。
知名數(shù)據(jù)分析公司 Gartner 認為在未來 3 年中,合成數(shù)據(jù)將比真實數(shù)據(jù)更占優(yōu)勢。在合成計算機視覺(SCV)中,我們使用虛擬現(xiàn)實引擎訓練計算機視覺模型,并將訓練好的模型部署到現(xiàn)實世界。
知識圖譜商業(yè)化落地,制約因素主要在于標準化
重要技術(shù)進展
知識圖譜技術(shù)在過去這一年取得的重要技術(shù)進展有:
知識抽取方面,多模態(tài)信息抽取在同時處理文本和視頻方面取得了進展;知識表示方面,自注意力機制的知識表示方法越來越走向?qū)嵱?;知識應用方面,很多行業(yè)開始構(gòu)建行業(yè)知識庫,用于各類下游任務。
明略科技資深科學家張杰在接受 InfoQ 采訪時指出,現(xiàn)階段,在知識圖譜方面,業(yè)界普遍面臨的研發(fā)難點主要體現(xiàn)在兩個方面:算法方面,針對非結(jié)構(gòu)化數(shù)據(jù)的信息抽取和實體對齊的準確度難以保障直接商用,需人工校驗;工程方面,行業(yè)圖譜構(gòu)建成本高,需要大量的人工標注,另外構(gòu)建進度也不是一蹴而就,需要業(yè)務專家不斷運維。
張杰預測,2022 年,領(lǐng)域預訓練語言模型和 Prompt 在知識圖譜中的應用,有望使得信息抽取環(huán)節(jié)得到進一步提升。針對技能性知識的抽取技術(shù)和多模態(tài)抽取技術(shù),商用前景廣闊。
應用落地進展
2021 年,知識圖譜技術(shù)的應用落地,在 ToC 場景中仍主要用于搜索、推薦的提升,在 ToB 場景中集中在可視化上。
張杰認為,現(xiàn)階段,制約知識圖譜商業(yè)化落地的主要因素在于標準化,行業(yè)圖譜的 schema 很難在企業(yè)內(nèi)部大范圍內(nèi)達成認知的一致性,影響了后續(xù)的標注、抽取、應用。
2022 年,知識圖譜技術(shù)的大規(guī)模化應用可能會在制造業(yè)出現(xiàn)突破,制造業(yè)的知識密度高、重視標準化,頭部企業(yè)重視數(shù)字化建設(shè),積累了大量原始數(shù)據(jù)。
2022 年,值得關(guān)注的重要技術(shù)趨勢
人工智能工程化
近兩年,人工智能工程化(AI Engineering)格外受關(guān)注。在 Gartner 發(fā)布的 2021 年和 2022 年重要戰(zhàn)略技術(shù)趨勢中,人工智能工程化都被列入其中。人工智能工程化是一種實現(xiàn)人工智能模型操作化的綜合方法。
不久前,Gartner 高級研究總監(jiān)高挺曾在接受 InfoQ 采訪時表示,AI 工程化本質(zhì)上是 AI 在企業(yè)中大規(guī)模、全流程的落地過程,盡管目前大家現(xiàn)在對 AI 期待很高,但實際上 AI 目前的應用仍然是被低估的。因為,很多 AI 項目的價值只能體現(xiàn)在一些“點對點”的一次性的方案中。將 AI 大規(guī)模落地的工程化方法(包含 DataOps、ModelOps 和 DevOps)總和起來,便是“AI 的工程化”的一整套體系。
人工智能工程化對企業(yè)有很多好處,企業(yè)在進行人工智能落地的時候,落地效率、落地廣泛度會更高。
可以預見,人工智能工程化將會是未來 2-3 年需要持續(xù)關(guān)注的方向,人工智能工程化應該關(guān)注三大核心要點:數(shù)據(jù)運維、模型運維、開發(fā)運維。
Gartner 預測,到 2025 年,10% 建立人工智能工程化最佳實踐的企業(yè)從其人工智能工作中產(chǎn)生的價值將至少比 90% 未建立該實踐的企業(yè)高出三倍。
生成式 AI 漸成趨勢
生成式人工智能(Generative Artificial Intelligence)也被 Gartner 評為 2022 年重要戰(zhàn)略技術(shù)趨勢之一。
該機器學習方法從其數(shù)據(jù)中學習內(nèi)容或?qū)ο?,并運用數(shù)據(jù)生成全新、完全原創(chuàng)的實際工件。人們可以用 AI 來創(chuàng)造出一些新事物,如內(nèi)容創(chuàng)作、創(chuàng)建軟件代碼、輔助藥物研發(fā)等。
近日,機器學習大牛吳恩達發(fā)文回顧了 AI 在 2021 年的四個重要進展,其中之一便是,AI 生成音頻內(nèi)容呈現(xiàn)出主流化傾向?,F(xiàn)在音樂家和電影制作人們,已經(jīng)習慣于使用 AI 支持型音頻制作工具。
在國內(nèi)的優(yōu)酷、愛奇藝等視頻平臺,AI 也已經(jīng)廣泛用于音、視頻的內(nèi)容生產(chǎn)和創(chuàng)作中,如 AI 輔助視頻制作、智能字幕生成、智能翻譯、特效生成等。
Gartner 認為,未來一段時間內(nèi),AI 會逐漸從一個做判斷的機器變成一個做創(chuàng)造的機器。預計到 2025 年,生成式人工智能將占所有生成數(shù)據(jù)的 10%,而目前這一比例還不到 1%。
不過該技術(shù)還存在一定的爭議,如會被濫用于詐騙、欺詐、政治造謠、偽造身份等,存在道德和法律風險。
元宇宙,狂熱的新風口
2021 年,可能沒什么技術(shù)名詞比“元宇宙”熱度更高了。全球很多公司都在講元宇宙的概念,認為元宇宙是指向互聯(lián)網(wǎng)的“終極形態(tài)”。如今,移動互聯(lián)網(wǎng)的紅利已經(jīng)見頂,不知道互聯(lián)網(wǎng)的盡頭是否會是元宇宙?
所謂元宇宙,是一個虛擬時空間的集合, 由一系列的增強現(xiàn)實(AR), 虛擬現(xiàn)實(VR) 和互聯(lián)網(wǎng)(Internet)所組成。元宇宙的實現(xiàn),仰賴一系列前沿技術(shù)作支撐,包括人工智能、VR/VR、5G、云計算、大數(shù)據(jù)、區(qū)塊鏈等基礎(chǔ)設(shè)施。
元宇宙中可以重點關(guān)注的細分賽道有 VR/AR 、游戲、社交、Metahuman 等。文娛基金易凱資本在其元宇宙報告中也表示,長期看好基于上述形態(tài)的底層技術(shù)公司。易凱資本預測,在未來十年,元宇宙概念將依舊集中于社交、游戲、內(nèi)容等娛樂領(lǐng)域,到 2030 年會滲透到提升生產(chǎn)生活效率的領(lǐng)域。
寫在最后
2021年,人工智能領(lǐng)域涌現(xiàn)了不少激動人心的重大突破,人工智能也正在賦能、改變甚至顛覆許多行業(yè)。當然也仍有很多難點需要投入更多時間攻克。
近日,李彥宏對 AI 的未來發(fā)表判斷:“人機共生”時代,中國將迎來 AI 黃金十年。而未來十年,AI 技術(shù)應用門檻將顯著降低,為各行各業(yè)的智能化轉(zhuǎn)型提供技術(shù)“大底座”。
人工智能發(fā)展已漸入深水區(qū),期待明年以及之后的 10 年,人工智能能夠在技術(shù)和落地上取得更多進展,為下一個“黃金十年”而努力。
采訪嘉賓介紹(按姓名首字母排序):
何苗,OPPO AI 技術(shù)產(chǎn)品化專家
侯軍,毫末智行 COO
蔣宏飛 作業(yè)幫NLP資深算法專家
劉知遠,清華大學教授、智源大模型技術(shù)委員會成員
?澤君,字節(jié)跳動 AILAB 語?技術(shù)總監(jiān)
吳韶華,浪潮人工智能研究院首席研究員
許欣然,曠視天元 MegEngine 研發(fā)負責人
曾冠榮,OPPO 小布智能中心、 NLP 算法工程師
張杰,明略科技資深科學家
張凱,毫末智行董事長
本文來自微信公眾號 “AI前線”(ID:ai-front),作者:劉燕,36氪經(jīng)授權(quán)發(fā)布。
- 濕地之美|廣州海珠濕地
- (熱點觀察 漫評)美國對歐洲盟友“下狠手”
- 全球微動態(tài)丨德媒文章:政治極化愈演愈烈,美國民主面臨墮落
- 每日觀察!海河觀津丨百萬候鳥來“息”,它們?yōu)楹纹珢郾贝蟾郏?/a>
- 焦點!一起來拍中國空間站!
- 焦點播報:北京新增本土感染者16例 詳情公布
- 天天快看點丨遼寧匯聚高校校友資源 引青年人才在遼創(chuàng)新創(chuàng)業(yè)
- 每日熱文:夢天成功發(fā)射!天空飄來一個字:6
- 環(huán)球最資訊丨長圖丨“院士天團”做優(yōu)“湖南飯”,該是什么味?
- 常益懷等5市州明早有大霧 出行請注意安全
- 環(huán)球動態(tài):11月全省溫高干旱持續(xù)發(fā)展
- 【全球獨家】10月制造業(yè)PMI為49.2% 建筑業(yè)景氣水平較高
- 環(huán)球今日訊!亞馬遜營業(yè)利潤率下降至2% 國內(nèi)頭部電商或進一步搶占海外市場
- 國家藥監(jiān)局:促進彩色隱形眼鏡生產(chǎn)經(jīng)營企業(yè)規(guī)范化發(fā)展
- 即時焦點:智慧芽升級科創(chuàng)力評估平臺 累計上線12條產(chǎn)業(yè)技術(shù)鏈
- 【世界熱聞】內(nèi)蒙古啟動人力資源誠信服務示范機構(gòu)評選
- 環(huán)球觀焦點:內(nèi)蒙古:這5項職業(yè)資格考試暫停
- 全球熱門:飛天圓夢|靜待夢天,中國空間站在軌建造收官在即
- 飛天圓夢|“夢天”已就位!楊利偉動情講述“初代”航天人故事
- 對標保時捷Taycan?大眾中國功勛蘇偉銘親自下場造車
- 北京石景山開展冬季供暖前特種設(shè)備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費直
- 北京延慶對重點行業(yè)開展格式條款專項檢查 做好市
- 北京海淀開展電動自行車整治夜查行動 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場秩序 營造安全放心消
- 福建寧化開展“兩品一械”網(wǎng)絡(luò)銷售專項檢查 保障
- 北京懷柔:開展市場綜合執(zhí)法監(jiān)督檢查 督導各類經(jīng)
- 天津河東:多措并舉推進企業(yè)信用修復工作 助力轄