Jeff Dean 表示:“更多的進展即將到來。”
(資料圖)
近幾年科技行業(yè)瘋狂加注超大規(guī)模語言模型,一個最主要的成果就是“人工智能創(chuàng)造內(nèi)容”(AIGC)技術(shù)突飛猛進。兩年前 OpenAI 通過 GPT-3 模型展示了大語言模型的多樣化實力。而最近各種 AI 基于文字提示生成圖片的產(chǎn)品,更是數(shù)不勝數(shù)。
有趣的是,今年以來 AIGC 的風(fēng)頭基本都被Stable Diffusion、Craiyon、Midjourney等“小玩家”給搶了——像谷歌這樣的 AI 巨頭,反而沒怎么見動靜。
但其實谷歌并沒有“躺平”。
臨近年底,在11月2日早上,谷歌終于放出了大招。這家在 AI 研究上最久負(fù)盛名的硅谷巨頭,居然一鼓作氣發(fā)布了四項最新的 AIGC 技術(shù)成果,能夠根據(jù)文本提示生成:
高分辨率長視頻
3D模型
音樂
代碼
以及可控文本生成技術(shù)。
圖片來源:Google Research
“用 AI 賦能的生成式模型,具有釋放創(chuàng)造力的潛能。通過這些技術(shù),來自不同文化背景的人們都可以更方便地使用圖像、視頻和設(shè)計來表達(dá)自己,這在以前是無法做到的,”谷歌 AI 負(fù)責(zé)人 Jeff Dean 說道。
他表示,經(jīng)過谷歌研究人員的不懈努力,現(xiàn)在公司不僅擁有在生成質(zhì)量方面在行業(yè)領(lǐng)先的模型,還在這些模型基礎(chǔ)上取得了進一步創(chuàng)新。
Jeff Dean圖片來源:谷歌
這些創(chuàng)新,包括“超分辨率的視頻序列擴散模型”——也即將AI“文生圖”擴展到“文生視頻”,并且仍然確保超高清晰度。
以及AudioLM,一個無需文字和音樂符號訓(xùn)練,僅通過聆聽音頻樣本,就可以繼續(xù)生成填補樂曲的音頻模型。
從生成文字,到生成代碼、音頻、圖片、視頻和3D模型,谷歌似乎正在證明 AIGC 技術(shù)的能力還遠(yuǎn)未達(dá)到邊界,并且大有用武之地。
接下來,一起好好看看谷歌這次都放了哪些大招。
AI 寫作助手,深受劉宇昆喜愛?
說實話,看到谷歌做了一款 AI 寫作工具的時候,硅星人是略微有點擔(dān)心失業(yè)的……
但是了解了關(guān)于這款工具更多的情況之后,這種心情更多地轉(zhuǎn)化成了欣慰。
我們一直在強調(diào)AI背后的“大語言模型”技術(shù)背景。而谷歌推出的 LaMDA Wordcraft,就是這樣一款將語言模型核心功能發(fā)揮到極致的技術(shù)
LaMDA Wordcraft是在 LaMDA 大語言模型的基礎(chǔ)上開發(fā)了一個寫作協(xié)助工具,是谷歌大腦團隊、PAIR(People + AI Research)團隊,以及 Magenta 音頻生成項目組的合作結(jié)晶。
它的作用,是在創(chuàng)作者寫作的過程當(dāng)中,根據(jù)現(xiàn)有的文本產(chǎn)生新 的想法,或 者幫助重寫已有文句,從而幫助創(chuàng)作者突破“創(chuàng)作瓶頸” (writer"s block)。
Wordcraft 用戶界面圖片來源: Google Research
LaMDA 本身的設(shè)計功能很簡單:給定一個單詞,預(yù)測下一個最有可能的單詞是什么,也可以理解成完形填空或者句子補完。
但是有趣的是,因為 LaMDA 的模型規(guī)模和訓(xùn)練數(shù)據(jù)量實在是太大了(來自于整個互聯(lián)網(wǎng)的文本),以至于它獲得了一種“潛意識”的能力,可以從語言中學(xué)習(xí)很多更高層次的概念——而正是這些高層次概念,對于創(chuàng)作者的工作流程能夠帶來非常大的幫助。
谷歌在 Wordcraft 用戶界面中設(shè)計了多種不同的功能,能夠讓創(chuàng)作者自己調(diào)整生成文本的風(fēng)格?!拔覀兿矚g把 Wordcraft 比喻成‘魔法文字編輯器’,它有著熟悉的網(wǎng)頁編輯器的樣子,背后卻集成了一系列 LaMDA 驅(qū)動的強大功能,”谷歌網(wǎng)頁如是寫道。
你可以用 Wordcraft 重寫語句,也可以讓他把調(diào)節(jié)你的原始文本從而“更有趣”(to be funnier) 或者“更憂郁” (to be more melancholy) 一點。
在過去一年時間里,谷歌舉行了一個“Wordcraft 作家研討會”的合作項目,找來了13位專業(yè)作家和文字創(chuàng)作者進行了長期深入的合作,讓他們在自己的創(chuàng)作過程中借助 Wordcraft 編輯器來創(chuàng)作短篇小說。
值得注意的是,知名科幻作家劉宇昆(熱劇《萬神殿》背后的小說作者、《三體》英文版譯者)也參與了這一項目。
他在寫作過程中遇到了一個場景,需要描述在商店里擺放的各種商品——過去此類寫作細(xì)節(jié)比較容易打亂寫作思路,但劉宇昆通過 Wordcraft 的幫助可以直接生成一個列表,節(jié)約了自己的腦容量,可以專心去寫對故事更重要的東西。
圖片來源: 新浪微博
而在另一個場景中,他發(fā)現(xiàn)自己的想象力被限制了,一直在重復(fù)熟悉的概念。于是他將“主動權(quán)”交給了 LaMDA,讓它來開頭,“這樣就能夠逼迫我探索一些從未想到過的可能性,發(fā)現(xiàn)新的寫作靈感?!?/strong>
你可以在 Wordcraft Writers Workshop 的官方頁面(閱讀原文按鈕)中找到劉宇昆在Wordcraft 幫助下撰寫的短篇小說Evaluative Soliloquies。順便,他還借用 Imagen 為小說生成了幾張插圖:
圖片來源:Emily Reif via Imagen
超長、連貫性視頻的生成,終于被攻破了?
大家對于 AI 文字生成圖片應(yīng)該都不算陌生了。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名產(chǎn)品問世;而谷歌也有自己的AI 文字轉(zhuǎn)圖片模型,并且一做就是兩個:Imagen(基于大預(yù)言模型和行業(yè)流行的擴散模型),和Parti(基于谷歌自家的 Pathways 框架)。
圖片來源:Google Research
盡管今年 AIGC 的熱鬧都被 Stable Diffusion 這些炸子雞給搶光了,低調(diào)沉穩(wěn)的谷歌并沒有躺平。
當(dāng)其他人都似乎“階段性”滿足于用文字提示做小圖片時,谷歌其實已經(jīng)在加速往前沖了:它比任何人都更早進入了“文字生成高分辨率視頻”,這一從未被探索過的復(fù)雜技術(shù)領(lǐng)域。
“生成高分辨率,且在時間上連貫的視頻,是非常困難的工作,” Google Research 高級研究總監(jiān) Douglas Eck 表示。
“不過好在,我們最近有兩項研究,Imagen Video 和 Phenaki,可以解決視頻生成的問題?!?/p>
圖片來源:Google Research
你可以這樣理解:文字轉(zhuǎn)圖片就是根據(jù)一段文字提示來生成一張(或者多張平行的圖片),而 Imagen Video 和 Phenaki 是可以根據(jù)多條文字提示,來生成在時序上連貫的多張照片——也就是視頻。
具體來說,Imagen Video是通過文本生成圖像 的擴散模型,能夠生成具有前所未有真實度的高清畫面;同時由于建立在基于 Transformer 技術(shù)的大規(guī)模語言模型上,它也具備極強的語言理解能力。
而 Phenaki 則是完全通過大語言模型,在時序上不斷生成 token 的方式來生成視頻。它的優(yōu)勢在于能夠生成極長(數(shù)分鐘)的視頻,且畫面的邏輯和視覺連貫性更強。
兩者結(jié)合,強強聯(lián)手,就得到了這樣一條清晰度高,視覺和邏輯上也更加連貫的視頻。
附:采用的文字提示
一個藍(lán)色的氣球插在紅杉樹的樹枝上
鏡頭從掛著藍(lán)色氣球的樹上移到動物園門口
鏡頭快速移動到動物園內(nèi)
第一人稱視角:在一個美麗的花園內(nèi)飛行
長頸鹿的頭從旁邊冒出來
長頸鹿走向一棵樹
放大長頸鹿的嘴
長頸鹿靠近樹枝,拿起一個藍(lán)色的氣球
一個帶白線的藍(lán)色氣球向長頸鹿的頭部飛去
長頸鹿在附近咀嚼藍(lán)氣球鏡頭
隨著單個藍(lán)氣球的飛走而向上傾斜
“說句實在話,這個項目不是我做的,但我覺得它真的非常令人驚訝?!盓ck 表示,這項技術(shù)最強大之處,就在于可以使用多條文字提示組成的序列,來生成超高清晰度的視頻,帶來一種全新的故事講述的能力。
“當(dāng)然,AI 視頻生成技術(shù)還處在襁褓階段,我們非常期待跟更多影視專業(yè)人士以及視覺內(nèi)容創(chuàng)作者合作,看他們會如何使用這項技術(shù)?!?/strong>
Douglas Eck圖片來源: 谷歌
無參考音頻生成
早年 OpenAI 發(fā)布 GPT 初代模型的論文標(biāo)題很經(jīng)典:“Language models are few-shot learners”,點出了大語言模型在極少量樣本的基礎(chǔ)上,就可以在多種自然語言處理類任務(wù)上展現(xiàn)出強大的能力——同時, 這個標(biāo)題預(yù)言了今后更強大的大語言模型,能夠做到更多更厲害的事情。
而今天,谷歌展示的 AudioLM 純音頻模型就驗證了這一預(yù)言。
圖片來源: Google Research
AudioLM 是一個具備“長期連貫性”的高質(zhì)量音頻生成框架,不需要任何文字或音樂符號表示的情況下,只在極短(三四秒即可)的音頻樣本基礎(chǔ)上進行訓(xùn)練,即可生成自然、連貫、真實的音頻結(jié)果,而且不限語音或者音樂。
用 AudioLM 生成的語句,在句法和語義上仍然保持了較高的可信度和連貫性,甚至能夠延續(xù)樣本中說話人的語氣。
更厲害的是,這個模型最初沒有用任何音樂數(shù)據(jù)進行訓(xùn)練,結(jié)果卻十分驚人:能夠從任何樂器或樂曲錄音中進行自動“續(xù)寫”——這一事實,再一次展現(xiàn)出了大語言模型的真正實力。
下面的音頻是一段20秒左右的鋼琴曲,先聽聽感受一下:
實際上只有前4秒是給到模型的提示,后面都是 AudioLM自己“補完”的。而且也只有這一段4秒的音頻樣本,沒有“鋼琴”、“進行曲”等之類的專業(yè)文字提示作為補充。
“你不需要給它提供整段樂曲來學(xué)習(xí),只要給它一小段,他就能直接在音樂的空間里開始續(xù)寫——任何的音頻片段都可以,無論是音樂還是語音?!盓ck 表示,這種無參考的音頻生成能力,早已超出了人們曾經(jīng)對于 AI 創(chuàng)作能力的認(rèn)知邊界。
其他 AIGC 技術(shù)、產(chǎn)品
除了上述新技術(shù)之外,谷歌還宣布了在其他內(nèi)容格式上的 AI 內(nèi)容生成技術(shù)。
比如,在二維的圖片/視頻基礎(chǔ)上,谷歌還讓文字轉(zhuǎn) 3D 模型成為了現(xiàn)實。通過結(jié)合 Imagen 和最新的神經(jīng)輻射場 (Neural Radiance Field) 技術(shù),谷歌開發(fā)出了DreamFusion 技術(shù)可以根據(jù)現(xiàn)有的文字描述,生成在具有高保真外觀、深度和法向量的 3D 模型,支持在不同光照條件下進行渲染。
圖片來源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)
以及,谷歌在今年 I/O 大會上面向公眾推出的嘗鮮應(yīng)用 AI Test Kitchen,也將在近期更新加入 LaMDA 模型創(chuàng)新所解鎖的新功能。比如“城市夢想家” (City Dreamer) 來用文字命令建造主體城市,或者“Wobble”來創(chuàng)造會扭動的卡通形象等。
用戶可以在對應(yīng)系統(tǒng)的應(yīng)用商城中下載 AI Test Kitchen,并且前往谷歌網(wǎng)站申請測試資格,實測審批速度挺快。
AI Test Kitchen支持 iOS 和 Android 系統(tǒng)/圖片來源:谷歌、蘋果
“我們在神經(jīng)網(wǎng)絡(luò)架構(gòu)、機器學(xué)習(xí)算法和應(yīng)用于機器學(xué)習(xí)的硬件新方法方面取得的進展,幫助 AI 為數(shù)十億人解決了重要的現(xiàn)實問題,”Jeff Dean 表示。
“更多的進展即將到來。我們今天分享的是對未來充滿希望的愿景:AI 正讓我們重新想象技術(shù)如何能夠帶來幫助?!?/strong>
注:封面圖來自于谷歌,版權(quán)屬于原作者。
- 谷歌又炫技:派個AI,幫科幻大師劉宇昆把小說寫了
- 今日熱搜:實體商超再戰(zhàn)直播帶貨
- 每日熱門:冬海集團失速,命懸電商和游戲?
- 全球熱門:*ST宜康連收3個漲停板
- 每日簡訊:財通證券給予華海清科增持評級:自主可控需求強勁 營收規(guī)模高速增長
- 今日看點:港股中國聯(lián)通開盤漲超6% 旗下子公司與騰訊創(chuàng)投新設(shè)合營企業(yè)
- 最資訊丨興瑞科技:公司凈利潤連續(xù)兩個季度創(chuàng)新高
- 中國聯(lián)通AH股皆高開低走
- 深圳畫美“感恩漂流月”漂來一股醫(yī)美清流
- 天天簡訊:飛天圓夢丨夢天升空,火箭“神經(jīng)中樞”背后的航天人
- 天天最資訊丨飛天圓夢|我國第四批航天員選拔等你參加
- 東方旗袍協(xié)會聯(lián)手《拾穗者商業(yè)聯(lián)合會》開展“愛滿桂林”活動
- 2022年第3批涉嫌非法社會組織名單公布 共10家
- 天天快訊:湖北省人大常委會委員、人事任免工作委員會主任趙東風(fēng)被查
- 【全球快播報】中信組團收購騰訊?非也,有動作的是聯(lián)通
- 陳文剛:把高質(zhì)量中藥產(chǎn)品帶到越南
- 新華全媒+丨貴州:“線上線下”搭臺助力就業(yè)困難群體找出路
- 【環(huán)球速看料】河南三門峽迎來越冬白天鵝
- 環(huán)球即時:建成“口袋公園”1049個!城市道路裝燈覆蓋率100%!河北城市改造提升工程年度任務(wù)提前完成
- 付完尾款16分鐘收到貨,為啥有的雙十一包裹這么快
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機動車檢測機構(gòu)開展監(jiān)督抽查 規(guī)范機動
- 天津北辰扎實做好價格監(jiān)管工作 維護安全有序市場
- 北京石景山開展冬季供暖前特種設(shè)備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費直
- 北京延慶對重點行業(yè)開展格式條款專項檢查 做好市
- 北京海淀開展電動自行車整治夜查行動 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場秩序 營造安全放心消