AI研究實(shí)驗(yàn)室DeepMind收購(gòu)并開源了MuJoCo,多關(guān)節(jié)動(dòng)力學(xué)(MuJoCo)可以為DeepMind的機(jī)器人研究提供新的動(dòng)力。這篇文章將追溯DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的。
DeepMind 終于逆襲了!
這家總部位于倫敦的AI研究公司在過去幾年虧損數(shù)億美元后,有史以來第一次實(shí)現(xiàn)了盈利!
DeepMind收購(gòu)MuJoCo
在2020年,DeepMind實(shí)現(xiàn)了5960萬(wàn)美元的利潤(rùn)。
而僅在一年前的2019年,DeepMind交出的還是一份高達(dá)6.49億美元(約42億人民幣)的虧損賬單。
作為一家人工智能初創(chuàng)公司,DeepMind成立十幾年來,研發(fā)了不少明星產(chǎn)品,比如AlphaGo,AlphaFold2,不斷光環(huán)加身。但光環(huán)背后,它的商業(yè)化之路一直走得有點(diǎn)艱辛。
近期,DeepMind在宣布史上首次實(shí)現(xiàn)盈利之后,第一次開始出手收購(gòu)。
10月19號(hào),DeepMind宣布,將機(jī)器人模擬器平臺(tái)MuJoCo收購(gòu),并準(zhǔn)備將其作為一個(gè)預(yù)編譯的開源庫(kù)發(fā)布,免費(fèi)提供給研究人員。
DeepMind表示,預(yù)計(jì)將在2022年發(fā)布MuJoCo的代碼庫(kù),并在Apache 2.0許可下將其作為開源軟件「繼續(xù)改進(jìn)」。
「我們的機(jī)器人團(tuán)隊(duì)一直在使用MuJoCo作為各種項(xiàng)目的模擬平臺(tái)。我們致力于開發(fā)和維護(hù)MuJoCo。MuJoCo作為一個(gè)免費(fèi)的、開源的、社區(qū)驅(qū)動(dòng)的項(xiàng)目,具有一流的能力。我們目前正在努力為MuJoCo的全面開源做準(zhǔn)備?!笵eepMind表示。
DeepMind創(chuàng)始人Demis Hassabis表示,公司的初衷就是用人工智能推動(dòng)科學(xué)發(fā)展,造福于人類。
DeepMind在機(jī)器人領(lǐng)域的進(jìn)展
此次收購(gòu)MuJoCo,并將其作為開源平臺(tái)開放給所有研究人員,并不是DeepMind第一次在機(jī)器人領(lǐng)域作出貢獻(xiàn)。
所以,DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的呢?
深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人
2016年,DeepMind的研究人員展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。
研究表明,基于deep Q-functions的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的三維操作任務(wù),并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略。
DeepMind進(jìn)一步表明,通過在異步共享策略更新的多個(gè)機(jī)器人之間進(jìn)行算法并行化,可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。
所提出的方法可以在模擬中學(xué)習(xí)各種3D操作技能和開門技能(通常被認(rèn)為是在機(jī)器人訓(xùn)練中比較復(fù)雜的任務(wù)),而無需手動(dòng)設(shè)計(jì)行為表示。
產(chǎn)生靈活的行為
2018年,DeepMind發(fā)表了三篇主要論文,展示了機(jī)器人可以實(shí)現(xiàn)靈活自然的行為,來適應(yīng)和解決任務(wù)。
科學(xué)家用各種模擬身體訓(xùn)練agent,讓他們?cè)诓煌牡匦紊咸S、轉(zhuǎn)身和蹲伏。結(jié)果表明,agent在沒有收到具體指示的情況下學(xué)會(huì)了這些技能。
另一篇論文展示了一種訓(xùn)練策略網(wǎng)絡(luò)的方法,該網(wǎng)絡(luò)模擬人類行為的動(dòng)作捕捉數(shù)據(jù),以預(yù)先學(xué)習(xí)諸如行走、從地面起身、轉(zhuǎn)彎和跑步等技能。
然后,這些行為經(jīng)過調(diào)整,可以改變用途,并解決其他任務(wù),如爬樓梯和通過有墻壁的走廊。
第三篇論文提出了一個(gè)基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)。
這項(xiàng)研究展示了這種架構(gòu)如何能夠?qū)W習(xí)不同行為之間的關(guān)系,并模仿向agent展示的特定動(dòng)作。
經(jīng)過訓(xùn)練后,這些系統(tǒng)可以編碼一個(gè)觀察到的動(dòng)作,并創(chuàng)造一個(gè)新的動(dòng)作。
擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)
DeepMind研究了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人框架,該框架使用大量的機(jī)器人體驗(yàn)數(shù)據(jù)集,然后使用學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到幾個(gè)任務(wù)。
該框架可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的物體操縱任務(wù)。
科學(xué)家們使用人類注釋作為監(jiān)督,讓agent學(xué)習(xí)獎(jiǎng)勵(lì)功能,并用任務(wù)不可知(task-agnostic)的記錄經(jīng)驗(yàn)來演示任務(wù)。這有助于agent處理現(xiàn)實(shí)世界中無法直接獲得獎(jiǎng)勵(lì)信號(hào)的任務(wù)。
基于學(xué)習(xí)到的獎(jiǎng)勵(lì)和從不同任務(wù)中獲得的大量經(jīng)驗(yàn)數(shù)據(jù)集,使用批量強(qiáng)化學(xué)習(xí)離線學(xué)習(xí)機(jī)器人策略,這種方法可以訓(xùn)練agent執(zhí)行具有挑戰(zhàn)性的操作任務(wù),如堆疊剛性物體。
堆疊的新基準(zhǔn)
最近,DeepMind推出了RGB堆疊,作為基于視覺的機(jī)器人操作任務(wù)的新基準(zhǔn)。
在這里,機(jī)器人必須學(xué)會(huì)如何抓住不同的物體,并使它們相互平衡。這不同于以前的工作,因?yàn)樗梦矬w非常多樣,為驗(yàn)證結(jié)果的準(zhǔn)確性也需要進(jìn)行各種經(jīng)驗(yàn)評(píng)估。
結(jié)果表明,使用模擬和真實(shí)世界數(shù)據(jù)的組合可以學(xué)習(xí)復(fù)雜的多對(duì)象操作。
這個(gè)實(shí)驗(yàn)為新物體的概括提出一個(gè)強(qiáng)有力的基線,也被認(rèn)為是DeepMind在制造通用機(jī)器人方面的一個(gè)重大進(jìn)步。
DeepMind現(xiàn)在將致力于讓機(jī)器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準(zhǔn)已經(jīng)與構(gòu)建真實(shí)機(jī)器人的RGB堆疊環(huán)境、RGB對(duì)象的模型和3D打印信息的設(shè)計(jì)一起開源。
MuJoCo
最后,來聊聊這次DeepMind收購(gòu)的MuJoCo。
MuJoCo(Multi-Joint Dynamics with Contact)是一款物理引擎模擬器,可促進(jìn)機(jī)器人學(xué)、生物力學(xué)、圖形、動(dòng)畫等需要快速準(zhǔn)確模擬的領(lǐng)域的研發(fā)。
MuJoCo由Emo Todorov為Roboti LLC開發(fā),是第一批全功能模擬器之一,從零開始設(shè)計(jì),通過觸點(diǎn)進(jìn)行基于模型的優(yōu)化。
在DeepMind被收購(gòu)之前,2015年至2021年間,MuJoCo一直是一款商業(yè)產(chǎn)品,也就意味著需要收費(fèi),而且并不便宜。
MuJoCo有助于提升計(jì)算密集型技術(shù),如最佳控制、系統(tǒng)識(shí)別、物理一致狀態(tài)估計(jì)和自動(dòng)化機(jī)構(gòu)設(shè)計(jì),然后將其應(yīng)用于具有豐富接觸行為的復(fù)雜動(dòng)態(tài)系統(tǒng)。
MuJoCo還有一些應(yīng)用,比如,在物理機(jī)器人、游戲和交互式科學(xué)部署之前,經(jīng)常會(huì)在MuJoCo上測(cè)試和驗(yàn)證控制方案。
機(jī)器人研究的未來
今年,DeepMind的競(jìng)爭(zhēng)對(duì)手OpenAI,在機(jī)器人領(lǐng)域投入多年的研究、資源和努力后,最終決定解散其機(jī)器人研究團(tuán)隊(duì),將重點(diǎn)轉(zhuǎn)移到數(shù)據(jù)更容易獲得的領(lǐng)域。
在機(jī)器人研發(fā)行業(yè),也有幾家基于機(jī)器人技術(shù)的公司已經(jīng)關(guān)門或者正在嚴(yán)重虧損。在這種情況下,機(jī)器人盡管是一個(gè)看似利潤(rùn)豐厚的行業(yè),但卻沒有買家。
不過,有谷歌的真金白銀的支持,再加上從不讓人失望的DeepMind的研發(fā)實(shí)力和研究機(jī)器人的決心,機(jī)器人領(lǐng)域的未來還是非常值得期待的。
參考資料
https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/
https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments
https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco
本文來自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,編輯:小咸魚,36氪經(jīng)授權(quán)發(fā)布。
- 濕地之美|廣州海珠濕地
- (熱點(diǎn)觀察 漫評(píng))美國(guó)對(duì)歐洲盟友“下狠手”
- 全球微動(dòng)態(tài)丨德媒文章:政治極化愈演愈烈,美國(guó)民主面臨墮落
- 每日觀察!海河觀津丨百萬(wàn)候鳥來“息”,它們?yōu)楹纹珢郾贝蟾郏?/a>
- 焦點(diǎn)!一起來拍中國(guó)空間站!
- 焦點(diǎn)播報(bào):北京新增本土感染者16例 詳情公布
- 天天快看點(diǎn)丨遼寧匯聚高校校友資源 引青年人才在遼創(chuàng)新創(chuàng)業(yè)
- 每日熱文:夢(mèng)天成功發(fā)射!天空飄來一個(gè)字:6
- 環(huán)球最資訊丨長(zhǎng)圖丨“院士天團(tuán)”做優(yōu)“湖南飯”,該是什么味?
- 常益懷等5市州明早有大霧 出行請(qǐng)注意安全
- 環(huán)球動(dòng)態(tài):11月全省溫高干旱持續(xù)發(fā)展
- 【全球獨(dú)家】10月制造業(yè)PMI為49.2% 建筑業(yè)景氣水平較高
- 環(huán)球今日訊!亞馬遜營(yíng)業(yè)利潤(rùn)率下降至2% 國(guó)內(nèi)頭部電商或進(jìn)一步搶占海外市場(chǎng)
- 國(guó)家藥監(jiān)局:促進(jìn)彩色隱形眼鏡生產(chǎn)經(jīng)營(yíng)企業(yè)規(guī)范化發(fā)展
- 即時(shí)焦點(diǎn):智慧芽升級(jí)科創(chuàng)力評(píng)估平臺(tái) 累計(jì)上線12條產(chǎn)業(yè)技術(shù)鏈
- 【世界熱聞】?jī)?nèi)蒙古啟動(dòng)人力資源誠(chéng)信服務(wù)示范機(jī)構(gòu)評(píng)選
- 環(huán)球觀焦點(diǎn):內(nèi)蒙古:這5項(xiàng)職業(yè)資格考試暫停
- 全球熱門:飛天圓夢(mèng)|靜待夢(mèng)天,中國(guó)空間站在軌建造收官在即
- 飛天圓夢(mèng)|“夢(mèng)天”已就位!楊利偉動(dòng)情講述“初代”航天人故事
- 對(duì)標(biāo)保時(shí)捷Taycan?大眾中國(guó)功勛蘇偉銘親自下場(chǎng)造車

- 北京石景山開展冬季供暖前特種設(shè)備安全專項(xiàng)檢查
- 陜西延安:開展兒童化妝品專項(xiàng)檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項(xiàng)監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進(jìn)網(wǎng)絡(luò)直播營(yíng)銷治理顯成效 培育放心消費(fèi)直
- 北京延慶對(duì)重點(diǎn)行業(yè)開展格式條款專項(xiàng)檢查 做好市
- 北京海淀開展電動(dòng)自行車整治夜查行動(dòng) 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場(chǎng)秩序 營(yíng)造安全放心消
- 福建寧化開展“兩品一械”網(wǎng)絡(luò)銷售專項(xiàng)檢查 保障
- 北京懷柔:開展市場(chǎng)綜合執(zhí)法監(jiān)督檢查 督導(dǎo)各類經(jīng)
- 天津河?xùn)|:多措并舉推進(jìn)企業(yè)信用修復(fù)工作 助力轄
- 1 濕地之美|廣州海珠濕地
- 2 (熱點(diǎn)觀察 漫評(píng))美國(guó)對(duì)歐洲盟友“下狠手”
- 3 全球微動(dòng)態(tài)丨德媒文章:政治極化愈演愈烈,美國(guó)民主
- 4 5 焦點(diǎn)!一起來拍中國(guó)空間站!
- 6 焦點(diǎn)播報(bào):北京新增本土感染者16例 詳情公布
- 7 天天快看點(diǎn)丨遼寧匯聚高校校友資源 引青年人才在遼
- 8 每日熱文:夢(mèng)天成功發(fā)射!天空飄來一個(gè)字:6
- 9 環(huán)球最資訊丨長(zhǎng)圖丨“院士天團(tuán)”做優(yōu)“湖南飯”,該
- 10 常益懷等5市州明早有大霧 出行請(qǐng)注意安全