一级免费毛片,天天精品视频免费观看

首頁>資訊 >

11年，從虧損6個億到盈利6千萬，DeepMind不止于AlphaGo和AlphaFold 2021-11-01 12:23:17　　來源：36氪

AI研究實驗室DeepMind收購并開源了MuJoCo，多關節(jié)動力學(MuJoCo)可以為DeepMind的機器人研究提供新的動力。這篇文章將追溯DeepMind是如何一直在機器人領域努力突破極限的。

DeepMind 終于逆襲了！

這家總部位于倫敦的AI研究公司在過去幾年虧損數(shù)億美元后，有史以來第一次實現(xiàn)了盈利!

DeepMind收購MuJoCo

在2020年，DeepMind實現(xiàn)了5960萬美元的利潤。

而僅在一年前的2019年，DeepMind交出的還是一份高達6.49億美元（約42億人民幣）的虧損賬單。

作為一家人工智能初創(chuàng)公司，DeepMind成立十幾年來，研發(fā)了不少明星產品，比如AlphaGo，AlphaFold2，不斷光環(huán)加身。但光環(huán)背后，它的商業(yè)化之路一直走得有點艱辛。

近期，DeepMind在宣布史上首次實現(xiàn)盈利之后，第一次開始出手收購。

10月19號，DeepMind宣布，將機器人模擬器平臺MuJoCo收購，并準備將其作為一個預編譯的開源庫發(fā)布，免費提供給研究人員。

DeepMind表示，預計將在2022年發(fā)布MuJoCo的代碼庫，并在Apache 2.0許可下將其作為開源軟件「繼續(xù)改進」。

「我們的機器人團隊一直在使用MuJoCo作為各種項目的模擬平臺。我們致力于開發(fā)和維護MuJoCo。MuJoCo作為一個免費的、開源的、社區(qū)驅動的項目，具有一流的能力。我們目前正在努力為MuJoCo的全面開源做準備?！笵eepMind表示。

DeepMind創(chuàng)始人Demis Hassabis表示，公司的初衷就是用人工智能推動科學發(fā)展，造福于人類。

DeepMind在機器人領域的進展

此次收購MuJoCo，并將其作為開源平臺開放給所有研究人員，并不是DeepMind第一次在機器人領域作出貢獻。

所以，DeepMind是如何一直在機器人領域努力突破極限的呢？

深度強化學習訓練機器人

2016年，DeepMind的研究人員展示了深度強化學習如何訓練真正的物理機器人。

研究表明，基于deep Q-functions的強化學習算法可以擴展到復雜的三維操作任務，并有效地學習深度神經網絡策略。

DeepMind進一步表明，通過在異步共享策略更新的多個機器人之間進行算法并行化，可以進一步減少訓練機器人的時間。

所提出的方法可以在模擬中學習各種3D操作技能和開門技能(通常被認為是在機器人訓練中比較復雜的任務)，而無需手動設計行為表示。

產生靈活的行為

2018年，DeepMind發(fā)表了三篇主要論文，展示了機器人可以實現(xiàn)靈活自然的行為，來適應和解決任務。

科學家用各種模擬身體訓練agent，讓他們在不同的地形上跳躍、轉身和蹲伏。結果表明，agent在沒有收到具體指示的情況下學會了這些技能。

另一篇論文展示了一種訓練策略網絡的方法，該網絡模擬人類行為的動作捕捉數(shù)據，以預先學習諸如行走、從地面起身、轉彎和跑步等技能。

然后，這些行為經過調整，可以改變用途，并解決其他任務，如爬樓梯和通過有墻壁的走廊。

第三篇論文提出了一個基于最先進的生成模型的神經網絡體系結構。

這項研究展示了這種架構如何能夠學習不同行為之間的關系，并模仿向agent展示的特定動作。

經過訓練后，這些系統(tǒng)可以編碼一個觀察到的動作，并創(chuàng)造一個新的動作。

擴展數(shù)據驅動的機器人技術

DeepMind研究了一個數(shù)據驅動的機器人框架，該框架使用大量的機器人體驗數(shù)據集，然后使用學習獎勵函數(shù)將其擴展到幾個任務。

該框架可用于在真實機器人平臺上完成三種不同的物體操縱任務。

科學家們使用人類注釋作為監(jiān)督，讓agent學習獎勵功能，并用任務不可知（task-agnostic）的記錄經驗來演示任務。這有助于agent處理現(xiàn)實世界中無法直接獲得獎勵信號的任務。

基于學習到的獎勵和從不同任務中獲得的大量經驗數(shù)據集，使用批量強化學習離線學習機器人策略，這種方法可以訓練agent執(zhí)行具有挑戰(zhàn)性的操作任務，如堆疊剛性物體。

堆疊的新基準

最近，DeepMind推出了RGB堆疊，作為基于視覺的機器人操作任務的新基準。

在這里，機器人必須學會如何抓住不同的物體，并使它們相互平衡。這不同于以前的工作，因為所用物體非常多樣，為驗證結果的準確性也需要進行各種經驗評估。

結果表明，使用模擬和真實世界數(shù)據的組合可以學習復雜的多對象操作。

這個實驗為新物體的概括提出一個強有力的基線，也被認為是DeepMind在制造通用機器人方面的一個重大進步。

DeepMind現(xiàn)在將致力于讓機器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準已經與構建真實機器人的RGB堆疊環(huán)境、RGB對象的模型和3D打印信息的設計一起開源。

MuJoCo

最后，來聊聊這次DeepMind收購的MuJoCo。

MuJoCo（Multi-Joint Dynamics with Contact）是一款物理引擎模擬器，可促進機器人學、生物力學、圖形、動畫等需要快速準確模擬的領域的研發(fā)。

MuJoCo由Emo Todorov為Roboti LLC開發(fā)，是第一批全功能模擬器之一，從零開始設計，通過觸點進行基于模型的優(yōu)化。

在DeepMind被收購之前，2015年至2021年間，MuJoCo一直是一款商業(yè)產品，也就意味著需要收費，而且并不便宜。

MuJoCo有助于提升計算密集型技術，如最佳控制、系統(tǒng)識別、物理一致狀態(tài)估計和自動化機構設計，然后將其應用于具有豐富接觸行為的復雜動態(tài)系統(tǒng)。

MuJoCo還有一些應用，比如，在物理機器人、游戲和交互式科學部署之前，經常會在MuJoCo上測試和驗證控制方案。

機器人研究的未來

今年，DeepMind的競爭對手OpenAI，在機器人領域投入多年的研究、資源和努力后，最終決定解散其機器人研究團隊，將重點轉移到數(shù)據更容易獲得的領域。

在機器人研發(fā)行業(yè)，也有幾家基于機器人技術的公司已經關門或者正在嚴重虧損。在這種情況下，機器人盡管是一個看似利潤豐厚的行業(yè)，但卻沒有買家。

不過，有谷歌的真金白銀的支持，再加上從不讓人失望的DeepMind的研發(fā)實力和研究機器人的決心，機器人領域的未來還是非常值得期待的。

參考資料

https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/

https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments

https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco

本文來自微信公眾號“新智元”（ID:AI_era），作者：新智元，編輯：小咸魚，36氪經授權發(fā)布。

關鍵詞： AlphaFold AlphaGo DeepMind