首頁(yè)>資訊 >
11年,從虧損6個(gè)億到盈利6千萬(wàn),DeepMind不止于AlphaGo和AlphaFold 2021-11-01 12:23:17  來(lái)源:36氪

AI研究實(shí)驗(yàn)室DeepMind收購(gòu)并開(kāi)源了MuJoCo,多關(guān)節(jié)動(dòng)力學(xué)(MuJoCo)可以為DeepMind的機(jī)器人研究提供新的動(dòng)力。這篇文章將追溯DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的。

DeepMind 終于逆襲了!

這家總部位于倫敦的AI研究公司在過(guò)去幾年虧損數(shù)億美元后,有史以來(lái)第一次實(shí)現(xiàn)了盈利!

DeepMind收購(gòu)MuJoCo

在2020年,DeepMind實(shí)現(xiàn)了5960萬(wàn)美元的利潤(rùn)。

而僅在一年前的2019年,DeepMind交出的還是一份高達(dá)6.49億美元(約42億人民幣)的虧損賬單。

作為一家人工智能初創(chuàng)公司,DeepMind成立十幾年來(lái),研發(fā)了不少明星產(chǎn)品,比如AlphaGo,AlphaFold2,不斷光環(huán)加身。但光環(huán)背后,它的商業(yè)化之路一直走得有點(diǎn)艱辛。

近期,DeepMind在宣布史上首次實(shí)現(xiàn)盈利之后,第一次開(kāi)始出手收購(gòu)。

10月19號(hào),DeepMind宣布,將機(jī)器人模擬器平臺(tái)MuJoCo收購(gòu),并準(zhǔn)備將其作為一個(gè)預(yù)編譯的開(kāi)源庫(kù)發(fā)布,免費(fèi)提供給研究人員。

DeepMind表示,預(yù)計(jì)將在2022年發(fā)布MuJoCo的代碼庫(kù),并在Apache 2.0許可下將其作為開(kāi)源軟件「繼續(xù)改進(jìn)」。

「我們的機(jī)器人團(tuán)隊(duì)一直在使用MuJoCo作為各種項(xiàng)目的模擬平臺(tái)。我們致力于開(kāi)發(fā)和維護(hù)MuJoCo。MuJoCo作為一個(gè)免費(fèi)的、開(kāi)源的、社區(qū)驅(qū)動(dòng)的項(xiàng)目,具有一流的能力。我們目前正在努力為MuJoCo的全面開(kāi)源做準(zhǔn)備?!笵eepMind表示。

DeepMind創(chuàng)始人Demis Hassabis表示,公司的初衷就是用人工智能推動(dòng)科學(xué)發(fā)展,造福于人類。

DeepMind在機(jī)器人領(lǐng)域的進(jìn)展

此次收購(gòu)MuJoCo,并將其作為開(kāi)源平臺(tái)開(kāi)放給所有研究人員,并不是DeepMind第一次在機(jī)器人領(lǐng)域作出貢獻(xiàn)。

所以,DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的呢?

深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人

2016年,DeepMind的研究人員展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。

研究表明,基于deep Q-functions的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的三維操作任務(wù),并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略。

DeepMind進(jìn)一步表明,通過(guò)在異步共享策略更新的多個(gè)機(jī)器人之間進(jìn)行算法并行化,可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。

所提出的方法可以在模擬中學(xué)習(xí)各種3D操作技能和開(kāi)門(mén)技能(通常被認(rèn)為是在機(jī)器人訓(xùn)練中比較復(fù)雜的任務(wù)),而無(wú)需手動(dòng)設(shè)計(jì)行為表示。

產(chǎn)生靈活的行為

2018年,DeepMind發(fā)表了三篇主要論文,展示了機(jī)器人可以實(shí)現(xiàn)靈活自然的行為,來(lái)適應(yīng)和解決任務(wù)。

科學(xué)家用各種模擬身體訓(xùn)練agent,讓他們?cè)诓煌牡匦紊咸S、轉(zhuǎn)身和蹲伏。結(jié)果表明,agent在沒(méi)有收到具體指示的情況下學(xué)會(huì)了這些技能。

另一篇論文展示了一種訓(xùn)練策略網(wǎng)絡(luò)的方法,該網(wǎng)絡(luò)模擬人類行為的動(dòng)作捕捉數(shù)據(jù),以預(yù)先學(xué)習(xí)諸如行走、從地面起身、轉(zhuǎn)彎和跑步等技能。

然后,這些行為經(jīng)過(guò)調(diào)整,可以改變用途,并解決其他任務(wù),如爬樓梯和通過(guò)有墻壁的走廊。

第三篇論文提出了一個(gè)基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)。

這項(xiàng)研究展示了這種架構(gòu)如何能夠?qū)W習(xí)不同行為之間的關(guān)系,并模仿向agent展示的特定動(dòng)作。

經(jīng)過(guò)訓(xùn)練后,這些系統(tǒng)可以編碼一個(gè)觀察到的動(dòng)作,并創(chuàng)造一個(gè)新的動(dòng)作。

擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)

DeepMind研究了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人框架,該框架使用大量的機(jī)器人體驗(yàn)數(shù)據(jù)集,然后使用學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到幾個(gè)任務(wù)。

該框架可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的物體操縱任務(wù)。

科學(xué)家們使用人類注釋作為監(jiān)督,讓agent學(xué)習(xí)獎(jiǎng)勵(lì)功能,并用任務(wù)不可知(task-agnostic)的記錄經(jīng)驗(yàn)來(lái)演示任務(wù)。這有助于agent處理現(xiàn)實(shí)世界中無(wú)法直接獲得獎(jiǎng)勵(lì)信號(hào)的任務(wù)。

基于學(xué)習(xí)到的獎(jiǎng)勵(lì)和從不同任務(wù)中獲得的大量經(jīng)驗(yàn)數(shù)據(jù)集,使用批量強(qiáng)化學(xué)習(xí)離線學(xué)習(xí)機(jī)器人策略,這種方法可以訓(xùn)練agent執(zhí)行具有挑戰(zhàn)性的操作任務(wù),如堆疊剛性物體。

堆疊的新基準(zhǔn)

最近,DeepMind推出了RGB堆疊,作為基于視覺(jué)的機(jī)器人操作任務(wù)的新基準(zhǔn)。

在這里,機(jī)器人必須學(xué)會(huì)如何抓住不同的物體,并使它們相互平衡。這不同于以前的工作,因?yàn)樗梦矬w非常多樣,為驗(yàn)證結(jié)果的準(zhǔn)確性也需要進(jìn)行各種經(jīng)驗(yàn)評(píng)估。

結(jié)果表明,使用模擬和真實(shí)世界數(shù)據(jù)的組合可以學(xué)習(xí)復(fù)雜的多對(duì)象操作。

這個(gè)實(shí)驗(yàn)為新物體的概括提出一個(gè)強(qiáng)有力的基線,也被認(rèn)為是DeepMind在制造通用機(jī)器人方面的一個(gè)重大進(jìn)步。

DeepMind現(xiàn)在將致力于讓機(jī)器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準(zhǔn)已經(jīng)與構(gòu)建真實(shí)機(jī)器人的RGB堆疊環(huán)境、RGB對(duì)象的模型和3D打印信息的設(shè)計(jì)一起開(kāi)源。

MuJoCo

最后,來(lái)聊聊這次DeepMind收購(gòu)的MuJoCo。

MuJoCo(Multi-Joint Dynamics with Contact)是一款物理引擎模擬器,可促進(jìn)機(jī)器人學(xué)、生物力學(xué)、圖形、動(dòng)畫(huà)等需要快速準(zhǔn)確模擬的領(lǐng)域的研發(fā)。

MuJoCo由Emo Todorov為Roboti LLC開(kāi)發(fā),是第一批全功能模擬器之一,從零開(kāi)始設(shè)計(jì),通過(guò)觸點(diǎn)進(jìn)行基于模型的優(yōu)化。

在DeepMind被收購(gòu)之前,2015年至2021年間,MuJoCo一直是一款商業(yè)產(chǎn)品,也就意味著需要收費(fèi),而且并不便宜。

MuJoCo有助于提升計(jì)算密集型技術(shù),如最佳控制、系統(tǒng)識(shí)別、物理一致?tīng)顟B(tài)估計(jì)和自動(dòng)化機(jī)構(gòu)設(shè)計(jì),然后將其應(yīng)用于具有豐富接觸行為的復(fù)雜動(dòng)態(tài)系統(tǒng)。

MuJoCo還有一些應(yīng)用,比如,在物理機(jī)器人、游戲和交互式科學(xué)部署之前,經(jīng)常會(huì)在MuJoCo上測(cè)試和驗(yàn)證控制方案。

機(jī)器人研究的未來(lái)

今年,DeepMind的競(jìng)爭(zhēng)對(duì)手OpenAI,在機(jī)器人領(lǐng)域投入多年的研究、資源和努力后,最終決定解散其機(jī)器人研究團(tuán)隊(duì),將重點(diǎn)轉(zhuǎn)移到數(shù)據(jù)更容易獲得的領(lǐng)域。

在機(jī)器人研發(fā)行業(yè),也有幾家基于機(jī)器人技術(shù)的公司已經(jīng)關(guān)門(mén)或者正在嚴(yán)重虧損。在這種情況下,機(jī)器人盡管是一個(gè)看似利潤(rùn)豐厚的行業(yè),但卻沒(méi)有買(mǎi)家。

不過(guò),有谷歌的真金白銀的支持,再加上從不讓人失望的DeepMind的研發(fā)實(shí)力和研究機(jī)器人的決心,機(jī)器人領(lǐng)域的未來(lái)還是非常值得期待的。

參考資料

https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/

https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments

https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco

本文來(lái)自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,編輯:小咸魚(yú),36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: AlphaFold AlphaGo DeepMind

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片