欧美日韩亚洲大陆国产,国产最新一区二区三区天堂 ,日本一级a爱免费

11年，從虧損6個(gè)億到盈利6千萬(wàn)，DeepMind不止于AlphaGo和AlphaFold 2021-11-01 12:23:17　　來(lái)源：36氪

AI研究實(shí)驗(yàn)室DeepMind收購(gòu)并開(kāi)源了MuJoCo，多關(guān)節(jié)動(dòng)力學(xué)(MuJoCo)可以為DeepMind的機(jī)器人研究提供新的動(dòng)力。這篇文章將追溯DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的。

DeepMind 終于逆襲了！

這家總部位于倫敦的AI研究公司在過(guò)去幾年虧損數(shù)億美元后，有史以來(lái)第一次實(shí)現(xiàn)了盈利!

DeepMind收購(gòu)MuJoCo

在2020年，DeepMind實(shí)現(xiàn)了5960萬(wàn)美元的利潤(rùn)。

而僅在一年前的2019年，DeepMind交出的還是一份高達(dá)6.49億美元（約42億人民幣）的虧損賬單。

作為一家人工智能初創(chuàng)公司，DeepMind成立十幾年來(lái)，研發(fā)了不少明星產(chǎn)品，比如AlphaGo，AlphaFold2，不斷光環(huán)加身。但光環(huán)背后，它的商業(yè)化之路一直走得有點(diǎn)艱辛。

近期，DeepMind在宣布史上首次實(shí)現(xiàn)盈利之后，第一次開(kāi)始出手收購(gòu)。

10月19號(hào)，DeepMind宣布，將機(jī)器人模擬器平臺(tái)MuJoCo收購(gòu)，并準(zhǔn)備將其作為一個(gè)預(yù)編譯的開(kāi)源庫(kù)發(fā)布，免費(fèi)提供給研究人員。

DeepMind表示，預(yù)計(jì)將在2022年發(fā)布MuJoCo的代碼庫(kù)，并在Apache 2.0許可下將其作為開(kāi)源軟件「繼續(xù)改進(jìn)」。

「我們的機(jī)器人團(tuán)隊(duì)一直在使用MuJoCo作為各種項(xiàng)目的模擬平臺(tái)。我們致力于開(kāi)發(fā)和維護(hù)MuJoCo。MuJoCo作為一個(gè)免費(fèi)的、開(kāi)源的、社區(qū)驅(qū)動(dòng)的項(xiàng)目，具有一流的能力。我們目前正在努力為MuJoCo的全面開(kāi)源做準(zhǔn)備?！笵eepMind表示。

DeepMind創(chuàng)始人Demis Hassabis表示，公司的初衷就是用人工智能推動(dòng)科學(xué)發(fā)展，造福于人類。

DeepMind在機(jī)器人領(lǐng)域的進(jìn)展

此次收購(gòu)MuJoCo，并將其作為開(kāi)源平臺(tái)開(kāi)放給所有研究人員，并不是DeepMind第一次在機(jī)器人領(lǐng)域作出貢獻(xiàn)。

所以，DeepMind是如何一直在機(jī)器人領(lǐng)域努力突破極限的呢？

深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人

2016年，DeepMind的研究人員展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。

研究表明，基于deep Q-functions的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的三維操作任務(wù)，并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略。

DeepMind進(jìn)一步表明，通過(guò)在異步共享策略更新的多個(gè)機(jī)器人之間進(jìn)行算法并行化，可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。

所提出的方法可以在模擬中學(xué)習(xí)各種3D操作技能和開(kāi)門(mén)技能(通常被認(rèn)為是在機(jī)器人訓(xùn)練中比較復(fù)雜的任務(wù))，而無(wú)需手動(dòng)設(shè)計(jì)行為表示。

產(chǎn)生靈活的行為

2018年，DeepMind發(fā)表了三篇主要論文，展示了機(jī)器人可以實(shí)現(xiàn)靈活自然的行為，來(lái)適應(yīng)和解決任務(wù)。

科學(xué)家用各種模擬身體訓(xùn)練agent，讓他們?cè)诓煌牡匦紊咸S、轉(zhuǎn)身和蹲伏。結(jié)果表明，agent在沒(méi)有收到具體指示的情況下學(xué)會(huì)了這些技能。

另一篇論文展示了一種訓(xùn)練策略網(wǎng)絡(luò)的方法，該網(wǎng)絡(luò)模擬人類行為的動(dòng)作捕捉數(shù)據(jù)，以預(yù)先學(xué)習(xí)諸如行走、從地面起身、轉(zhuǎn)彎和跑步等技能。

然后，這些行為經(jīng)過(guò)調(diào)整，可以改變用途，并解決其他任務(wù)，如爬樓梯和通過(guò)有墻壁的走廊。

第三篇論文提出了一個(gè)基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)。

這項(xiàng)研究展示了這種架構(gòu)如何能夠?qū)W習(xí)不同行為之間的關(guān)系，并模仿向agent展示的特定動(dòng)作。

經(jīng)過(guò)訓(xùn)練后，這些系統(tǒng)可以編碼一個(gè)觀察到的動(dòng)作，并創(chuàng)造一個(gè)新的動(dòng)作。

擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)

DeepMind研究了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人框架，該框架使用大量的機(jī)器人體驗(yàn)數(shù)據(jù)集，然后使用學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到幾個(gè)任務(wù)。

該框架可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的物體操縱任務(wù)。

科學(xué)家們使用人類注釋作為監(jiān)督，讓agent學(xué)習(xí)獎(jiǎng)勵(lì)功能，并用任務(wù)不可知（task-agnostic）的記錄經(jīng)驗(yàn)來(lái)演示任務(wù)。這有助于agent處理現(xiàn)實(shí)世界中無(wú)法直接獲得獎(jiǎng)勵(lì)信號(hào)的任務(wù)。

基于學(xué)習(xí)到的獎(jiǎng)勵(lì)和從不同任務(wù)中獲得的大量經(jīng)驗(yàn)數(shù)據(jù)集，使用批量強(qiáng)化學(xué)習(xí)離線學(xué)習(xí)機(jī)器人策略，這種方法可以訓(xùn)練agent執(zhí)行具有挑戰(zhàn)性的操作任務(wù)，如堆疊剛性物體。

堆疊的新基準(zhǔn)

最近，DeepMind推出了RGB堆疊，作為基于視覺(jué)的機(jī)器人操作任務(wù)的新基準(zhǔn)。

在這里，機(jī)器人必須學(xué)會(huì)如何抓住不同的物體，并使它們相互平衡。這不同于以前的工作，因?yàn)樗梦矬w非常多樣，為驗(yàn)證結(jié)果的準(zhǔn)確性也需要進(jìn)行各種經(jīng)驗(yàn)評(píng)估。

結(jié)果表明，使用模擬和真實(shí)世界數(shù)據(jù)的組合可以學(xué)習(xí)復(fù)雜的多對(duì)象操作。

這個(gè)實(shí)驗(yàn)為新物體的概括提出一個(gè)強(qiáng)有力的基線，也被認(rèn)為是DeepMind在制造通用機(jī)器人方面的一個(gè)重大進(jìn)步。

DeepMind現(xiàn)在將致力于讓機(jī)器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準(zhǔn)已經(jīng)與構(gòu)建真實(shí)機(jī)器人的RGB堆疊環(huán)境、RGB對(duì)象的模型和3D打印信息的設(shè)計(jì)一起開(kāi)源。

MuJoCo

最后，來(lái)聊聊這次DeepMind收購(gòu)的MuJoCo。

MuJoCo（Multi-Joint Dynamics with Contact）是一款物理引擎模擬器，可促進(jìn)機(jī)器人學(xué)、生物力學(xué)、圖形、動(dòng)畫(huà)等需要快速準(zhǔn)確模擬的領(lǐng)域的研發(fā)。

MuJoCo由Emo Todorov為Roboti LLC開(kāi)發(fā)，是第一批全功能模擬器之一，從零開(kāi)始設(shè)計(jì)，通過(guò)觸點(diǎn)進(jìn)行基于模型的優(yōu)化。

在DeepMind被收購(gòu)之前，2015年至2021年間，MuJoCo一直是一款商業(yè)產(chǎn)品，也就意味著需要收費(fèi)，而且并不便宜。

MuJoCo有助于提升計(jì)算密集型技術(shù)，如最佳控制、系統(tǒng)識(shí)別、物理一致?tīng)顟B(tài)估計(jì)和自動(dòng)化機(jī)構(gòu)設(shè)計(jì)，然后將其應(yīng)用于具有豐富接觸行為的復(fù)雜動(dòng)態(tài)系統(tǒng)。

MuJoCo還有一些應(yīng)用，比如，在物理機(jī)器人、游戲和交互式科學(xué)部署之前，經(jīng)常會(huì)在MuJoCo上測(cè)試和驗(yàn)證控制方案。

機(jī)器人研究的未來(lái)

今年，DeepMind的競(jìng)爭(zhēng)對(duì)手OpenAI，在機(jī)器人領(lǐng)域投入多年的研究、資源和努力后，最終決定解散其機(jī)器人研究團(tuán)隊(duì)，將重點(diǎn)轉(zhuǎn)移到數(shù)據(jù)更容易獲得的領(lǐng)域。

在機(jī)器人研發(fā)行業(yè)，也有幾家基于機(jī)器人技術(shù)的公司已經(jīng)關(guān)門(mén)或者正在嚴(yán)重虧損。在這種情況下，機(jī)器人盡管是一個(gè)看似利潤(rùn)豐厚的行業(yè)，但卻沒(méi)有買(mǎi)家。

不過(guò)，有谷歌的真金白銀的支持，再加上從不讓人失望的DeepMind的研發(fā)實(shí)力和研究機(jī)器人的決心，機(jī)器人領(lǐng)域的未來(lái)還是非常值得期待的。

參考資料

https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/

https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments

https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco

本文來(lái)自微信公眾號(hào)“新智元”（ID:AI_era），作者：新智元，編輯：小咸魚(yú)，36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞： AlphaFold AlphaGo DeepMind

相關(guān)閱讀：

熱點(diǎn)

維權(quán)

圖片圖片

資訊推薦