首頁>資訊 >
世界看熱訊:Meta這套生成式AI,專為全身Avatar而來 2023-03-27 19:45:09  來源:36氪

一提起Meta Avatar虛擬化身,常常有人吐槽它只有半截身子,看起來不自然。的確,盡管Quest整體VR體驗優(yōu)秀,但出于對硬件設計、成本的考慮,技術上依然有限制,比如不能準確追蹤下半身,而這種限制也影響了早期的一些VR社交應用,比如《Rec Room》。


【資料圖】

Quest不能追蹤下半身,是因為頭顯不具備相應的傳感器,而Meta也沒有推出官方的體感追蹤套件(比如PC VR頭顯可使用Vive Tracker)。Meta的策略,是盡可能簡化VR的使用流程,如果為頭顯配備定位模塊,無疑讓設置過程更復雜,且硬件成本更高。為了滿足用戶對全身Avatar的需求,Meta不久前為Avatar加入了模擬的腿部運動,并通過Body Tracking API開放給開發(fā)者。

據(jù)了解,Meta Avatar將通過頭、手三點的定位信息來推算下半身動作,這顯然并不精準。拿《VRChat》來講,雖然該應用中的虛擬化身有下半身,但并不能跟隨用戶下半身運動而變化,,意味著Avatar不能模擬自然下蹲、躺下等動作,如果用戶在開啟VR應用時摘下頭顯放在桌上或地上,VR內(nèi)的Avatar可能會呈現(xiàn)奇怪的姿勢,具有一定恐怖谷效應。

為了完善Avatar下半身模擬的效果,Meta研發(fā)了一種基于MLP架構的條件擴散模型:AGRoL(Avatars Grow Legs),該模型宣稱可根據(jù)稀疏的信號生成全身姿態(tài),由于其運行速度足夠快,因此也適合VR社交等在線多人應用。

關于AGRoL

Meta指出,隨著AR/VR用戶群增長,越來越多的人渴望能自然、精準控制的全身Avatar。然而,VR一體機在下半身追蹤上具有一定局限,因為它只通過頭顯、手柄來定位,只能捕捉到少量、稀疏IMU的信號,而且通常僅用于定位和重建上半身部位,比如頭部和手腕。想要定位下半身,通常需要額外的IMU模塊,缺點是成本高、使用不方便。

簡單來講,Quest系統(tǒng)不能通過頭顯捕捉的信息準確的追蹤下半身,而只能通過追蹤上半身關節(jié)運動來提取有限的信息,用于合成下半身運動。也就是說,用算法來預測和模擬Avatar的下半身動作。通常,從頭、手三點預測全身動作的算法依賴于生成模型,比如標準化流(Normalizing Flow),或是變分自編碼器(VAE)。而在各類生成模型中,擴散模型開始在圖像、視頻生成方面取得不錯的成果,尤其是條件擴散模型。

因此,Meta科研人員提出了一種全新的條件擴散模型:AGRoL(全稱為“Avatar長腿”),該模型由簡單的多層感知器架構(MLP)、運動數(shù)據(jù)調(diào)節(jié)方案組成,專門以稀疏信號為條件,根據(jù)上半身定位來生成全身姿態(tài)。據(jù)了解,這種只利用稀疏定位信息重建全身姿態(tài)的擴散模型,為市面上首例。

據(jù)稱,AGRoL是專門為條件運動合成任務量身定制的,可預測出準確、流暢的全身運動。與常見的擴散架構相反,它基于緊湊型架構,可實時運行(在單個NVIDIA V100 GPU上運行時,計算過程僅6毫秒),因此可用于在線身體追蹤應用,比如VR社交軟件、多人VR游戲等等。

此外AGRoL提升了MLP網(wǎng)絡性能,并超越了此前的方案,明顯降低了抖動誤差,因此和AvatarPoser等其他模型相比,ARGoL生成的動作更加平滑。此外,在追蹤信號丟失的情況下,ARGoL的準確度下降不多,因此在追蹤信號稀疏的情況下也能較準確的模擬運動。

不過,目前ARGoL方案可能出現(xiàn)地板穿透偽影,后續(xù)或許可以通過額外的物理約束,來改善該問題。

其他VR全身定位方案

除了預測算法外,VR也可以使用其他的全身動捕方案,比如:光學Marker、深度相機、RGB相機骨骼動作識別等等。相比之下,AGRoL雖然依靠預測而非準確追蹤,但它的優(yōu)勢是成本低,用戶無需購買甚至設置額外的硬件,因此用起來很方便。

除了AGRoL外,此前也有將人體運動數(shù)據(jù)與機器學習模型結(jié)合的方案,比如Standable。這是一種無攝像頭全身追蹤方案,主要是通過算法來模擬VR追蹤不到的下肢(如骨盆、膝蓋、腿部或關節(jié)處),其特點是校準流程輕量化,只需要確認眼部位置即可,此外支持復雜的動作模擬,比如蹲下、躺下、趴下、走路、慢跑等等。相比于Standable,AGRoL的優(yōu)勢是專為Quest打造,與硬件配合更好,尤其是實時運行能力強。

此前青亭網(wǎng)也曾報道多種VR全身定位方案,比如卡內(nèi)基梅隆大學,在VR手柄上配備廣角相機來追蹤下半身,或是Meta此前提出的基于電磁原理的6D姿態(tài)追蹤方案。值得注意的是,索尼在去年也推出了便攜式全身動捕產(chǎn)品:Mocopi(售價360美元),未來也許和VR可以有很好的結(jié)合。

參考:

https://research.facebook.com/file/887324682720918/Avatars-Grow-Legs-Generating-Smooth-Human-Motion-from-Sparse-Tracking-Inputs-with-Diffusion-Model.pdf

關鍵詞:

相關閱讀:
熱點
圖片