首頁>資訊 >
在元宇宙聽不懂外語怎么辦?Meta:新技術(shù)可翻譯128種語言 2021-11-23 19:52:20  來源:36氪

作為元宇宙最堅(jiān)定的支持者之一,F(xiàn)acebook 在上個月宣布改名 Meta,此后便新動作不斷,先是推出了一個 觸覺手套 ,試圖讓人們在 VR 世界中也能體驗(yàn)到觸覺變化。

▲圖源:Meta

觸覺之后,Meta 又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你說英語,我說中文都能互相理解。

就這樣 XLS-R 來了,它是 Meta 最近發(fā)布的一個 AI 語言處理模型,最高能識別 128 種語言,目前已經(jīng)公布了網(wǎng)頁體驗(yàn)版。

▲XLS-R 網(wǎng)頁體驗(yàn)版僅支持語音輸入

體驗(yàn)版的功能有一定缺失,僅支持將 22 種語言翻譯為 16 種語言,我試了下最常見的英譯中,一段 7 秒左右英文語音,XLS-R 還是能相對準(zhǔn)確地識別,中文翻譯和英文識別都基本正確,兩者耗時都在 1.4 秒 左右,并不算短。

▲XLS-R 識別同一段語音的英文和中文翻譯結(jié)果

對比市面上常見語音翻譯應(yīng)用,這個速度和轉(zhuǎn)譯表現(xiàn)其實(shí)中規(guī)中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉(zhuǎn)譯會出錯。

XLS-R 的潛力體現(xiàn)在多語言通用 AI 模型上,據(jù) Meta 該技術(shù)基于 wac2vec 2.0 預(yù)訓(xùn)練模型,能將語音拆成拆成 25 毫秒的基本單元來分析,利用上下文轉(zhuǎn)換語音內(nèi)容,提升識別準(zhǔn)確度。

之后 Meta 又對 wac2vec 2.0 技術(shù)進(jìn)行了多次調(diào)整,嘗試處理多種語言,轉(zhuǎn)換準(zhǔn)確率提升了不少,經(jīng)過通過 436000 小時的公開錄音訓(xùn)練后,才有如今的 XLS-R。

▲XLS-R 識別單詞錯誤率更低. 圖源:Meta

XLS-R 僅僅用一種語言模型就可以轉(zhuǎn)換 128 種語言,和特殊領(lǐng)域使用特殊模型的常見做法不同,極大地提升了通用性。在官方博客中,Meta 表示它們的目標(biāo)是用單一模型識別全球 7000 多種語言,從而改進(jìn)轉(zhuǎn)換算法。

這是一個新的開始,離真正成為 Meta 所設(shè)想的虛擬世界基礎(chǔ)組成部分還比較難,這不僅僅和技術(shù)有關(guān),設(shè)備算力也是限制。

作為同在在自然語言識別領(lǐng)域擁有大量技術(shù)儲備的 Google,其實(shí)比 Meta 更早在消費(fèi)級設(shè)備上支持多語種翻譯功能,Pixel 6 系列支持 live Translate 功能,可以在聊天軟件中進(jìn)行翻譯,無障礙地與外語朋友交流。

只是 live Translate 功能支持的語言并不算多,主要還是英語、德語、日語之間的翻譯,哪怕 Pixel 6 所使用的 Tensor 芯片在 AI 性能方面已經(jīng)是冠絕全球,達(dá)到了驍龍 888+ 的三倍。

只有聯(lián)網(wǎng) live Translate 功能才能做到支持 48 種語言,而使用云計(jì)算技術(shù)的 Google 翻譯也僅支持 108 種語言,離 7000 種語言很遠(yuǎn)。

元宇宙離我們?nèi)匀挥幸欢尉嚯x,不過 XLS-R 等技術(shù)作為 Meta 口中虛擬世界的基礎(chǔ)建設(shè)之一,或許能在其他領(lǐng)域發(fā)揮作用,現(xiàn)在它已經(jīng)發(fā)布了 XLS-R 預(yù)訓(xùn)練模型的微調(diào)教程,讓業(yè)內(nèi)人士可以基于它進(jìn)行微調(diào)以便應(yīng)用到具體的工作當(dāng)中。

或許不久之后,我們能看到越來越多的應(yīng)用支持更多語種的語音轉(zhuǎn)譯功能。

本文來自微信公眾號“APPSO”(ID:appsolution),作者:周宇,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 新技術(shù) 宇宙 外語

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片