首頁>資訊 >
在元宇宙里怎么交朋友?Meta發(fā)布跨語種交流語音模型,支持128種語言無障礙對話 2021-11-23 15:22:13  來源:36氪

Meta 發(fā)布語音處理模型 XLS-R

近日,Meta 正式發(fā)布 XLS-R——一套用于各類語音任務(wù)的新型自監(jiān)督模型。據(jù)悉,XLS-R 由海量公共數(shù)據(jù)訓(xùn)練而成(數(shù)據(jù)量是過去的十倍),能夠?qū)鹘y(tǒng)多語言模型的語言支持量增加兩倍以上。目前,XLS-R 共支持 128 種語言。

Meta 認(rèn)為,語音交流是人們最自然的一種交互形式?!半S著語音技術(shù)的發(fā)展,我們已經(jīng)能夠通過對話同自己的設(shè)備及未來的虛擬世界直接互動,由此將虛擬體驗與現(xiàn)實(shí)世界融為一體。”

這與扎克伯格此前宣稱的“公司業(yè)務(wù)將以元宇宙優(yōu)先”不謀而合。此前,扎克伯格曾概述了他建立“元世界”的計劃:一個建立在我們自己的數(shù)字世界之上的數(shù)字世界,包括虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)。“我們相信元宇宙將會接替移動互聯(lián)網(wǎng)”。

而 XLS-R 作為元宇宙社交中必不可少的一環(huán),可以幫助母語不同的人在元宇宙無障礙對話。

值得一提的是,為了通過單一模型實(shí)現(xiàn)對多種語言的廣泛語音理解能力,Meta 對 XLS-R 進(jìn)行了微調(diào),使其獲得語音識別、語音翻譯及語言識別等功能。據(jù)介紹,XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 語音識別基準(zhǔn)測試,CoVoST-2 的外語到英文翻譯基準(zhǔn)測試,以及 VoxLingua107 語言識別基準(zhǔn)測試中都取得了不錯的成績。

為了盡可能降低功能訪問門檻,目前,Meta 與 Hugging Face 聯(lián)手發(fā)布了模型本體,并通過 fairseq GitHub repo 全面開放。

試用地址:https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

XLS-R 工作原理

據(jù)介紹,XLS-R 在 wav2vec 2.0 訓(xùn)練集上接受了超過 43 萬 6 千小時的公開語音錄音訓(xùn)練,從而實(shí)現(xiàn)了對語音表達(dá)的自監(jiān)督學(xué)習(xí)方法。這樣的訓(xùn)練量已經(jīng)達(dá)到去年發(fā)布的當(dāng)時最強(qiáng)的模型 XLSR-53 的 10 倍。利用從會議記錄到有聲讀物的多種語音數(shù)據(jù)來源,XLS-R 的語言支持范圍擴(kuò)展到 128 種,涵蓋的語種量達(dá)到前代模型的近 2.5 倍。

作為 Meta 打造的有史以來最大模型,XLS-R 中包含超過 20 億個參數(shù),性能遠(yuǎn)高于其他同類模型。Meta 表示,事實(shí)證明,更多參數(shù)能夠更充分地體現(xiàn)、數(shù)據(jù)集中的各類語種。此外,Meta 還發(fā)現(xiàn),規(guī)模更大的模型在單一語言預(yù)訓(xùn)練方面的性能也同樣優(yōu)于其他較小模型。

Meta 在四種主要多語言語音識別測試中對 XLS-R 做出評估,發(fā)現(xiàn)它在 37 種語言上獲得了超越以往模型的效能。具體測試場景為:BABEL 中選取 5 種語言,CommonVoice 中選取 10 種語言,MLS 中選取 8 種語言,以及 VoxPopuli 上選取 14 種語言。

BABEL 上的單詞錯誤率基準(zhǔn)測試結(jié)果。XLS-R 較前代模型實(shí)現(xiàn)了顯著改進(jìn)。

此外,Meta 還評估了語音翻譯模型,即將錄音資料直接翻譯成另一種語言。為了打造一套能夠執(zhí)行多種任務(wù)的模型, Meta 同時在 CoVoST-2 基準(zhǔn)測試的數(shù)個不同翻譯方向上對 XLS-R 進(jìn)行了微調(diào),使其能夠在英語與多達(dá) 21 種語言之間實(shí)現(xiàn)內(nèi)容互譯。

在使用 XLS-R 對英語以外的其他語言進(jìn)行編碼時,獲得了顯著的效能提升,這也是多語言語音表達(dá)領(lǐng)域的一次重大突破。據(jù) Meta 介紹,XLS-R 在低資源語言學(xué)習(xí)中實(shí)現(xiàn)了顯著改進(jìn),例如印尼語到英語的翻譯,其中 BLEU 準(zhǔn)確率平均翻了一番。BLEU 指標(biāo)的提升是指模型給出的自動翻譯結(jié)果與處理同一內(nèi)容的人工翻譯結(jié)果間重合度更高,代表著模型在改進(jìn)口語翻譯能力方面邁出了一大步。

以 BLEU 指標(biāo)衡量的自動語音翻譯準(zhǔn)確率,其中較高值表示 XLS-R 從高資源語言(例如法語、德語)、中資源語言(例如俄語、葡萄牙語)或低資源語言(例如泰米爾語、土耳其語)語音記錄翻譯至英語時的準(zhǔn)確率。

Meta 認(rèn)為,XLS-R 證明擴(kuò)大跨語言預(yù)訓(xùn)練規(guī)??梢赃M(jìn)一步提高低資源語言的理解性能。它不僅提高了語音識別率,同時也將由外語到英語的語音翻譯準(zhǔn)確率提高了一倍以上。

“XLS-R 是我們朝著以單一模型理解多種不同語言(語音)目標(biāo)邁出的重要一步,也代表著我們在利用公共數(shù)據(jù)推進(jìn)多語言預(yù)訓(xùn)練方面做出的最大努力。我們堅信這是一條正確的探索方向,將讓機(jī)器學(xué)習(xí)應(yīng)用更好地理解所有人類語音、并促進(jìn)后續(xù)研究,大大降低語音技術(shù)在全球范圍內(nèi)、特別是服務(wù)匱乏社群中的使用門檻。我們將不斷開發(fā)新方法,通過低監(jiān)督學(xué)習(xí)拓展模型的語言理解能力、逐步使其覆蓋全球 7000 多種語言,實(shí)現(xiàn)算法的持續(xù)更新?!盡eta 提到。

參考鏈接:

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

本文來自微信公眾號“AI前線”(ID:ai-front),整理:凌敏、核子可樂,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 交朋友 語種 無障礙

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片