首頁>財經(jīng) >
科大訊飛獲得國際低資源多語種語音識別挑戰(zhàn)賽冠軍 2021-11-20 17:35:25  來源:財訊網(wǎng)

日前,OpenASR國際低資源多語種語音識別挑戰(zhàn)賽落下帷幕,科大訊飛-中科大語音及語言信息處理國家工程實驗室聯(lián)合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,全部取得第一。

繼前不久榮獲多語言理解評測XTREME冠軍之后,科大訊飛在多語種領(lǐng)域再次取得突破,在探索人機交互更自然、人人溝通無障礙的征程中又邁出了堅實的一步。

近年來,隨著深度學(xué)習(xí)技術(shù)的進步,漢語、英語等大語種語音識別技術(shù)日趨成熟,并獲得廣泛的應(yīng)用。相比之下,小語種語音識別因其語音數(shù)據(jù)資源難以獲取、難以標注、難以評估、語言專家稀缺等原因,已經(jīng)成為世界性的研究難題,距離實用門檻仍有較大差距。

OpenASR挑戰(zhàn)賽更加關(guān)注小語種語音技術(shù),探索如何使用少量的數(shù)據(jù)達到較好的效果,同時考察低資源語音識別基礎(chǔ)算法在多個語種上的推廣性。本次比賽共包含15個語種,涵蓋受限賽道、受限附加賽道和非受限賽道??拼笥嶏w-中科大聯(lián)合團隊在比賽中提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),獲此佳績也驗證了該算法良好的推廣性。

對于低資源語種而言,除了語音數(shù)據(jù)量較小外,其發(fā)音詞典大小、語料豐富性、標注準確度都遠不及常規(guī)水平??拼笥嶏w-中科大聯(lián)合團隊創(chuàng)新運用Flow-TTS語音合成進行訓(xùn)練數(shù)據(jù)擴增,并使用語音屬性解耦技術(shù)保證合成語音的多樣性。結(jié)果顯示,使用上述無監(jiān)督數(shù)據(jù)擴增方案,能夠穩(wěn)定、顯著地提升低資源語音識別任務(wù)的效果。

為了在端到端統(tǒng)一框架下,充分使用少量語音數(shù)據(jù)和海量文本數(shù)據(jù),科大訊飛-中科大聯(lián)合團隊提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架USRS-ASR。對于海量文本數(shù)據(jù)的使用,創(chuàng)新設(shè)計了文本掩碼語言模型任務(wù)、合成數(shù)據(jù)語音識別兩個目標,兩個任務(wù)聯(lián)合訓(xùn)練以充分利用海量無監(jiān)督文本;同時設(shè)計了共享語言解碼模塊,實現(xiàn)了語音和文本隱層表達空間的統(tǒng)一,大大緩解了低資源語種的數(shù)據(jù)稀疏問題。

不久前,工信部正式批復(fù)同意成立國家智能語音創(chuàng)新中心、國家高端智能化家用電器創(chuàng)新中心,值得注意的是,在這兩家國家級創(chuàng)新中心依托公司的股東名單中,“科大訊飛”均在列。

據(jù)介紹,經(jīng)過多年的技術(shù)積累,除了中英以外,科大訊飛還具備了 69種語言的語音識別能力,并已在新加坡、俄羅斯、印度、日本等國家部署了海外站點,為各地開發(fā)者提供語音識別、語音合成、機器翻譯、圖文識別等語音語言服務(wù),所有服務(wù)均在科大訊飛開放平臺開放。

科大訊飛表示,下一步將繼續(xù)堅持源頭核心技術(shù)創(chuàng)新,聯(lián)合國內(nèi)眾多研究機構(gòu)與企業(yè),構(gòu)建多語言技術(shù)的系統(tǒng)性創(chuàng)新研發(fā)生態(tài),共同推動我國多語言技術(shù)進步與應(yīng)用落地。

免責(zé)聲明:市場有風(fēng)險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞: 語音 識別 挑戰(zhàn)賽

相關(guān)閱讀:
熱點
圖片 圖片