首頁>資訊 >
像電影《降臨》那樣,科學(xué)家正在打造跨物種語言的“羅塞塔石碑” 2021-11-04 16:53:08  來源:36氪

在科幻電影《降臨》當中,一群外星人乘著12艘飛船造訪地球。人類無法準確把握其意圖,而由語言學(xué)家班克斯領(lǐng)導(dǎo)的一支跨學(xué)科專家隊伍,被賦予了解碼“七肢桶”(Heptapod) 外星人語言,與其實現(xiàn)對話,理解其意圖的重要使命。

所幸的是,班克斯率領(lǐng)的美國團隊掌握了外星人的符號語言,實現(xiàn)了和外星人的對話,并且成功通過避免了因為預(yù)料不全和翻譯誤差而導(dǎo)致人類和外星人,甚至人類不同國家之間的全面戰(zhàn)爭。

這部電影改編自美國作家姜峯楠的星云獎獲獎作品《你一生的故事》。雖然人類希望交流的對象是外星生物,這部作品和一些古埃及、古羅馬傳說,以及安徒生童話、愛麗絲夢游仙境等文學(xué)作品,仍然可以屬于同一個母題:跨物種交流。

而在真實世界當中,一群來自世界各地知名院校的跨學(xué)科研究者,也在做著和電影當中類似的事情。他們的對象,不是外星人,而是我們地球的海洋中,一個十分令人著迷,極有可能具有智慧和情感的物種: 抹香鯨。

這些研究者,希望翻譯鯨魚的語言,實現(xiàn)人鯨對話。

Project CETI:借助ML的力量,實現(xiàn)跨物種翻譯

哈佛大學(xué)拉德克里夫?qū)W院 (HRI)是該校專門為匯集來自全世界的優(yōu)秀專家進行跨學(xué)科研究而運作的機構(gòu)。2017年,一群海洋生物學(xué)家、信號學(xué)家和計算機科學(xué)家聚在這里,談天說地。

來自加州大學(xué)伯克利分校的計算機和加密學(xué)教授 Shafi Goldwasser 走在樓道里,路過海洋生物學(xué)家 David Gruber 的辦公室時,聽到了一種奇怪但又熟悉的滴答聲(Clicks)。

其實,Goldwasser 聽到的是抹香鯨發(fā)出的聲音。

抹香鯨是一種聽覺極其敏感的海洋生物。其所有滴答聲中,大約有70%用于回聲定位和捕獵等。海洋生物學(xué)家經(jīng)過大量的研究,認為其余大約20-25%的滴答聲,極有可能是用于鯨魚之間的交互溝通的。

——這部分的滴答聲,被稱為“密碼曲” 。

而 Goldwasser 對這些聲音感到熟悉,是因為它們很自己的信號學(xué)專業(yè)很接近,有點類似摩爾斯電碼,也有點像故障的電路板元器件會發(fā)出的聲音。

這位2012年圖靈獎得主發(fā)現(xiàn)自己的興趣被莫名調(diào)動起來了。她當時隨口一提,表示:“或許我們應(yīng)該搞一個項目,把這些聲音翻譯出來讓人能聽懂。”

當時她也沒想到,這個非常隨機的想法,居然在三年后,促成了一個雄心壯志的的跨學(xué)科前沿研究項目:Project CETI。

Project CETI 全稱 Cetacean Translation Initiative(鯨類翻譯計劃),由來自紐約城市大學(xué)、UC伯克利、MIT、哈佛、谷歌研究院和《國家地理》等知名學(xué)府、研究和環(huán)保機構(gòu)的專家共同組成。

這些專家涵蓋了AI、機器人、信號學(xué)、語言學(xué)、水下聲學(xué)、海洋生物學(xué)等多個學(xué)科。鯨類翻譯計劃 脫胎于哈佛拉德克里夫?qū)W院,也繼承了該校的跨學(xué)科研究思路。 成員們認為,只靠一兩種技術(shù)是無法實現(xiàn)他們的目標的。如果要對鯨類語言獲得更加全面和深入的了解,必須采用這種跨學(xué)科研究的研究思路,讓不同專業(yè)的專業(yè)知識在項目里融會貫通。

這個計劃,獲得了知名科普機構(gòu) TED 大會旗下 The Audacious Project 的資助支持,并且按照501c3非營利機構(gòu)的模式,在美國和多米尼加運作。

在多米尼加海岸以外的一塊大約20平方公里的海域上,海洋生物學(xué)家已經(jīng)對當?shù)氐哪ㄏ泠L群落進行了十多年的觀察,記錄了大量的數(shù)據(jù)。而這些專家也帶著數(shù)據(jù)加盟了鯨類翻譯計劃,讓團隊實力顯著增強。今后,項目團隊將進一步擴大抹香鯨的觀察研究,以及密碼曲數(shù)據(jù)的記錄。

整個項目的工作內(nèi)容和階段目標,主要如下:

1)從多米尼加海域開始,對當?shù)氐哪ㄏ泠L種群進行大規(guī)模的長期追蹤研究

2)大規(guī)模收集適合機器學(xué)習方式處理的聲音數(shù)據(jù)和其他元數(shù)據(jù)(如鯨魚的位置、動作、姿態(tài)等)

3)了解鯨魚之間的互動方式,特別是聲學(xué)溝通的方式

4)建立聲音表達和行為模式之間的關(guān)聯(lián)

5)更多了解幼鯨的溝通能力是如何發(fā)展的

6)初步目標:找到更多語言結(jié)構(gòu)存在的證據(jù),例如類似于語法的高級別溝通方式

7)訓(xùn)練一個“鯨語聊天機器人”,嘗試對抹香鯨的表達做出回應(yīng),并進一步觀察是否能夠發(fā)生有意義的交流

8)學(xué)習更多的對話數(shù)據(jù)中,增加對抹香鯨語言的句法、語義等要素的理解

8)超長期的終極目標:實現(xiàn)人鯨對話,對族群和物種有更多的了解。

圖片來源:Project CETI

Michael Bronstein 是鯨類翻譯計劃的機器學(xué)習負責人。他 自嘲這輩子到現(xiàn)在還沒見過 真的鯨魚。 盡管如此,當 Goldwasser 和 Gruber 找他來聊想法的時候, 他對數(shù)據(jù)的敏感程度,以及對用于NLP(自然語言處理)的 無監(jiān)督 深度學(xué)習 模型的了解,還是令 他立刻意識到 這個項目是絕對可以做的。雖然注定很艱難,但如果真的做出來的話, 對于人類文明的進步、環(huán)境保護的推動,帶來的積極影響將會是難以估量的。

在一場線上研討會中,Bronstein 列舉了一組重要的數(shù)據(jù):

假設(shè)一片海域有50-400只抹香鯨(數(shù)量浮動很大,因為它們也會遷徙),每年能夠錄得的 Click 數(shù)量可能在4到40億次之間——從數(shù)據(jù)量的規(guī)模來看,這個項目做下去的話,是完全可以和一些深度學(xué)習語言模型(比如 BERT)相提并論的。

Project CETI 和一些主流語言模型的數(shù)據(jù)量對比圖片來源:Michael Bronstein

Bronstein 透露,自己到現(xiàn)在大體上對于鯨魚還是“一無所知”。但是,他和團隊當中負責機器學(xué)習部分的小伙伴們,已經(jīng)對之前錄下來的數(shù)十萬個獨立的抹香鯨密碼曲數(shù)據(jù)單元進行了分析。

不懂鯨魚的人也來 做鯨魚研究? 如果在一般的學(xué)術(shù)環(huán)境下,這種行為早就要被人笑掉 大牙了。 然而其實這樣完全沒問題,因為這跟機器學(xué)習(準確來說是無監(jiān)督深度學(xué)習)的邏輯是完全一樣的。

以面向文本生成的深度神經(jīng)網(wǎng)絡(luò)模型為例。其實神經(jīng)網(wǎng)絡(luò)根本不懂它說的語言,也不知道自己輸出的句子到底什么意思。盡管如此,這些模型在語言生成上面仍然非常出色,其實是因為統(tǒng)計學(xué)做的好。它學(xué)習了大量的語料數(shù)據(jù)之后,其實已經(jīng)從統(tǒng)計的角度掌握了句子的構(gòu)成結(jié)構(gòu)、語法的規(guī)律等。

甚至在翻譯任務(wù)中,新的無監(jiān)督神經(jīng)網(wǎng)絡(luò),可以在不需要平行語料庫(也即同一內(nèi)容兩種語言對照的語料)的前提下,僅通過大量學(xué)習互聯(lián)網(wǎng)上的內(nèi)容,算法就能自己掌握翻譯的能力。

巨大的科學(xué)賭注

Bronstein 坦誠地表示,鯨類翻譯計劃的基礎(chǔ),其實是一個特別大膽、高風險的科學(xué)假設(shè)。 也即:抹香鯨的“密碼曲”是足以構(gòu)成一種語言,或者至少是一種接近于語言的聲學(xué)表意方式。

這里需要明確的是:不是所有的發(fā)聲都是語言。比如貓狗的叫聲就不構(gòu)成語言;學(xué)舌的鸚鵡就算模仿人類說出了一句話,它多半也只是想要獲取主人的注意,而不是真的理解學(xué)出來那句話的含義,同樣不屬于語言表達。

鯨類翻譯計劃的假設(shè),基本就是:

1)抹香鯨發(fā)出的滴答聲組成的“密碼曲”當中,是存在單詞或詞組的。 一些特定結(jié)構(gòu)的滴答聲,在整個抹香鯨物種當中(或者至少在一個族群當中)是具有固定的含義的——也即語義的存在。

2)這些“密碼曲”當中有語法的存在,哪怕是最簡單的語法。比如山雀在特定威脅發(fā)生的時候會連續(xù)發(fā)出兩種聲音,作為對其它同類的警告,或者抹香鯨在用密碼曲“自報家門”的時候可能會采用某種特定的報告順序,這都是簡單語法可能存在的例證。

3)抹香鯨的密碼曲不是天生就會,而是在社會化的族群生活中,通過不斷觀察學(xué)習其他同類而獲得的。只有后天習得的語音表達能力,才有可能構(gòu)成語言。

以上這幾點假設(shè),目前都沒有足夠的、科學(xué)上絕對靠得住的證據(jù)和學(xué)術(shù)研究能夠證實。不過,目前團隊已經(jīng)積累了一些數(shù)據(jù)資料,似乎預(yù)示著他們的方向是正確的,假設(shè)是合理的。

其中一個證據(jù):抹香鯨的一段單獨的密碼曲一般由5個間隔各不相同的滴答聲組成。不同的鯨魚會使用不同的間隔方式。而通過大量的觀察和研究,目前海洋生物學(xué)家的共識是,抹香鯨的密碼曲當中編碼了其所屬的族群、家庭,以及其個體身份的信息。 甚至還有研究發(fā)現(xiàn),一些抹香鯨在不同的環(huán)境、處境下,發(fā)出的密碼曲的頻譜和振幅都不一樣,就好像在說“方言”一樣。

抹香鯨的密碼曲 (codas) 示意圖片來源:Michael Bronstein

”對于其它物種是否有類似人類的語言,以及我們是否可以理解它們的語言……如果這個方向有什么動物值得研究,那肯定是抹香鯨了。”Bronstein 表示。

抹香鯨是哺乳動物,人類也是哺乳動物

抹香鯨有發(fā)育良好的大腦——全宇宙最大的大腦,是人類的6倍

抹香鯨以家庭為生活單位,可以說有著和人類類似的家庭文化

抹香鯨有著復(fù)雜的溝通系統(tǒng),并且很有可能具有對話的能力。Gruber 有一次在多米尼加曾經(jīng)旁聽了兩只位置靜止的抹香鯨之間,用密碼曲斷斷續(xù)續(xù)的“對話”,長達40分鐘,幾乎每一句都不重樣,并且伴各種動作

“既然我們知道抹香鯨有著濃厚的家庭意識,萬一這是兩只母鯨在拉家常、分享育兒心得呢?”

如果抹香鯨確實有語言的話,那么用 NLP 深度學(xué)習的思路,套用到翻譯密碼曲的任務(wù),就非常合適了。你可以這樣理解:深度學(xué)習不懂英語和中文,但是通過大量學(xué)習語料就可以獲得中英互譯的能力。

那么就算我們?nèi)祟悷o法理解鯨語,但深度學(xué)習或許能夠從大量鯨語語料中找到文本的構(gòu)成規(guī)律。如果這能實現(xiàn)的話,在人類語言和鯨語之間實現(xiàn)互譯,甚至人鯨對話似乎并不是一件遙不可及的事。

Bronstein 說,這是他學(xué)術(shù)生涯目前為止參與過的最瘋狂的一個項目,并且希望能夠說服人們,他們的設(shè)想并不是一個夢,而是真的有可能實現(xiàn)海洋生物學(xué)和生態(tài)環(huán)境保護方面的一個重大突破。

“等我們能和鯨魚對話的那一天,萬一它們想要告訴人類,‘不要再捕殺我們了,不要再破壞環(huán)境了’呢?”

Michael Bronstein在2015年國際圖像處理大會上演講

數(shù)據(jù)收集和項目進展

這個項目聽起來特別的宏大,但說句實話,現(xiàn)在整個研究的進度并沒有我們想象的那么深入,還沒有什么特別值得宣告的進展。目前,團隊仍處在數(shù)據(jù)獲取的階段。 想要高效率地收集高質(zhì)量的抹香鯨聲音數(shù)據(jù),簡直太難了。

在機器學(xué)習領(lǐng)域, 為了訓(xùn)練 神經(jīng)網(wǎng)絡(luò),需要 大規(guī) 模構(gòu) 建標注數(shù)據(jù)集, 而缺乏優(yōu)質(zhì)標注數(shù)據(jù)、標注 能力不足,一度制約了 技術(shù)發(fā)展。

而在 鯨類翻譯計劃這里,團隊面臨同樣的問題:要獲取數(shù)據(jù),就得 跟蹤 抹香鯨 的位 置 ,而這又是一種聽力極好,對聲音/噪音極其敏感的動物,想要跟蹤他們并且“偷聽”, 非常費時費力。 其次,因為人類 的 航?;?動,最適合抹香鯨生活的海域 噪音也非常 大,也會影響數(shù)據(jù)收集的質(zhì)量。

為了更好地收集數(shù)據(jù),鯨類翻譯計劃專門吸納了機器人和信號學(xué)方面的專家。團隊計劃開發(fā)幾種不同的數(shù)據(jù)收集裝置,實現(xiàn)“全方位全天候覆蓋”:

第一種是常規(guī)的水下麥克風,通過浮標的方式安放在海域固定位置和固定深度。

這種傳感器,和軍事場景偵測潛水艇的技術(shù)差不多,好處是成本較低,能夠全天候收集大量的背景聲音數(shù)據(jù)(如下圖所示)。

這種固定麥克風的劣勢在于容易受到噪音的影響,且追蹤特定鯨魚的能力較差。所以就需要其他的傳感器來補充。

第二種傳感器叫做“Tag”(標簽),也就是吸附在每一條抹香鯨身上,針對性地只收集這一只(以及附近和它交流的其他鯨魚)的聲音數(shù)據(jù)。這些標簽不僅收錄聲音,還可以同時記錄其更多類型的行為數(shù)據(jù)位置、深度、速度、動作、姿態(tài)等等:

第三種就是水下/空中無人機,具有導(dǎo)航、追蹤、視頻音頻記錄功能用來覆蓋前集中數(shù)據(jù)收集方式的盲區(qū)。在未來,一部分水下無人機還可以改造成“鯨語聊天機器人”。

至于鯨類翻譯計劃目前的進展:這個項目是去年正式組建的,今年前不久剛獲得更多外部機構(gòu)的資助和學(xué)術(shù)支持。Bronstein 告訴硅星人,團隊預(yù)計將在明年陸續(xù)完成各種數(shù)據(jù)收集裝置的開發(fā),并開始收集更多數(shù)據(jù)。

鯨類翻譯計劃的團隊成員們一廂情愿地認為,自己的研究方向是正確的,一方面是考慮到之前有針對海豚等其他海洋生物的類似項目取得了成果,另一方面也因為前文提到的,基于機器學(xué)習(也即統(tǒng)計學(xué))的研究方法,無論如何都是能用的。

在學(xué)術(shù)界中,支持和質(zhì)疑該項目的聲音此起彼伏。但不管怎么樣,由于研究對象和研究方式的限制,鯨類翻譯計劃無法在短期(一兩年內(nèi))取得關(guān)鍵突破的。這注定是一個超長期的項目——無論結(jié)果如何,團隊成員的猜想最終是否應(yīng)驗,這個項目都將幫助人類,增進對抹香鯨以及更多智慧生物溝通方式的了解。

跨物種溝通的“羅塞塔石碑”

兩個完全不同的物種想要進行平等的溝通是非常困難的。幸運的是,人類對于語言這門巨大的學(xué)問已經(jīng)掌握了非常多科學(xué)的方法。

文章一開始提到的《降臨》電影,就是一個非常好的例子。片中,人類一開始錯以為七肢桶發(fā)出的聲音是他們在說話,后來主角語言學(xué)家班克斯成功“激活”了外星人,讓他們用真正的文字語言(圓環(huán)狀的符號)進行溝通。有了文字,班克斯的團隊進一步構(gòu)建出了共享詞匯,進而雙方之間的溝通效率極大提升。

在古埃及歷史文化中,“羅塞塔石碑”(Rosetta Stone) 是一個極其重要的存在。這是一塊刻有托勒密五世詔書的石碑,同一段內(nèi)容用了埃及草書、古希臘文,以及失傳了上千年的古埃及象形文,三語對照的寫法。

毫無疑問,這塊石碑,就是這三種語言最古老的“詞典”,或者用今天機器學(xué)習的術(shù)語來說,這是最古老的平行語料庫。通過它,考古學(xué)家解讀出了失傳上千年的古埃及象形文的意義、結(jié)構(gòu),甚至還發(fā)現(xiàn)象形文字也具有表音的作用。羅塞塔石碑也被公認為后世了解古埃及語言和文化的關(guān)鍵基礎(chǔ)。

而在今天機器學(xué)習方式,特別是無監(jiān)督深度學(xué)習的方法,為人類處理語言任務(wù),甚至拓展語言研究的邊界,開啟了一種全新的思路。

在翻譯這一經(jīng)典任務(wù)上,機器不需要理解語言,而是僅靠單一語言的語料,即可掌握該語言的句法、語法等關(guān)鍵要素。

Bronstein 表示,在神經(jīng)網(wǎng)絡(luò)處理翻譯任務(wù)的時候,研究者有一個重要的發(fā)現(xiàn):英語和意大利語,在詞、句、語法等各方面差異巨大的兩種語言,在表達同一句話時,在神經(jīng)網(wǎng)絡(luò)內(nèi)部的 Word Embedding 模式驚人的近似。

這一情況的存在,讓鯨類翻譯計劃的成員們對于未來非常期待。邏輯簡單形容一下其實是這樣的:

這兩種語言都是人類說的↓

人類是智力高度發(fā)達的哺乳動物↓

抹香鯨也是智力高度發(fā)達的哺乳動物↓

那么,人類的語言和抹香鯨的“語言”,是否至少存在那么一點點相似之處,可以用機器學(xué)習/語言/統(tǒng)計學(xué)的思路,來打開一個突破口?

這也是鯨類翻譯項目的存在之外的另一個啟發(fā):在機器學(xué)習技術(shù)飛躍的時代,“羅塞塔石碑”或許不再是詞匯表,而是跨物種之間共通的,只有依靠先進科學(xué)才能夠識別出的,隱性的規(guī)律。

也許經(jīng)過多年的研究,人鯨對話將成為現(xiàn)實。

本文來自微信公眾號 “硅星人”(ID:guixingren123),作者:光譜杜晨,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 石碑 物種 科學(xué)家

相關(guān)閱讀:
熱點
圖片 圖片