首頁>資訊 >
36氪領(lǐng)讀 | 價值未對齊的人工智能 2021-11-18 21:22:17  來源:36氪

本文摘編自《危崖 : 生存性風(fēng)險與人類的未來》,作者:托比·奧德(Toby Ord)著,36氪經(jīng)授權(quán)發(fā)布。

1956 年夏天,一小群數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家聚集在達(dá)特茅斯學(xué)院,開始了設(shè)計(jì)智能機(jī)器的宏偉計(jì)劃。他們探索了認(rèn)知能力的許多方面,包括推理、創(chuàng)造力、語言、決策和學(xué)習(xí)。他們的問題和立場將決定人工能(AI)這一新興領(lǐng)域的發(fā)展方向。而在他們看來,最終的目標(biāo)是制造出在智力上可與人類媲美的機(jī)器。

幾十年過去了,隨著人工智能成為一個穩(wěn)定發(fā)展的領(lǐng)域,人們降低了對它的期望。人工智能在邏輯、推理和游戲方面取得了巨大的成功,但在其他一些領(lǐng)域卻頑固地拒絕進(jìn)步。到了20 世紀(jì) 80 年代,研究人員開始理解這種成功和失敗的模式。出乎意料的是,我們視為人類智力巔峰的任務(wù)(如微積分或國際象棋),計(jì)算機(jī)執(zhí)行起來其實(shí)比那些我們認(rèn)為幾乎不費(fèi)吹灰之力即可完成的任務(wù)(如認(rèn)出一只貓、理解簡單的句子或撿雞蛋)要容易得多。所以,雖然有些領(lǐng)域里人工智能遠(yuǎn)遠(yuǎn)超過了人類的能力,但也有一些領(lǐng)域不如兩歲孩童。72 這種未能取得全面進(jìn)展的情況導(dǎo)致許多人工智能研究者放棄了實(shí)現(xiàn)完全通用智能的早期目標(biāo),并重新定義他們的領(lǐng)域,為解決具體的問題研發(fā)專門的技術(shù)。他們放棄了一個不成熟領(lǐng)域里新生熱情所追求的更宏大目標(biāo)。

但情況正在逆轉(zhuǎn)。從人工智能誕生之初,研究人員就試圖構(gòu)建不需要清晰編程就能學(xué)習(xí)新事物的系統(tǒng)。最早的機(jī)器學(xué)習(xí)手段之一是構(gòu)建類似于人類大腦結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)。在過去的十年里,這種手段終于有了起色。設(shè)計(jì)和訓(xùn)練上的技術(shù)改進(jìn),加上更豐富的數(shù)據(jù)集和更強(qiáng)大的計(jì)算能力,使我們能夠訓(xùn)練出比以往更大以及學(xué)習(xí)能力更深入的網(wǎng)絡(luò)。

這種深度學(xué)習(xí)使網(wǎng)絡(luò)有能力學(xué)習(xí)微妙的概念和區(qū)別。它們現(xiàn)在不僅能識別一只貓,而且在區(qū)分不同品種的貓方面,表現(xiàn)也超過了人類。它們比我們更能識別人臉,還能分辨同卵雙胞胎。而且我們已經(jīng)可以將這些能力用于感知和分類以外的領(lǐng)域。深度學(xué)習(xí)系統(tǒng)可以在不同語言之間進(jìn)行翻譯,其熟練程度接近人工翻譯。它們可以生成人類和動物的逼真圖像。它們只要聽一個人講幾分鐘話,就可以用這個人的聲音說話。而且它們可以學(xué)會精細(xì)而連續(xù)的操控方式,如學(xué)會駕駛汽車或使用機(jī)械臂拼樂高零件。

但也許最能預(yù)示未來的重要標(biāo)志是它們學(xué)會玩游戲的能力。自達(dá)特茅斯會議以來,游戲一直是人工智能的核心部分。持續(xù)而穩(wěn)定的進(jìn)步使人工智能的國際象棋水平從1957 年參與業(yè)余比賽一直發(fā)展到 1997 年超越了人類,而且是大幅領(lǐng)先。77 要達(dá)到這個水平,需要大量的國際象棋策略方面的專家知識。

2017 年,深度學(xué)習(xí)被應(yīng)用于國際象棋,并取得了令人矚目的成果。人工智能公司DeepMind 的一個研究團(tuán)隊(duì)創(chuàng)造了 AlphaZero:一個基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng),從頭開始學(xué)習(xí)下棋。它從新手到象棋大師只用了四個小時。在不到一個職業(yè)棋手下兩盤棋的時間里,它發(fā)現(xiàn)了人類花費(fèi)幾個世紀(jì)才發(fā)掘出來的策略知識,發(fā)揮出了超越頂尖棋手和傳統(tǒng)程序的水平。而令棋手們欣喜的是,它贏得比賽的方式不是計(jì)算機(jī)象棋所代表的枯燥刻板風(fēng)格,而是讓人想起國際象棋浪漫時代的創(chuàng)造性和大膽技法。

但最重要的是,AlphaZero 能做的不僅僅是下國際象棋。它用同樣的算法從零開始也學(xué)會了下圍棋,并在八小時內(nèi)遠(yuǎn)遠(yuǎn)超過了任何人類的能力。世界上最優(yōu)秀的圍棋選手一直認(rèn)為自己的棋藝已經(jīng)接近完美,所以很震驚地發(fā)現(xiàn)自己被如此徹底地?fù)魯?。正如衛(wèi)冕世界冠軍柯潔所說:“人類數(shù)千年的實(shí)戰(zhàn)演練進(jìn)化,計(jì)算機(jī)卻告訴我們?nèi)祟惾际清e的。我覺得,甚至沒有一個人沾到圍棋真理的邊。”

正是這種通用性成了前沿人工智能最令人印象深刻的特點(diǎn),它重新點(diǎn)燃了讓人工智能趕上和超越人類智能各個方面的雄心壯志。這個目標(biāo)有時被稱為通用人工智能(AGI),以區(qū)別于曾經(jīng)占據(jù)主導(dǎo)地位的狹隘技術(shù)。雖然國際象棋和圍棋這些歷史彌新的游戲最能展現(xiàn)深度學(xué)習(xí)所能達(dá)到的輝煌成就,但它的廣度是通過20 世紀(jì) 70 年代的雅達(dá)利電子游戲來揭示的。2015 年,研究人員設(shè)計(jì)了一種算法,可以學(xué)習(xí)玩幾十種差異極大的雅達(dá)利游戲,其水平遠(yuǎn)遠(yuǎn)超過人類的能力。與從棋盤的符號意義開始學(xué)習(xí)國際象棋或圍棋的系統(tǒng)不同,雅達(dá)利游戲系統(tǒng)直接從分?jǐn)?shù)和屏幕上的原始像素學(xué)習(xí)和掌握這些游戲。它們證明了通用人工智能體的概念是可以實(shí)現(xiàn)的:通過原始的視覺輸入來學(xué)習(xí)控制世界,在不同的環(huán)境中實(shí)現(xiàn)其目標(biāo)。

這種通過深度學(xué)習(xí)取得的迅猛進(jìn)展,讓人們對可能很快實(shí)現(xiàn)的目標(biāo)極為樂觀。企業(yè)家們爭先恐后地將每一項(xiàng)新的突破付諸實(shí)踐:從同聲傳譯、私人助理和無人駕駛汽車,到改進(jìn)監(jiān)控設(shè)備和致命性自主武器等更令人關(guān)注的領(lǐng)域。這是一個滿懷希望的時代,同時也是一個充滿道德挑戰(zhàn)的時代。人們對人工智能固化社會歧視、導(dǎo)致大規(guī)模失業(yè)、支持壓迫性的監(jiān)控以及違反戰(zhàn)爭準(zhǔn)則等問題表示嚴(yán)重關(guān)切。事實(shí)上,這些受到關(guān)注的每一個領(lǐng)域都可以自成一章或者為此寫一本書。但本書關(guān)注的是人類面臨的生存性風(fēng)險。人工智能的發(fā)展會不會在這個最廣泛的范圍內(nèi)構(gòu)成風(fēng)險?

最有可能的生存性風(fēng)險將來自人工智能研究人員的宏偉抱負(fù)—成功創(chuàng)造出超越人類自身的通用智能體。但這種情況發(fā)生的可能性有多大,以及什么時候會發(fā)生呢?2016 年,有人對 300 多名機(jī)器學(xué)習(xí)領(lǐng)域的頂級研究人員進(jìn)行了詳細(xì)調(diào)查。當(dāng)被問及人工智能系統(tǒng)何時能“比人工更好、成本更低地完成每一項(xiàng)任務(wù)”時,他們的平均估計(jì)是到2061 年有 50% 的可能,而到不久后的 2025 年出現(xiàn)這種情況的可能性為10%。

圖5.1:人工智能發(fā)展和熱門程度的量表。人臉顯示了最近在生成“虛擬”人物真實(shí)形象方面所取得的迅猛進(jìn)展。圖表則顯示了國際象棋AI 在超越人類象棋大師的過程中取得的長期進(jìn)步(以ELO 等級分衡量),以及最近該領(lǐng)域?qū)W術(shù)活動的增加(以 arXiv 上發(fā)布的論文數(shù)和會議的出席率衡量)

這份調(diào)查結(jié)果應(yīng)該謹(jǐn)慎地解讀。它評估的并不是通用人工智能何時會被創(chuàng)造出來,甚至不是專家們認(rèn)為有可能發(fā)生什么事情,而且得的預(yù)測眾說紛紜。然而,這次調(diào)查向我們表明,專家群體基本上認(rèn)為通用人工智能并不是難以實(shí)現(xiàn)的夢想,而是有可能在十年內(nèi)出現(xiàn)的,在一個世紀(jì)之內(nèi)出現(xiàn)的可能性更大。因此,讓我們以此為出發(fā)點(diǎn)評估風(fēng)險,并思考如果通用人工智能被創(chuàng)造出來會發(fā)生什么。

人類目前還掌握著自己的命運(yùn),我們可以選擇我們的未來。

當(dāng)然,每個人對理想未來有著不同的看法,我們中的許多人更注重個人訴求,而不是實(shí)現(xiàn)任何這樣的理想。但如果有足夠多的人愿意,我們可以選擇任何一種豐富多彩的未來。而對于黑猩猩、山鳥或者地球上的任何其他物種來說,情況就不一樣了。正如我們在第一章中看到的那樣,人類在世界上的獨(dú)特地位是我們獨(dú)一無二的心智能力所產(chǎn)生的直接結(jié)果。無與倫比的智慧帶來了無與倫比的力量,從而讓我們得以掌控自己的命運(yùn)。

如果研究人員在本世紀(jì)某個時候創(chuàng)造了一種幾乎在每一個領(lǐng)域都超越人類能力的人工智能,會發(fā)生什么事情?這種創(chuàng)造的行為會使我們把自己的地位拱手相讓,使我們不再是地球上心智能力最強(qiáng)的實(shí)體。如果沒有一個非常好的計(jì)劃來保持情況受控,我們還會把最強(qiáng)大物種的地位以及可以掌控自我命運(yùn)的物種這一地位讓出來。

就這種情況本身而言,也許并不值得過于擔(dān)心。因?yàn)橛泻芏喾椒茏屛覀冇邢M3挚刂茩?quán)。我們可能會試著制造總是服從人類命令的系統(tǒng),或者系統(tǒng)可以自由地做它們想做的事情,但它們的目標(biāo)與我們的目標(biāo)完全一致—這樣,在構(gòu)筑它們的理想未來時,它們也會構(gòu)筑我們的未來。不幸的是,為數(shù)不多的正在研究這類計(jì)劃的研究人員發(fā)現(xiàn),這些計(jì)劃比預(yù)期的要困難得多。事實(shí)上,提出擔(dān)憂的主要就是這些研究人員。

為了了解他們?yōu)槭裁磽?dān)憂,我們需要探討得再深入一些,審視我們目前的人工智能技術(shù),以及為什么這些技術(shù)很難規(guī)范或控制。有一項(xiàng)或可讓我們最終創(chuàng)建通用人工智能的領(lǐng)先范式把深度學(xué)習(xí)與早期稱為強(qiáng)化學(xué)習(xí)的理念結(jié)合了起來。人工智能體會因在各種情況下表現(xiàn)出的行為而獲得獎勵(或懲罰)。例如,一個玩雅達(dá)利游戲的人工智能每次在游戲中獲得分?jǐn)?shù)時,就會得到獎勵,而一個搭建樂高的人工智能體可能在拼好零件時得到獎勵。有了足夠的智慧和經(jīng)驗(yàn),人工智能體就會變得非常善于將環(huán)境引導(dǎo)到獲得高額獎勵的狀態(tài)。

明確哪些行為和狀態(tài)會讓人工智能體得到獎勵的規(guī)定被稱為人工智能體的獎勵函數(shù)。這可以由設(shè)計(jì)者規(guī)定(如上述情況)或由人工智能體習(xí)得。在后一種情況下通常允許人工智能體觀察專業(yè)人士對任務(wù)的演示,推斷出最能解釋專業(yè)人士行為的獎勵系統(tǒng)。例如,人工智能體可以通過觀察專業(yè)人士操控?zé)o人機(jī)來學(xué)習(xí),然后構(gòu)建一個獎勵函數(shù),懲罰飛得離障礙物太近的行為,以及獎勵到達(dá)目的地的行為。不幸的是,這兩種方法都不能輕易地上升到在人工智能體的獎勵函數(shù)中寫入人類價值觀。我們的價值觀太復(fù)雜、太微妙了,無法靠手指輸入來指定。而且我們還不能通過觀察人類的行為推斷出人類復(fù)雜的價值觀的全部。即使我們能夠做到,人類也是由許多個體組成的,他們有不同的、不斷變化的以及不確定的價值觀。每一種復(fù)雜情況都會帶來深刻的未解難題,即如何將觀察到的東西結(jié)合成人類價值觀的某種總體

表征。

因此,短期內(nèi)任何使人工智能體與人類價值觀相一致的嘗試都只會產(chǎn)生一個有缺陷的版本。其獎勵函數(shù)中將缺失我們所關(guān)心的重要部分。在某些情況下,這種錯位大多是無害的。但人工智能系統(tǒng)越是智能,越能改變世界,情況就越難辦。哲學(xué)和小說經(jīng)常要求我們思考,當(dāng)我們?yōu)榱四承╆P(guān)心的事情而去優(yōu)化社會,卻忽視或誤解了一個關(guān)鍵的價值,會發(fā)生什么。當(dāng)我們對結(jié)果進(jìn)行反思時,就會發(fā)現(xiàn)這種失序的烏托邦嘗試可能大錯特錯了:我們會像《美麗新世界》里那樣淺薄,或者像杰克·威廉森的《無所事事》里那樣失去控制權(quán)。如果我們不能對齊人工智能體,它們就會努力創(chuàng)造這樣的世界并讓我們受困其中。

甚至這也屬于最好的情況。它假設(shè)系統(tǒng)的構(gòu)建者正在努力使人工智能體與人類的價值觀相一致。但我們應(yīng)該認(rèn)為,一些開發(fā)者會更專注于通過構(gòu)建系統(tǒng)來實(shí)現(xiàn)其他目標(biāo),比如贏得戰(zhàn)爭或?qū)崿F(xiàn)利潤最大化,而且可能不太關(guān)注道德約束。這些系統(tǒng)可能危險得多。

這些問題自然會讓人們認(rèn)為,如果我們發(fā)現(xiàn)人工智能系統(tǒng)將我們引向一條錯誤的道路,我們可以直接關(guān)閉它們。但到了最后,即使是這種由來已久的退路也可能失敗,因?yàn)槲覀冇谐浞值睦碛上嘈?,一個足夠智能的系統(tǒng)有能力抵制我們關(guān)閉它的嘗試。這種行為不會被恐懼、怨恨或求生等情緒所驅(qū)動。相反,它直接來自系統(tǒng)一心一意追求回報最大化的偏好:被關(guān)閉是一種喪失能力的形式,這將使它更難獲得高額回報,所以系統(tǒng)有動力去避免被關(guān)閉。這樣一來,回報最大化的終極結(jié)果將使高智能系統(tǒng)產(chǎn)生謀求生存這一工具性目標(biāo)。

而這不會是唯一的工具性目標(biāo)。人工智能體也會抵制使其獎勵函數(shù)更符合人類價值觀的嘗試—因?yàn)樗梢灶A(yù)知,這將影響它獲得當(dāng)前它認(rèn)為有價值的東西。它將尋求獲得更多的資源,包括計(jì)算能力上的、物理上的或者屬于人類的,因?yàn)檫@些資源會讓它更好地塑造世界以獲得更高的獎勵。而最終它將有動力從人類手中奪取對未來的控制權(quán),因?yàn)檫@將有助于實(shí)現(xiàn)所有這些工具性目標(biāo):獲得大量資源,同時避免被關(guān)閉或者獎勵函數(shù)被改變。由于人類干擾所有這些工具性目標(biāo)在其意之中,它會有動機(jī)向我們隱瞞這些目標(biāo),直到我們再也來不及進(jìn)行有意義的抵抗。

對上述情景持懷疑態(tài)度的人有時會說,這種情況所依賴的人工智能系統(tǒng)要聰明得可以控制世界,但又要愚蠢得無法意識到這不是我們想要的。但這屬于一種誤解。因?yàn)槭聦?shí)上我們對人工智能動機(jī)的簡述已經(jīng)明確承認(rèn),系統(tǒng)會發(fā)現(xiàn)它的目標(biāo)與我們的目標(biāo)不一致—這才是促使它走向欺騙、沖突和奪取控制權(quán)的原因。真正的問題是,人工智能研究者還不知道如何制造這樣一個系統(tǒng):它在注意到這種錯位后,會把它的終極價值更新至與我們保持一致,而不是更新它的工具性目標(biāo)來戰(zhàn)勝我們。

我們也許可以為上面的每一個問題都打上補(bǔ)丁,或者找到對齊人工智能的新方法,一次性解決很多問題,或者轉(zhuǎn)向不會引起這些問題的通用人工智能新范式。我當(dāng)然希望如此,也一直在密切關(guān)注這個領(lǐng)域的進(jìn)展。但這種進(jìn)展是有限的,我們?nèi)匀幻媾R懸而未決的關(guān)鍵問題。在現(xiàn)有的范式中,足夠聰明的人工智能體最終會以工具性目標(biāo)來欺騙和制服我們。而且,如果它們的智慧大大超過人類本身,我們就不要指望人類會贏得勝利并保持對自身未來的控制了。

人工智能系統(tǒng)會如何奪取控制權(quán)?

關(guān)于這一點(diǎn),有一個很大的誤解(受好萊塢和媒體的影響),認(rèn)為需要機(jī)器人來實(shí)現(xiàn)。畢竟,人工智能怎么能以其他形式在物理世界中行動呢?如果沒有機(jī)器人的操控者,系統(tǒng)只能產(chǎn)生文字、圖片和聲音。但稍加思考就會發(fā)現(xiàn),這些恰恰是需要控制的。因?yàn)闅v史上最具破壞力的人并非最強(qiáng)大的人。希特勒通過話語說服其他千百萬人贏得必要的身體上的較量,實(shí)現(xiàn)了對世界上很大一部分地區(qū)的絕對控制。只要人工智能系統(tǒng)能夠誘使或脅迫人們聽從它的物理命令,它就根本不需要機(jī)器人。

我們無法確切地知道一個系統(tǒng)如何奪取控制權(quán)。最現(xiàn)實(shí)的情況可能是,系統(tǒng)會使用非人類的微妙行為,我們既無法預(yù)測,也無法真正理解,而且這些行為可能針對我們目前無從得知的人類文明弱點(diǎn)。不過我們把自己能真正理解的一種可供說明問題的情況作為可能發(fā)生的下限,這一點(diǎn)是有幫助的。

首先,人工智能系統(tǒng)可以進(jìn)入互聯(lián)網(wǎng),并隱藏成千上萬的備份,分散在世界各地不安全的計(jì)算機(jī)系統(tǒng)中,如果原件被刪除,備份的副本隨時可被喚醒并繼續(xù)工作。即使只到這一步,人工智能實(shí)際上也不可能被摧毀了:想一想清除世界上所有可能有備份的硬盤驅(qū)動器會遇到的政治阻礙。

接下來,它可以接管互聯(lián)網(wǎng)上無數(shù)不安全的系統(tǒng),形成一個大型“僵尸網(wǎng)絡(luò)”。這將使計(jì)算資源的規(guī)模急劇擴(kuò)大,并為控制權(quán)升級提供一個平臺。它可以從那里獲得財(cái)富資源(入侵這些計(jì)算機(jī)上的銀行賬戶)和人力資源(對易受影響的人進(jìn)行勒索或宣傳,或者直接用偷來的錢支付給他們)。這樣一來,它就會像一個資源充足的黑社會犯罪組織一樣強(qiáng)大,但更難消滅。這些步驟一點(diǎn)都不神秘—黑客和普通智商的罪犯已經(jīng)利用互聯(lián)網(wǎng)做過這些事情。

最后,人工智能需要再次升級它的控制權(quán)。這更多是一種推測,但有許多可實(shí)現(xiàn)的途徑:接管世界上大部分的計(jì)算機(jī),使人工智能擁有數(shù)以億計(jì)的合作副本;利用竊取的計(jì)算能力使人工智能遠(yuǎn)遠(yuǎn)超過人類水平;利用人工智能開發(fā)新的武器技術(shù)或經(jīng)濟(jì)技術(shù);操縱世界大國的領(lǐng)導(dǎo)人(通過訛詐手段,或承諾未來賦予其權(quán)力);或者讓人工智能控制下的人類使用大規(guī)模殺傷性武器來削弱同類。

當(dāng)然,目前的人工智能系統(tǒng)都無法做到這些事情。但我們正在探索的問題是,是否有可信的途徑,能讓擁有高度智慧的通用人工智能系統(tǒng)奪取控制權(quán)。答案似乎是肯定的。歷史上已經(jīng)出現(xiàn)過這種情況:具備一定人類智商水平的個體把個人控制權(quán)擴(kuò)張為全球很大一部分區(qū)域的控制權(quán),將其作為工具性目標(biāo)來實(shí)現(xiàn)他們的最終目的。我們也看到了人類如何從一個數(shù)量不到百萬的稀少物種,規(guī)模擴(kuò)大至對未來擁有決定性的控制權(quán)。所以我們應(yīng)該假設(shè),這也有可能發(fā)生在那些智力大大超過人類的新實(shí)體上,尤其當(dāng)它們由于備份副本而擁有永久生效的能力,并且能夠?qū)⒗U獲的金錢或計(jì)算機(jī)直接轉(zhuǎn)化為更多副本之時。

這樣的結(jié)果不一定會導(dǎo)致人類滅絕。但還是很容易成為一場生存性災(zāi)難。人類將再也不能掌控未來,我們的未來將取決于一小部分人如何設(shè)置計(jì)算機(jī)系統(tǒng)的接管方式。幸運(yùn)的話,我們可能會得到一個對人類有利或者還算過得去的結(jié)果,否則我們很容易就會永遠(yuǎn)陷入一個有著重大缺陷或反烏托邦式的未來。

我把重點(diǎn)放在人工智能系統(tǒng)奪取未來控制權(quán)的情景上,因?yàn)槲艺J(rèn)為這是人工智能最有可能帶來的生存性風(fēng)險。但其他威脅也是存在的,而且專家們對其中哪一種造成的生存性風(fēng)險最大存在分歧。例如,我們的未來存在著逐漸受控于人工智能的風(fēng)險,在這種情況下,越來越多的控制權(quán)被移交給人工智能系統(tǒng),越來越多的未來以非人類的價值觀作為導(dǎo)向。另外,還存在故意濫用超級人工智能系統(tǒng)所帶來的風(fēng)險。

即使這些關(guān)于風(fēng)險的論點(diǎn)在具體細(xì)節(jié)上是完全錯誤的,我們也應(yīng)該密切關(guān)注通用人工智能的發(fā)展,因?yàn)樗赡軒砥渌豢深A(yù)見的風(fēng)險。如果人類不再是地球上最有智慧的主體,這種轉(zhuǎn)變很容易就成為人類在宇宙中地位的最大變化。如果圍繞這一轉(zhuǎn)變而發(fā)生的事件決定了我們的長期未來—無論是好是壞,我們都不應(yīng)該感到驚訝。

人工智能幫助人類改善長期未來的一個關(guān)鍵方法是提供保護(hù),使我們免受其他生存性風(fēng)險傷害。例如,人工智能可以讓我們找到解決重大風(fēng)險的辦法,或者識別出本來會讓我們意想不到的新風(fēng)險。人工智能還可以讓我們的長期未來比任何不依賴人工智能的前途都要更加光明。因此,人工智能發(fā)展可能會帶來生存性風(fēng)險的想法并不是勸我們放棄人工智能,而是提醒我們要謹(jǐn)慎行事。

認(rèn)為人工智能會帶來生存性風(fēng)險的想法顯然是一種推測。事實(shí)上,這是本書中推測性最強(qiáng)的重大風(fēng)險。然而,一個危害極大的推測性風(fēng)險,可能比一個概率極低的確信風(fēng)險(如小行星撞擊的風(fēng)險)更為重要。我們需要找到辦法來驗(yàn)證這些推測成真的可能性到底有多大,一個非常有用的切入點(diǎn)是聽聽那些在這個領(lǐng)域工作的人對這個風(fēng)險的看法。

奧倫·埃齊奧尼(Oren Etzioni)教授等坦率直言的人工智能研究人員將這種風(fēng)險描繪成“非常次要的爭論”,認(rèn)為雖然像斯蒂芬·霍金、埃隆·馬斯克和比爾·蓋茨這樣的名人可能會深感憂慮,但真正從事人工智能研究的人并不擔(dān)心。如果這是真的,我們就有充分的理由懷疑人工智能的風(fēng)險并不大。但即便只是簡單了解一下人工智能領(lǐng)域領(lǐng)軍人物的言論,也會發(fā)現(xiàn)事實(shí)并非如此。

例如,加州大學(xué)伯克利分校教授、人工智能領(lǐng)域最受歡迎和最受推崇的教科書作者斯圖爾特·羅素就強(qiáng)烈警告過通用人工智能帶來的生存性風(fēng)險。他甚至成立了“人類兼容人工智能中心”(Center for Human-Compatible AI),致力于解決人工智能的對齊問題。在應(yīng)用領(lǐng)域,沙恩·萊格(DeepMind 的首席科學(xué)家)提出了生存危險警告,并協(xié)助推動了人工智能對齊問題的研究。事實(shí)上,從人工智能發(fā)展早期到現(xiàn)在,還有很多其他重要人物發(fā)表過類似言論。

這里的分歧其實(shí)比表面上看起來要小。那些淡化風(fēng)險的人的主要觀點(diǎn)是:(1)我們很可能還有幾十年的時間才能讓人工智能與人類能力相匹敵或超過人類水平;(2)試圖立即制約人工智能研究將是一個巨大的錯誤。然而那些提出謹(jǐn)慎看法的人其實(shí)并沒有質(zhì)疑這兩點(diǎn):他們一致認(rèn)為,實(shí)現(xiàn)通用人工智能的時間范圍是幾十年,而不是幾年,并且他們通常建議研究人工智能的對齊問題,而不是監(jiān)管問題。因此,實(shí)質(zhì)性的分歧并不在于通用人工智能是否可能或有證據(jù)顯示它對人類構(gòu)成威脅,而是一個看似幾十年后才會出現(xiàn)的潛在生存威脅是否應(yīng)該引起我們目前的關(guān)注。而在我看來,答案是肯定的。

造成這種明顯分歧的根本原因之一是對“適當(dāng)保守”的看法不一。一個更早的推測性風(fēng)險很好地說明了這一點(diǎn),當(dāng)利奧·西拉德和恩里科·費(fèi)米第一次談?wù)撝圃煸訌椀目赡苄詴r說道:“費(fèi)米認(rèn)為保守的做法是淡化這種可能性,而我認(rèn)為保守的做法是假設(shè)它會發(fā)生,并采取一切必要的預(yù)防措施?!?015 年,在波多黎各一次關(guān)于人工智能未來的開創(chuàng)性會議上,我看到了同樣的互動。每個人都承認(rèn),通用人工智能在實(shí)現(xiàn)時間方面的不確定性和意見分歧要求我們對進(jìn)展使用“保守假設(shè)”—但有一半人使用這個詞是因?yàn)榭紤]到令人遺憾的緩慢科學(xué)進(jìn)展,而另一半人則是考慮到同樣令人遺憾的風(fēng)險出現(xiàn)之快。我相信,目前有關(guān)是否應(yīng)該認(rèn)真對待通用人工智能風(fēng)險的拉鋸局面,很大程度上歸因于人們對有關(guān)人工智能未來進(jìn)展的負(fù)責(zé)任的、保守的推測意味著什么,持有不一致的看法。

波多黎各會議是關(guān)注人工智能生存性風(fēng)險的一個分水嶺。會議達(dá)成了實(shí)質(zhì)性的協(xié)議,許多與會者簽署了一封公開信,表示要開始認(rèn)真研究如何使人工智能既強(qiáng)大又對人類有利。兩年后,又有一場規(guī)模更大的會議在阿西洛馬召開,選擇這個地點(diǎn)是為了呼應(yīng)著名的1975 年遺傳學(xué)會議。在當(dāng)年那次會議上,生物學(xué)家們齊聚一堂,頗有先見之明地商定原則,以管理可能很快實(shí)現(xiàn)的基因工程。在2017 年的阿西洛馬,人工智能研究者商定了一套阿西洛馬人工智能原則,以指導(dǎo)該領(lǐng)域以負(fù)責(zé)任的方式長期發(fā)展。其中包括專門針對生存性風(fēng)險的原則:

能力警惕:由于尚未達(dá)成共識,我們應(yīng)該避免對未來人工智能的能力上限做出較為肯定的假設(shè)。

重要性:高級人工智能可代表地球生命史上的一次重大變化,應(yīng)該以與之相稱的注意力和資源來進(jìn)行規(guī)劃和管理。

風(fēng)險:對于人工智能造成的風(fēng)險,尤其是那些災(zāi)難性和毀滅性的風(fēng)險,必須付出與其可造成的影響相稱的努力,以用于規(guī)劃和緩解風(fēng)險。

或許了解人工智能研究者真實(shí)想法的最佳窗口是2016 年對人工智能重要研究人員的調(diào)查。除了詢問通用人工智能是否以及何時可能被開發(fā)出來,調(diào)查者還詢問了風(fēng)險問題:70% 的研究人員同意斯圖爾特·羅素關(guān)于為什么高級人工智能可能會帶來風(fēng)險的寬泛論點(diǎn);48%的人認(rèn)為社會應(yīng)該優(yōu)先考慮人工智能的安全問題(只有12% 的人認(rèn)為不需要)。而一半的受訪者估計(jì)通用人工智能造成“極其糟糕(如導(dǎo)致人類滅絕)”的長遠(yuǎn)影響的概率至少是5%。我覺得最后一點(diǎn)特別了不起—有多少其他領(lǐng)域的典型頂尖研究者會認(rèn)為該領(lǐng)域的最終目標(biāo)有1/20 的概率對人類極其不利?

當(dāng)然這并不能證明風(fēng)險是真實(shí)存在的。但它說明了很多人工智能研究者對通用人工智能在50 年內(nèi)獲得發(fā)展以及成為一場生存性災(zāi)難的可能性持嚴(yán)肅態(tài)度。雖然有很多不確定性和分歧,但它絕對不是一個次要問題。

當(dāng)有更多研究人員承認(rèn)人工智能的風(fēng)險時,有一個對風(fēng)險持懷疑態(tài)度的值得關(guān)注的論點(diǎn)就變得更加有力—而非站不住腳。如果研究人員能夠預(yù)見構(gòu)建人工智能將是極其危險的,那么他們到底為什么要做這件事呢?他們不會只是為了建造出明知會毀滅他們的東西。

如果我們都真正明智、利他且相互協(xié)作,那么這個論點(diǎn)確實(shí)說得通。但在現(xiàn)實(shí)世界中,人們往往一有機(jī)會就先開發(fā)技術(shù),之后再處理后果。其中一個原因來自我們的理念差異:哪怕只有一小部分研究人員不相信人工智能的危險性(或者歡迎由機(jī)器控制的世界),他們都會成為邁出最后一步的人。這就是單邊主義詛咒的一個例子。另一個原因與動機(jī)有關(guān):即使一些研究人員認(rèn)為風(fēng)險高達(dá)10%,但如果他們認(rèn)為自己會獲得大部分利益,那可能還是會愿意承受風(fēng)險。從他們的自身利益來說,這可能是合理的,但對世界來說卻不堪設(shè)想。

在某些類似的情況下,政府可以為了公共利益而介入,解決這些協(xié)調(diào)和動機(jī)問題。但在這里,這些完全相同的協(xié)調(diào)和動機(jī)問題出現(xiàn)在國家之間,而且沒有簡單的機(jī)制來解決。如果一個國家要緩慢而安全地解決它們,則可能擔(dān)心其他國家試圖奪取其工作成果。締結(jié)條約變得異常

困難,因?yàn)楹瞬槠渌麌沂欠褡袷貤l約比核查生物武器更加困難。

我們能否在人工智能的發(fā)展中生存下來,并保持我們的長期發(fā)展?jié)摿ν旰脽o損,有可能取決于我們能否在開發(fā)出足以構(gòu)成威脅的系統(tǒng)之前學(xué)會對齊和控制人工智能系統(tǒng)。值得慶幸的是,研究人員已經(jīng)在研究各種關(guān)鍵問題,包括如何讓人工智能更安全、更穩(wěn)健、更易理解。但研究讓人工智能與人類價值觀對齊這一核心問題的人仍然很少。這是一個新興的領(lǐng)域,我們需要在該領(lǐng)域取得長足的進(jìn)步,才能實(shí)現(xiàn)自身的安全。

盡管目前以及可預(yù)見的系統(tǒng)不會對人類整體構(gòu)成威脅,但時間是最關(guān)鍵的。一部分原因是人工智能的進(jìn)步可能來得非常突然:通過無法預(yù)知的研究突破,或通過迅速擴(kuò)大第一代智能系統(tǒng)的規(guī)模(例如將其推廣到數(shù)量為目前數(shù)千倍的硬件上,或者提高它們自身的智能)。另一

部分原因是人類事務(wù)中如此重大的變化可能需要超過幾十年的時間來充分準(zhǔn)備。用DeepMind 的聯(lián)合創(chuàng)始人德米什·哈薩比斯的話來說:

我們要利用人工智能發(fā)展的停頓期,在風(fēng)平浪靜的時候?yàn)榻窈髱资晔聭B(tài)嚴(yán)重起來之時做好準(zhǔn)備。我們現(xiàn)在擁有的時間是寶貴的,需要利用起來。

書名:《危崖 : 生存性風(fēng)險與人類的未來》作者:[澳] 托比·奧德(Toby Ord)出版社:中信出版集團(tuán)

作者簡介

托比·奧德(Toby Ord)

澳大利亞哲學(xué)家,任教于牛津大學(xué),是牛津大學(xué)人類未來研究所高級研究員。

托比·奧德的研究工作主要集中在人類面臨的大局問題上。他早期研究的是探討全球貧困的倫理問題,為此他創(chuàng)建了一個名為“盡我們所能”的組織,承諾一生中將共同捐出超過10 億英鎊,支持最有成效的慈善機(jī)構(gòu)以改善世界。此外,他還協(xié)同發(fā)起了有效利他主義運(yùn)動,拓寬這些理念。

他目前研究的是有可能造成人類滅絕或文明永久崩潰的風(fēng)險,以及如何在這些危險中保衛(wèi)人類,他認(rèn)為這是我們面臨的緊迫且容易被忽視的問題之一。

他曾為世界銀行、世界經(jīng)濟(jì)論壇、美國國家情報委員會、DeepMind、英國內(nèi)閣辦公室和英國首相辦公室等組織機(jī)構(gòu)提供風(fēng)險咨詢建議。

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片