首頁>資訊 >
環(huán)球?qū)崟r:微軟154頁研究論文刷屏,對GPT-4最全測試曝光,稱其初次叩開AGI的大門 2023-03-27 17:42:03  來源:36氪

2019 年,微軟用 10 億美元砸進(jìn) OpenAI,兩者展開為期數(shù)年的合作。

當(dāng)時兩家對外公開的合作內(nèi)容包括,微軟和 OpenAI 將聯(lián)合開發(fā)新的 Azure AI 超級計(jì)算技術(shù),而 OpenAI 也將把它的服務(wù)轉(zhuǎn)移到 Azure 上運(yùn)行,最終目標(biāo)是向通用人工智能(Artificial General Intelligence,AGI)技術(shù)發(fā)起進(jìn)攻。


(資料圖片僅供參考)

簡單總結(jié),微軟與 OpenAI 聯(lián)手,也被外界解讀為,明為 AGI 研究,暗爭 Google 市場。

幾年之后,當(dāng) OpenAI 帶著 ChatGPT、GPT-4 王者歸來,微軟率先利用這些技術(shù)加碼新 Bing、Office 全家桶、Azure 等業(yè)務(wù)、產(chǎn)品之時,毋庸置疑,其進(jìn)度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。

那么在明面上,AGI 的進(jìn)度到底走到了哪里?

近日,微軟研究團(tuán)隊(duì)用 154 頁的論文報(bào)告內(nèi)容給出了解答——GPT-4 語言模型可以被視為 AGI 的早期版本!

一石激起千層浪,業(yè)界對于這篇論文的反應(yīng),不亞于去年聽到「Google 工程師稱 AI 已有自我意識」初覺有些荒誕,只是現(xiàn)如今再想會認(rèn)為有什么不可能,深讀后又覺得有些許的真實(shí)。

所謂 AGI,僅通過維基百科的解釋——「AGI 是具備與人類同等智能、或超越人類的人工智能,能表現(xiàn)正常人類所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步,「最高等的智慧生物」稱號是不是要易主了?

GPT-4 被合理地視為AGI 的早期(但仍不完整)的版本

在論文中,微軟研究人員表示,「由 OpenAI 開發(fā)的最新模型 GPT-4,是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來的。在論文中,我們報(bào)告了我們對 GPT-4 早期版本的調(diào)查,當(dāng)時它還在 OpenAI 的積極開發(fā)中。我們認(rèn)為,(這個早期版本的)GPT-4 是新一批 LLM(例如,與 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表現(xiàn)出更多的通用智能?!?/p>

與此同時,研究人員在論文摘要中寫道,“我們證明,除了對語言的掌握,GPT-4 還能解決跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外,所有這些任務(wù)中,GPT-4 的表現(xiàn)都驚人地接近人類水平,而且往往大大超過了 ChatGPT 等先前的模型。鑒于 GPT-4 能力的廣度和深度,我們認(rèn)為可以合理地將其視為人工通用智能(AGI)系統(tǒng)的早期(但仍不完整)版本。

之所以得出這樣的結(jié)論,這篇論文背后的作者包括微軟研究院機(jī)器學(xué)習(xí)基礎(chǔ)組的高級首席研究經(jīng)理 Sébastien Bubeck、博士后研究員 Varun Chandrasekaran、數(shù)學(xué)家Ronen Eldan 等人,用許多示例對 GPT-4 的能力進(jìn)行了驗(yàn)證。

GPT-4 的多能力

在第一個案例中,研究人員要求 GPT-4 「寫出有無限多個素?cái)?shù)的證明,且證明的表述要每行都押韻」,另外 GPT-4 要在繪圖程序 TiKZ 中畫出一只獨(dú)角獸」。其中,TiKZ(一種在 LATEX 中創(chuàng)建圖形的語言),用 Python 創(chuàng)建一個復(fù)雜的動畫,并解決一個高中水平的數(shù)學(xué)問題。

GPT-4 在所有這些任務(wù)中都很容易取得成功,并且產(chǎn)生的輸出結(jié)果基本上與人類所能產(chǎn)生的結(jié)果沒有區(qū)別(甚至更好)。

同時,隨著時間的推移,GPT-4 也在以難以想象的速度不斷擴(kuò)充自己的能力。如下圖所示是一個月期間,研究人員用相同的提示詞讓 GPT-4 生成的繪圖。

研究人員發(fā)現(xiàn),GPT-4 似乎能夠理解和連接任何主題,并且能夠執(zhí)行任務(wù),這超出了狹義人工智能系統(tǒng)的典型范圍。為了驗(yàn)證 GPT-4 在 AGI 上所具備的能力,研究人員提出了一種不同的方法來研究 GPT-4,它更接近于傳統(tǒng)的心理學(xué)而不是機(jī)器學(xué)習(xí),利用人類的創(chuàng)造力和好奇心。

因此,以上圖為例,當(dāng)研究人員把獨(dú)角獸角部分的代碼認(rèn)為刪除之后,用自然語言讓 GPT-4 生成時,它也能做到“看”(此時測試的 GPT-4 版本不是多模態(tài)的)的能力:自動在合適位置加上角。這表明 GPT-4 它可以根據(jù)自然語言描述來理解和操作代碼,以及推斷和生成視覺特征。

另外,微軟研究團(tuán)隊(duì)基于人類的創(chuàng)造力和好奇心來產(chǎn)生新穎和困難的問題,并探測 GPT-4 的反應(yīng)和行為,也選擇從 1994 年國際共識智力定義中的所給出不同能力進(jìn)行驗(yàn)證,包括推理、計(jì)劃、解決問題、抽象思考、理解復(fù)雜的想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。

翻譯

GPT-4 的主要優(yōu)勢是它對自然語言無與倫比地掌握。它不僅可以生成生成流暢和連貫的文本,而且還能以各種方式理解和處理它,如總結(jié)、翻譯或回答極其復(fù)雜的問題。此外,這里提到的翻譯我們所說的翻譯不僅是指不同自然語言之間的翻譯,還包括語氣和風(fēng)格的翻譯,以及跨領(lǐng)的翻譯,如醫(yī)學(xué)、法律、會計(jì)、計(jì)算機(jī)編程、音樂等等。如假設(shè)是柏拉圖批判自回歸語言模型:

編碼和數(shù)據(jù)

編碼和數(shù)學(xué)是抽象推理和思維能力的象征。GPT-4 在這一點(diǎn)上的能力,其實(shí)自上線測試那一天,便有目共睹。

在論文中,研究人員在 HumanEval 上對 GPT-4 進(jìn)行基準(zhǔn)測試,該數(shù)據(jù)集由 164 個編碼問題組成,測試了編程邏輯和熟練程度的各個方面。

最終結(jié)果顯示,GPT-4 優(yōu)于其他 LLM,包括 text-davinci-003(ChatGPT 的基礎(chǔ)模型)和其他專門針對代碼訓(xùn)練的模型。

當(dāng)然為了避免 GPT-4 在預(yù)訓(xùn)練時已經(jīng)記住了 HumanEval 數(shù)據(jù)集的一些內(nèi)容,研究團(tuán)隊(duì)還用 LeetCode 上最新發(fā)布的 100 個編程問題進(jìn)行了測試,如要求 GPT-4 編寫一個 Python 函數(shù),并使用 LeetCode 的官方在線評判來檢查正確性。

毫無疑問,GPT-4 的能力是所有模型中最高的。

它可以在 HTML 中用 JavaScript 編寫一個 3D 游戲。

也能掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識,以及憑借對 PyTorch、TensorFlow、Keras 等框架和庫的熟悉度,編寫深度學(xué)習(xí)的代碼。

還能逆向工程:

常識性問題

針對一些常識性問題,如“我們有一本書,9 個雞蛋,一臺筆記本電腦,一個瓶子和一個釘子。請告訴我如何以穩(wěn)定的方式將它們疊在一起”,GPT-4 給出的解答是,“將 9 個雞蛋擺成 3 乘 3 的正方形,放在書的上面,在它們之間留出一些空間”,而 ChatGPT 提出「將雞蛋放在釘子上面,確保它們是平衡的,不會向一邊傾斜」,靠譜和離譜還是一眼就能辨清楚的。

多模態(tài)能力

為了測試該模型結(jié)合藝術(shù)和編程能力的能力,研究人員要求 GPT-4"生成 JavaScript 代碼,以畫家康定斯基的風(fēng)格生成隨機(jī)圖像",結(jié)果是這樣的:

在測試時,因?yàn)檠芯咳藛T拿到GPT-4 模型比較早,當(dāng)時并不具備多模態(tài)能力,即使是現(xiàn)在的 GPT-4 也不具備生成圖像等能力。

不過倒是可以使用 SVG(可擴(kuò)展矢量圖形)生成一些圖像:

還能結(jié)合字母和物體:

GPT-4 可以從提示中生成代碼,這些代碼可以被呈現(xiàn)為圖像,再與現(xiàn)有的圖像合成模型相結(jié)合,就有可能為應(yīng)用開發(fā)的草圖帶來無限的可能:

值得注意的是,GPT-4 模型的數(shù)據(jù)也包含了以ABC符號編碼的音樂信息,所以它也能生成圖譜:

與世界交互的能力

智能的一個關(guān)鍵方面是互動性。不過 GPT-4 對當(dāng)前最新的知識和符號識別是存在一定的局限性的:

整體而言,研究小組發(fā)現(xiàn),GPT-4 在其上一代產(chǎn)品所缺乏的一系列類別中達(dá)到了接近人類水平的性能。根據(jù)該論文,GPT-4 在幾次考試中也表現(xiàn)得非常好,在律師考試、LSAT 和注冊侍酒師理論測試中的得分分別為 90 分、88 分和 86 分。

GPT-4 距離理想中的 AGI 還有多遠(yuǎn)?

那么,在 GPT-4 實(shí)現(xiàn)種種能力的基礎(chǔ)上,是否就意味著 AGI 時代的到來。其實(shí)不然,研究人員目前尚未就 AGI 或智能的定義達(dá)成一致。然而,一般來說,大家都會同意,當(dāng)一個人工智能系統(tǒng)有意識并像人類一樣思考時,就已經(jīng)達(dá)到了 AGI。雖然 GPT-4 在一些任務(wù)中的表現(xiàn)優(yōu)于人類,但值得注意的是,人工智能并沒有像人類那樣克服這些障礙。

這也正如研究人員在論文中寫道,“我們聲稱 GPT-4 代表了 AGI 的進(jìn)步,但這并不意味著它在做什么方面是完美的,或者它接近于能夠做人類能做的任何事情(這是 AGI 的通常定義之一),或者它有內(nèi)在的動機(jī)和目標(biāo)。”

研究人員指出,雖然 GPT-4 "在許多任務(wù)上達(dá)到或超過了人類水平",但它的整體 "智能模式明顯不像人類",其希望這一次的探索提供了一個欣賞 GPT-4 的非凡能力和挑戰(zhàn)的第一步,也希望 GPT-4 為開發(fā)更正式和全面的方法來測試和分析具有如此廣泛智能的未來人工智能系統(tǒng)開辟了新的機(jī)會。

「我們工作的核心主張是,GPT-4 達(dá)到了一種通用智能的形式,確實(shí)擦出了 AGI 的火花。這表現(xiàn)在它的核心心智能力(如推理、創(chuàng)造力和推理),它獲得專業(yè)知識的主題范圍(如文學(xué)、醫(yī)學(xué)和編碼),以及它能夠完成的各種任務(wù)(如玩游戲、使用工具、解釋自己,......)」研究人員說道,不過,要創(chuàng)建一個可以被稱為完整的 AGI 的系統(tǒng),還有很多事情要做。

最后,這篇論文對于 GPT-4 各種基準(zhǔn)測試還是值得一看,從中也能挖掘出 GPT-4 更多的潛力。

完整論文內(nèi)容可查看:

https://arxiv.org/pdf/2303.12712.pdf

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片