首頁(yè)>資訊 >
GPT-4震驚四座,中國(guó)創(chuàng)業(yè)者激戰(zhàn)“小模型” | Future 2023-03-15 15:38:30  來(lái)源:36氪

當(dāng)瓦特蒸汽機(jī)的齒輪轉(zhuǎn)動(dòng)了第一圈;當(dāng)喬布斯從牛皮紙袋掏出Macbook;當(dāng)ChatGBT用流暢優(yōu)美的語(yǔ)言回答第一個(gè)問(wèn)題??萍?,曾經(jīng)、正在、也將改變未來(lái)。

【Future】是36氪科技報(bào)道團(tuán)隊(duì)主理的一檔專欄,我們將圍繞科技產(chǎn)業(yè)的前沿突破,記錄那些實(shí)驗(yàn)室里令人振奮的新技術(shù),是如何穿越PMF(Product Market Fit 產(chǎn)品與市場(chǎng)結(jié)合)的驚險(xiǎn)周期,進(jìn)而影響更廣闊的商業(yè)社會(huì)。

在這里,看見(jiàn)【Future】。


(相關(guān)資料圖)

發(fā)布ChatGPT僅三個(gè)多月后,OpenAI親手為這場(chǎng)大模型熱潮再添了把柴火。

北京時(shí)間3月15日凌晨,OpenAI在官網(wǎng)上宣告了多模態(tài)大模型GPT4的誕生。優(yōu)化了模型可支持的輸入模態(tài)、文本長(zhǎng)度等性能之外,OpenAI在GPT-4的基礎(chǔ)上升級(jí)了ChatGPT,并一舉開放了API——迭代的速度之快,令人咋舌。

在這場(chǎng)屬于大模型的狂飆中,數(shù)字已經(jīng)讓人麻木。首先是模型的參數(shù)量——此前,OpenAI用GPT-3(參數(shù)量達(dá)1750億)將大模型的參數(shù)量卷上千億級(jí)別,但很快,谷歌在3月6日推出的多模態(tài)大模型PalM-E,則用5620億的參數(shù)坐上了“史上最大視覺(jué)語(yǔ)言模型”的位置。

其次是公司狂飆的估值。全球早期項(xiàng)目數(shù)據(jù)服務(wù)商Dealroom的報(bào)告顯示,全球生成式AI企業(yè)的估值達(dá)到總計(jì)約480億美元,在2年里翻了6倍。

國(guó)內(nèi)AI賽道升溫來(lái)得晚,但企業(yè)估值飆升的速度有過(guò)之無(wú)不及——王慧文的AI公司“光年之外”,天使輪的估值達(dá)到了2億美金。一家由某位技術(shù)大拿近期創(chuàng)立的大模型企業(yè),模型demo還沒(méi)影子,天使輪的估值也讓其進(jìn)入了億元美金俱樂(lè)部——而在元宇宙的風(fēng)口中,百萬(wàn)美金,似乎已經(jīng)是國(guó)內(nèi)創(chuàng)企天使輪的估值天花板。

風(fēng)口中,也有一些糾結(jié)、負(fù)面的聲音浮現(xiàn)。

3月2日晚,一篇主題為“為什么感覺(jué)歐美的AI比我們強(qiáng)”的貼文引起不少爭(zhēng)議。發(fā)帖者比較了中美的AI發(fā)展環(huán)境,將歐美AI的發(fā)展視作臥薪嘗膽的“精英教育”,而國(guó)內(nèi)則是重商業(yè)化的“功利教育”,最后得出了一個(gè)略顯絕望的結(jié)論:人的命運(yùn)在子宮里就注定了,機(jī)器人也不可幸免。

主題為“為什么感覺(jué)歐美的AI比我們強(qiáng)”的貼文。圖源:微博@陳怡然-杜克大學(xué),貼文由其轉(zhuǎn)載

當(dāng)下,大模型的暴力美學(xué)對(duì)于多數(shù)企業(yè)來(lái)說(shuō),或許并非全力以赴的最好選擇。算力、高質(zhì)量數(shù)據(jù),以及高密度的算法人才,這些都是上大模型牌桌所需的昂貴入場(chǎng)券,國(guó)內(nèi)多數(shù)玩家無(wú)法在朝夕之間擁有等同OpenAI的儲(chǔ)備。

但豐富的數(shù)據(jù)維度和廣闊的應(yīng)用場(chǎng)景,是上一波持續(xù)了10多年的互聯(lián)網(wǎng)浪潮,留給中國(guó)創(chuàng)業(yè)者的富礦。近一個(gè)月以來(lái),不少有場(chǎng)景、有用戶數(shù)據(jù)的小企業(yè),已經(jīng)基于國(guó)內(nèi)外大模型的基座,訓(xùn)練出適配自身業(yè)務(wù)的小模型。而一家擁有百億參數(shù)大模型儲(chǔ)備的公司,也自行“瘦身”,針對(duì)金融、廣告等領(lǐng)域,推出了輕量化的模型,以進(jìn)行新一輪的數(shù)據(jù)儲(chǔ)備。

當(dāng)下,用小模型打磨算法的利刃,為大模型的研發(fā)做好技術(shù)儲(chǔ)備,或許是中國(guó)創(chuàng)業(yè)者在未來(lái)實(shí)現(xiàn)彎道超車的一條通路。

“全才”大模型 vs “專家”小模型

如何讓AI更聰明、更像人,本質(zhì)上是一個(gè)教育問(wèn)題。

此前的很長(zhǎng)一段時(shí)間,人們熱衷于將AI送進(jìn)“??圃盒!?,學(xué)會(huì)解決特定問(wèn)題的能力——參數(shù)量往往低于百萬(wàn)的小模型由此誕生。比如谷歌旗下的AI公司DeepMind,讓AlphaGO對(duì)上百萬(wàn)種人類專業(yè)選手的下棋步驟進(jìn)行了進(jìn)修,最終在2016年以4:1的成績(jī)戰(zhàn)勝圍棋名將李世石。

但??平逃谋锥艘埠苊黠@,小模型大多都有偏科的毛病。比如面對(duì)寫營(yíng)銷文案時(shí),精于圖片生成的小模型就碰了壁。同時(shí),專科的教育資源分散,每個(gè)小模型都需要分別從頭進(jìn)行基礎(chǔ)訓(xùn)練,

作為父母的人類,大多有著培養(yǎng)出全才的期望。2017年,谷歌發(fā)明了一種新的教育方式:Transformer模型。

以往的“??平逃敝校珹I的學(xué)習(xí)十分依賴人類對(duì)學(xué)習(xí)資料的標(biāo)注和挑選,比如AlphaGO的學(xué)習(xí)資料來(lái)自于專業(yè)棋手,而非上圍棋興趣班的孩子。而Transformer訓(xùn)練方式的精髓在于讓AI通過(guò)大量的預(yù)習(xí),自行對(duì)不同科目的學(xué)習(xí)資料“劃重點(diǎn)”。

用于訓(xùn)練的數(shù)據(jù)越多,模型預(yù)習(xí)的效果越好;參數(shù)越多,模型劃出的重點(diǎn)也就越精確。自行劃重點(diǎn)的教育方法解放了人類的雙手,同時(shí)讓AI對(duì)不同科目多管齊下,實(shí)現(xiàn)了跨領(lǐng)域的知識(shí)積累。

2018年,谷歌基于Transformer發(fā)布了首個(gè)參數(shù)過(guò)億的基礎(chǔ)模型BERT,并在翻譯這門科目上,成績(jī)遠(yuǎn)優(yōu)于神經(jīng)網(wǎng)絡(luò)培訓(xùn)(比如CNN和RNN)模式下培育的模型。

自此,Transformer席卷了模型教育界,大模型的“大”,也被不少公司卷了起來(lái)。目前,100億的參數(shù)量被業(yè)界認(rèn)為是模型能力實(shí)現(xiàn)躍升的拐點(diǎn)。

大模型最為直觀的優(yōu)越性,在于有小模型難以企及的推理演繹能力,能理解更復(fù)雜、更廣闊的場(chǎng)景。

除了內(nèi)容生產(chǎn)領(lǐng)域外,大模型還能用在哪?移動(dòng)互聯(lián)網(wǎng)服務(wù)商APUS創(chuàng)始人李濤還舉了一個(gè)例子:一線城市的交通擁堵,80%的問(wèn)題根源不在于過(guò)多的車輛,而在于協(xié)同程度低的智慧交通系統(tǒng)——每個(gè)路口紅綠燈的秒數(shù)設(shè)置成多少?不同路段的紅綠燈如何配合??jī)H靠人或者小模型,這些問(wèn)題難以解決。

而大模型的出現(xiàn),讓巨量的交通數(shù)據(jù)有了用武之地,“人最多只能根據(jù)一個(gè)路段的交通情況做出決策,而大模型能夠看得更全面”。

大模型更大的潛力,還在于能夠降低小模型訓(xùn)練的成本。大模型好比是歷經(jīng)了義務(wù)教育的孩子,在此基礎(chǔ)上,上大學(xué)選專業(yè),進(jìn)而成為更高階的專業(yè)人才是件成本較低、水到渠成的事。

這也意味著,有了大模型作為基座,從中訓(xùn)練出針對(duì)特定應(yīng)用場(chǎng)景的輕量模型,能夠省去從0開始培養(yǎng)基礎(chǔ)理解的過(guò)程。當(dāng)然,這一做法的風(fēng)險(xiǎn)是,大模型的能力會(huì)直接影響培育出模型的質(zhì)量。

大模型/基礎(chǔ)模型出現(xiàn)的AI 2.0時(shí)代 vs 此前的AI 1.0時(shí)代下,人工智能落地到應(yīng)用的過(guò)程。圖源:創(chuàng)新工場(chǎng)

以ChatGPT為代表的生成式AI,則是大模型時(shí)代下,從象牙塔走向廣闊應(yīng)用的第一批優(yōu)秀畢業(yè)生。GPT-3.5是掩藏在語(yǔ)言生成能力出眾的ChatGPT背后的大模型基座,低調(diào),但作用巨大——如今,它已經(jīng)的教育資源已經(jīng)升了級(jí),迭代成了GPT-4。

不過(guò),大模型時(shí)代的到來(lái),并不意味著高精尖的中小模型將被淘汰。落地到具體的應(yīng)用,經(jīng)濟(jì)性就不得不被企業(yè)納入考量之中,給成本昂貴的大模型“瘦身”顯得尤為重要?!熬唧w的應(yīng)用場(chǎng)景,未來(lái)依然會(huì)是中小模型的天下?!崩顫偨Y(jié)。

發(fā)展大模型難在哪?

一個(gè)月以來(lái),不少號(hào)稱“類ChatGPT”的對(duì)話應(yīng)用涌入市場(chǎng)。

僅從日常對(duì)話體驗(yàn)出發(fā),每一款產(chǎn)品的差異似乎并不大。忽悠或取悅提問(wèn)者、時(shí)效性差等問(wèn)題仍是通病,但相較囿于特定場(chǎng)景和答題模板的智能客服,當(dāng)下涌現(xiàn)的對(duì)話機(jī)器人已經(jīng)讓人初步有了“想繼續(xù)聊下去”的興趣。

但再往下深究模型的參數(shù)、Token等細(xì)節(jié),一切又變得不那么樂(lè)觀。自研模型達(dá)到百億參數(shù)規(guī)模的初創(chuàng)企業(yè)寥寥無(wú)幾,而參數(shù)規(guī)??捎^的企業(yè),不少又有些貓膩。

為了測(cè)試大模型的能力,一位互聯(lián)網(wǎng)企業(yè)的戰(zhàn)略分析師向36氪展示了他設(shè)計(jì)的創(chuàng)意寫作、新聞檢索、邏輯推理等300-400組Prompt(問(wèn)答提示),對(duì)十多個(gè)突破10億參數(shù)規(guī)模的“類ChatGPT”應(yīng)用進(jìn)行逐一測(cè)試需要花上兩三個(gè)月的時(shí)間。

測(cè)試后,他發(fā)現(xiàn)大多產(chǎn)品的回答模式和ChatGPT太類似了:“很難讓人不懷疑,‘自研’模型的水分有多少。”

為什么目前國(guó)內(nèi)仍然沒(méi)有出現(xiàn)ChatGPT?多數(shù)從業(yè)者都覺(jué)得答案顯而易見(jiàn),卻又讓人無(wú)奈:做大模型不僅得花大量金錢和時(shí)間“死摳”,還需要愿意不計(jì)成本投入其中的社會(huì)環(huán)境。

算力、算法、數(shù)據(jù)、場(chǎng)景,這是跑通大模型的四個(gè)關(guān)鍵要素。前兩者也是可以想見(jiàn)的浮于海平面上的困難,尤其對(duì)于小公司而言。

《ChatGPT中國(guó)變形記》一文對(duì)這些靈魂拷問(wèn)都有所提及:想要跑通一次100億以上參數(shù)量的模型至少需要用1000張GPU卡訓(xùn)練一個(gè)月,一定程度上決定算法能力的人才又大多聚集在硅谷或?qū)嵙π酆竦拇髲S。

掩藏在海面下的困難,則是長(zhǎng)期以來(lái)囿于商業(yè)回報(bào)的行業(yè)價(jià)值觀。

“自改革開放以來(lái),中國(guó)經(jīng)濟(jì)保持了30多年的高速增長(zhǎng)期,并快速躋身世界前列,這和互聯(lián)網(wǎng)發(fā)展拉動(dòng)更多行業(yè)進(jìn)行快速商業(yè)化落地有很大關(guān)系?!币幻趪?guó)內(nèi)外互聯(lián)網(wǎng)企業(yè)AI團(tuán)隊(duì)近20年的從業(yè)者告訴36氪。但發(fā)展的經(jīng)驗(yàn),亦成了慣性的枷鎖,“在ChatGPT所帶來(lái)的新機(jī)會(huì)面前,我們不可避免地仍然用舊的商業(yè)回報(bào)的視角去加以評(píng)估”。

不少投資人也覺(jué)得,爽快地拿錢是件不容易的事。受中概股形勢(shì)嚴(yán)峻、企業(yè)赴美上市難等因素影響,不少科技企業(yè)對(duì)美元基金的態(tài)度變得保守謹(jǐn)慎。而如今政府主導(dǎo)基金在人民幣LP中的比例加大,基金募集人民幣面臨更大的挑戰(zhàn)。

夾在其間的雙幣基金更是面臨著兩頭不討好的困境?!俺藗€(gè)別不缺錢的頭部基金,大部分投資機(jī)構(gòu)都在觀望?!币幻p幣基金投資人表示。

即便訓(xùn)練出了大模型,依然沒(méi)有人敢斷定,資金回報(bào)一定會(huì)在“5+2”的投資周期后到來(lái)。

3月2日,OpenAI以$0.002/1000 tokens(約等于100萬(wàn)個(gè)單詞/18元人民幣)的“白菜價(jià)”公開了ChatGPT的API,往行業(yè)投擲了一枚不確定性的炸彈。僅過(guò)了半個(gè)月,GPT-4又以終結(jié)者的姿態(tài)空降賽道。這更是讓國(guó)內(nèi)不少企業(yè)覺(jué)得:“卷不過(guò)?!?/p>

最先受到?jīng)_擊的是模型層的公司,模型性能還沒(méi)磨到能與ChatGPT同臺(tái)競(jìng)技的水平,又失去了定價(jià)權(quán)。

內(nèi)容行業(yè)的改革也不可避免,如搜索、設(shè)計(jì)、文案撰寫等等。一名互聯(lián)網(wǎng)搜索業(yè)務(wù)的員工聊起響應(yīng)新技術(shù)改革過(guò)程時(shí)的無(wú)措:“比如與營(yíng)收直接掛鉤的廣告,在生成式AI接入后,用戶可能擁有選擇不看廣告的權(quán)利;即便放上廣告,接入大模型后搜索的成本也翻了番?!?/p>

而商業(yè)變現(xiàn)的想法,看似只需在現(xiàn)有應(yīng)用上前綴“AI+”一般簡(jiǎn)單,卻又不甚明朗。

“朦朧美”,不少投資人如此形容近兩個(gè)月AI賽道上的標(biāo)的?!?strong>在科技行業(yè),很多新技術(shù)一開始都是主題投資,投的是一種想象力經(jīng)濟(jì)。”一名經(jīng)歷了元宇宙、Web3等諸多風(fēng)口的投資人告訴36氪,“我們傾向于認(rèn)為目前的‘AI+’都有做成的可能,但也正因?yàn)槿绱耍髽I(yè)的vision(遠(yuǎn)見(jiàn)卓識(shí))和商業(yè)模式在尋求融資的過(guò)程中會(huì)被更加強(qiáng)調(diào)。”

一個(gè)月前見(jiàn)到一名雙幣基金的投資人時(shí),她正拒絕了一家立下“1年內(nèi)訓(xùn)練出大模型”軍令狀的公司。最近再見(jiàn)她,對(duì)方用同樣的兩個(gè)問(wèn)題勸退了不少趕風(fēng)口的企業(yè):

“你們做大模型的必要性在哪?”

“有什么明確的商業(yè)模式嗎?”

場(chǎng)景和數(shù)據(jù),國(guó)內(nèi)小模型的機(jī)會(huì)

但好在,中國(guó)不缺AI模型的落地場(chǎng)景,以及豐富的用戶數(shù)據(jù)——這讓國(guó)內(nèi)公司在培育大模型這一“西瓜”的同時(shí),還能收割輕量化模型撒下的“芝麻”。

回到模型訓(xùn)練的本質(zhì):量變引起質(zhì)變。暴力出奇跡的基礎(chǔ)在于海量的數(shù)據(jù),而我國(guó)超10億規(guī)模的互聯(lián)網(wǎng)民,已經(jīng)給大模型的研發(fā)提供了足夠的燃料。而席卷了近十年的數(shù)字化浪潮,又讓AI在足夠多的成熟產(chǎn)業(yè)有快速落地的可能,同時(shí)又能為方興未艾的行業(yè)注入新血。

不少曾經(jīng)立下“All in 大模型”flag的基金,經(jīng)歷了近3個(gè)月的火熱后,選擇自行降溫。一名雙幣基金投資人告訴36氪,團(tuán)隊(duì)已經(jīng)調(diào)整了投資戰(zhàn)略,“比起投一家模型層公司,不如和現(xiàn)有的portfolio(投資組合)討論如何接入模型優(yōu)化業(yè)務(wù)?!?/p>

但聚焦到特定的應(yīng)用場(chǎng)景,最終發(fā)揮作用的往往不是大模型,而是輕量的中小模型。大模型涉獵廣,但對(duì)具體場(chǎng)景的推理演繹能力往往不如“專家”中小模型。另一方面,從更現(xiàn)實(shí)的成本問(wèn)題出發(fā),中小模型能將大模型運(yùn)行所需的算力成本降到1/10甚至1/100。

李濤認(rèn)為,國(guó)內(nèi)企業(yè)現(xiàn)階段可以奉行的是“拿來(lái)主義”,基于海外的開源大模型,將中小模型打磨至頂尖水平:

“現(xiàn)在國(guó)內(nèi)企業(yè)能跑通的是這樣一條路:用海外大模型對(duì)落地場(chǎng)景進(jìn)行驗(yàn)證,再基于我們豐富的數(shù)據(jù)資源訓(xùn)練中小模型,最后落地至具體場(chǎng)景——大模型的4個(gè)要素,除了算力是長(zhǎng)跑,剩下3個(gè)都是能夠把握在手里的?!?/p>

這也意味著,國(guó)內(nèi)有場(chǎng)景、有數(shù)據(jù)的模型層公司,在OpenAI給予的競(jìng)爭(zhēng)壓力下,依然能抓住不少機(jī)會(huì)。中小模型落地后,各行各業(yè)積攢的數(shù)據(jù)又能成為自研大模型的“飛輪”。

目睹OpenAI踏出一條明路后,也有更多人愿意不計(jì)較太多成本,涌向“無(wú)人區(qū)”。

比如基于“用AI操縱AI”的想象力,在海外,一些通過(guò)大模型搭建“下一代RPA(Robotic process automation,機(jī)器人流程自動(dòng)化)平臺(tái)”的公司,已經(jīng)受到了資本的青睞。

最典型的案例是去年4月,含著谷歌AI核心研發(fā)團(tuán)隊(duì)這一“金湯匙”出生的美國(guó)AI創(chuàng)企Adept,迅速拿下了6500萬(wàn)美元的A輪融資。類似方向的公司還有得到a16z投資的Replicate,以及德國(guó)的Deepset。

“RPA+AI”這一應(yīng)用方向的突破性在于,將大模型落地為調(diào)用和控制智能工具的中臺(tái),讓企業(yè)在少代碼化操作的情況下智能化調(diào)用相應(yīng)的數(shù)字工具。一名相關(guān)方向的國(guó)內(nèi)創(chuàng)業(yè)者預(yù)估,“未來(lái)十年內(nèi),RPA行業(yè)可能不再單獨(dú)存在,數(shù)字化工具可以無(wú)代碼地直接連接到個(gè)體?!?/p>

2019年-2021年期間,海外流向生成式 AI 業(yè)務(wù)的資本增加了約 130%,增長(zhǎng)主要由機(jī)器學(xué)習(xí)運(yùn)維(MLOps)、文本寫作、數(shù)據(jù)等領(lǐng)域拉動(dòng)。圖源:Base10

服務(wù)于模型訓(xùn)練、管理、運(yùn)維的一些中間業(yè)態(tài)也初步形成。比如,一些企業(yè)研究出了讓模型訓(xùn)練成本更低、效率更高的模式,讓人們只需用一張消費(fèi)級(jí)GPU的顯存,就能實(shí)現(xiàn)對(duì)ChatGPT的部分復(fù)刻。

無(wú)論是保守冷靜,還是擁抱不確定性,投資人們首先要面對(duì)的是浪潮中水漲船高的企業(yè)估值。多少是企業(yè)的本事,多少是泡沫中的水分,在被ChatGPT卷起的AI夢(mèng)真正落地前,讓賽道去偽存真,也需要經(jīng)歷一定的時(shí)間。

延伸閱讀:

《ChatGPT中國(guó)變形記 | 深氪》

36kr制圖

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片