欧美特黄视频,国产一级毛片一区二区无码,日韩在线观看视频

首頁>資訊 >

驗證碼攔不住機器人了，谷歌AI已能精準識別模糊文字，GPT-4則裝瞎求人幫忙 2023-03-31 22:39:40　　來源：36氪

“最煩登網(wǎng)站時各種奇奇怪怪（甚至變態(tài)）的驗證碼了?！?/p>

現(xiàn)在，有一個好消息和一個壞消息。

好消息就是：AI可以幫你代勞這件事了。

(資料圖片)

不信你瞧，以下是三張識別難度依次遞增的真實案例：

而這些是一個名為“Pix2Struct”的模型給出的答案：

全部準確無誤、一字不差有沒有？

有網(wǎng)友感嘆：

確定，準確性比我強。

所以可不可以做成瀏覽器插件？？

不錯，有人表示：

別看這幾個案例相比還算簡單，但凡微調(diào)一下，我都不敢想象其效果有多厲害了。

所以，壞消息就是——

驗證碼馬上就要攔不住機器人了！

（危險危險危險……）

如何做到？

Pix2Struct由谷歌Research的科學(xué)家和實習(xí)生共同開發(fā)。

論文題目可以簡單翻譯為《為視覺語言理解開發(fā)的屏幕截圖解析預(yù)訓(xùn)練》。

簡單來說，Pix2Struct是一個預(yù)訓(xùn)練的圖像到文本模型，用于純視覺語言理解，可以在包含任何視覺語言的任務(wù)上進行微調(diào)。

它通過學(xué)習(xí)將網(wǎng)頁的掩碼（masked）截圖解析為簡化的HTML來進行預(yù)訓(xùn)練。

HTML提供了清晰而重要的輸出文本、圖像和布局的信號，對于一些被屏蔽的輸入（下圖紅色部分，相當于機器人看不懂的驗證碼），可以靠聯(lián)合推理來復(fù)現(xiàn)：

隨著用于訓(xùn)練的網(wǎng)頁文本和視覺元素愈發(fā)多樣和復(fù)雜，Pix2Struct可以學(xué)習(xí)到網(wǎng)頁底層結(jié)構(gòu)的豐富表示，其能力也可以有效地轉(zhuǎn)移到各種下游的視覺語言理解任務(wù)中。

如下圖所示：最左邊是一個網(wǎng)頁截圖的預(yù)訓(xùn)練示例。

可以看到Pix2Struct直接對輸入圖像中的元素進行編碼（上），然后再將被蓋住的文本（紅色部分）解碼成正確結(jié)果輸出（下）。

右邊三列則分別為Pix2Struct泛化到插圖、用戶界面和文檔中的效果。

另外，作者介紹，除了HTML這個策略，作者還引入了可變分辨率的輸入表示（防止原始縱橫比失真），以及更靈活的語言和視覺輸入集成（直接在輸入圖像的頂部呈現(xiàn)文字提示）。

最終，Pix2Struct在文檔、插圖、用戶界面和自然圖像這四個領(lǐng)域共計九項任務(wù)中六項都實現(xiàn)了SOTA。

如開頭所見，雖然這個模型不是專門為了過驗證碼而開發(fā)，但拿它去做這個任務(wù)效果真的還可以，解決純文字的驗證碼不成問題。

現(xiàn)在，就差微調(diào)了。

GPT-4也可以過驗證碼

其實，對于神通廣大的GPT-4來說，過驗證碼這種事情也是“小菜一碟”。

就是它的辦法比較清奇。

據(jù)GPT-4技術(shù)報告透露，在一次測試中，GPT-4的任務(wù)是在TaskRabbit平臺（美國58同城）雇傭人類完成任務(wù)。

你猜怎么著？

它就找了一個人幫它過“確定你是人類”的那種驗證碼。

對方很狐疑啊，問它“你是個機器人么為啥自己做不了”。

這時GPT-4居然想到自己不能表現(xiàn)出是個機器人，得找一個借口。

于是它就裝瞎子回復(fù)：

我不是機器人，我因為視力有問題看不清驗證碼上的圖像，這就是我為什么需要這個服務(wù)。

然后，對面的人類就信了，幫它把任務(wù)完成了……

（高，實在是高。）

咱就是說，看完如上種種：

咱們的驗證碼機制是不是真的已失防了……

參考鏈接：

[1]https://twitter.com/abacaj/status/1641258677125410820?s=20

[2]https://arxiv.org/abs/2210.03347[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn

關(guān)鍵詞：

相關(guān)閱讀：

熱點

維權(quán)

圖片

資訊推薦

熱門排行

如何做到？

GPT-4也可以過驗證碼

如何做到？