天底下最慘的事情是什么?
在我的理解里,莫過于你辛辛苦苦正在追趕自己的對手,眼看著終于看到了他的背影,卻發(fā)現(xiàn)他其實只是閑庭散步。
(相關(guān)資料圖)
還沒來得及說上一句話,他又一次小步快跑把你遠(yuǎn)遠(yuǎn)丟在了身后。
這就是最近百度文心一言正在經(jīng)歷的事情。
就在 3 月 16 日,百度發(fā)布了新一代大語言模型、生成式AI產(chǎn)品文心一言。
對此,百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏表示,文心一言的使用場景主要包含文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解和多模態(tài)生成。
然而就在這之前的一天,在 ChatGPT 發(fā)布四個月并且展現(xiàn)了其驚人的學(xué)習(xí)能力之后,OpenAI 不聲不響又帶來了一次更新:GPT-4。
對此,OpenAI 倒是并不高調(diào),他們在發(fā)布時表示:
“我們創(chuàng)建了 GPT-4,這是 OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。GPT-4 是一個大型多模態(tài)模型(接受圖像和文本輸入,提供文本輸出),雖然在許多現(xiàn)實世界場景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平。”
但他們給行業(yè)帶來的壓力從來都不這么簡單。在文心一言的發(fā)布會現(xiàn)場,李彥宏的語氣里帶著一份不太甘心的低調(diào)和謙虛:
“大家的期望值,是我們對標(biāo) ChatGPT,對標(biāo) GPT-4,這個門檻有點高。十月懷胎,我們就帶大家看看這個 AI 大模型文心一言長什么樣。”
伴隨著大家的調(diào)侃,GPT-4 和百度文心一言之間的比較,很顯然沒法省略過去,畢竟兩者都是多模態(tài)大模型,使用場景和適配能力也有相當(dāng)多的重合。而流傳出來的調(diào)侃圖,也可以成為百度文心一言目前緊張現(xiàn)狀的一個濃縮。
不過,單純從李彥宏在發(fā)布會現(xiàn)場演示用 demo 的各種功能來說,我們并沒有辦法簡單定論百度文心一言和 GPT-4 孰優(yōu)孰劣。
尤其是現(xiàn)場在文學(xué)創(chuàng)作、中文理解等方面,百度文心一言同樣擁有足夠出色的表現(xiàn)。
不管是回答問題還是語言組織,其實都還是達(dá)到了大家的預(yù)期。
相比之下,GPT-4 則擁有更多考試的背書。根據(jù)測試,它通過了模擬律師考試,分?jǐn)?shù)能排在在應(yīng)試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數(shù) 10% 左右。在 SAT 考試方面,GPT-4 的分?jǐn)?shù)增加了 150 分,現(xiàn)在能拿到 1600 分中的 1410 分,在 SAT 閱讀考試中和 SAT 數(shù)學(xué)考試中,都能達(dá)到領(lǐng)先的排名。
這或許就是目前大家對于 GPT-4 有更多認(rèn)同感的原因,畢竟用考試來評價能力也是人類社會比較通行的一個標(biāo)準(zhǔn)。而僅僅從百度文心一言在現(xiàn)場展現(xiàn)出來的部分,大家很難對他的具體能力有足夠全面的認(rèn)識。
當(dāng)然,目前其實已經(jīng)有不少媒體嘗試獲得了文心一言的內(nèi)測資格,并且他們用同樣的問題來觀察兩者在回答上的差別。
但我個人覺得這樣評測意義不大,但凡是我們目前可以想到的測試部分,對于 GPT-4 和百度文心一言來說著實都不是什么復(fù)雜的問題,還只是停留在和之前 ChatGPT 類似的環(huán)節(jié)。
就拿 GPT-4 來說,其實相比 ChatGPT,它已經(jīng)可以開始處理圖像,即可以對輸入介質(zhì)的圖形,進(jìn)行圖像和文字的雙重認(rèn)知。盡管輸入權(quán)限還沒有全部公開,但根據(jù)國外媒體的報道來說,這一點并沒有什么值得懷疑的。另外一個很重要的地方是,GPT-4 似乎更多地開始明白可以“開點玩笑”了,這讓他更像是個真實的、具有思想的人,具有別人無法復(fù)制的思維方式和幽默感。
當(dāng)然了,不管是文心一言還是 GPT-4,其實都有著足夠的、比人類更加出色的“一本正經(jīng)的胡說八道”的能力。從我們之前經(jīng)歷過的一些情況看,他們的可信賴度仍然是有明顯缺失的,雖然他們的確可以比我們更快速更直接地產(chǎn)出反饋——你甚至想不到,它會大膽地編造一些沒有發(fā)生過的事實,或者是出現(xiàn)推理的錯誤。
如果魯迅先生依舊在世,搞不好他會高頻次地敲打 GPT-4 或是文心一言,然后大聲告訴他:“我沒說過這個話?!?/p>
對此,OpenAI 尤其強(qiáng)調(diào)“在使用它(GPT-4)時需要附加諸如人工審查等環(huán)節(jié),如果是對精確度要求非常高的環(huán)境里,甚至要避免使用它。
需要說明的是,雖然大家廣泛看好 GPT-4,而現(xiàn)有數(shù)據(jù)和報道也顯示了兩個產(chǎn)品存在一些代際差,尤其是文心一言的產(chǎn)品發(fā)布會其實是預(yù)先錄制了 demo 進(jìn)行的演示,但我仍然不想對他們的優(yōu)劣進(jìn)行結(jié)論性的推論。
原因很簡單,用小學(xué)一二年級的算術(shù)題去判斷哪個數(shù)學(xué)家的能力更強(qiáng)原本就是極度荒謬的事情,在續(xù)寫故事、應(yīng)答菜譜或者是生成商業(yè)文案的環(huán)節(jié)上的差別,與其說是兩個產(chǎn)品之間的能力差距,還不如說是兩個 AI 之間的性格不同和表現(xiàn)習(xí)慣差別。
在這個層面上,我們倒是更加希望能有人給出更加完善和科學(xué)的標(biāo)準(zhǔn),為我們判斷 AI 的學(xué)習(xí)能力給出最終的落實標(biāo)準(zhǔn)。
責(zé)任編輯:Rex_19