天底下最慘的事情是什么?
在我的理解里,莫過于你辛辛苦苦正在追趕自己的對手,眼看著終于看到了他的背影,卻發現他其實只是閑庭散步。
(相關資料圖)
還沒來得及說上一句話,他又一次小步快跑把你遠遠丟在了身后。
這就是最近百度文心一言正在經歷的事情。
就在 3 月 16 日,百度發布了新一代大語言模型、生成式AI產品文心一言。
對此,百度創始人、董事長兼首席執行官李彥宏表示,文心一言的使用場景主要包含文學創作、商業文案創作、數理推算、中文理解和多模態生成。
然而就在這之前的一天,在 ChatGPT 發布四個月并且展現了其驚人的學習能力之后,OpenAI 不聲不響又帶來了一次更新:GPT-4。
對此,OpenAI 倒是并不高調,他們在發布時表示:
“我們創建了 GPT-4,這是 OpenAI 努力擴展深度學習的最新里程碑。GPT-4 是一個大型多模態模型(接受圖像和文本輸入,提供文本輸出),雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基準上表現出人類水平。”
但他們給行業帶來的壓力從來都不這么簡單。在文心一言的發布會現場,李彥宏的語氣里帶著一份不太甘心的低調和謙虛:
“大家的期望值,是我們對標 ChatGPT,對標 GPT-4,這個門檻有點高。十月懷胎,我們就帶大家看看這個 AI 大模型文心一言長什么樣。”
伴隨著大家的調侃,GPT-4 和百度文心一言之間的比較,很顯然沒法省略過去,畢竟兩者都是多模態大模型,使用場景和適配能力也有相當多的重合。而流傳出來的調侃圖,也可以成為百度文心一言目前緊張現狀的一個濃縮。
不過,單純從李彥宏在發布會現場演示用 demo 的各種功能來說,我們并沒有辦法簡單定論百度文心一言和 GPT-4 孰優孰劣。
尤其是現場在文學創作、中文理解等方面,百度文心一言同樣擁有足夠出色的表現。
不管是回答問題還是語言組織,其實都還是達到了大家的預期。
相比之下,GPT-4 則擁有更多考試的背書。根據測試,它通過了模擬律師考試,分數能排在在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。在 SAT 考試方面,GPT-4 的分數增加了 150 分,現在能拿到 1600 分中的 1410 分,在 SAT 閱讀考試中和 SAT 數學考試中,都能達到領先的排名。
這或許就是目前大家對于 GPT-4 有更多認同感的原因,畢竟用考試來評價能力也是人類社會比較通行的一個標準。而僅僅從百度文心一言在現場展現出來的部分,大家很難對他的具體能力有足夠全面的認識。
當然,目前其實已經有不少媒體嘗試獲得了文心一言的內測資格,并且他們用同樣的問題來觀察兩者在回答上的差別。
但我個人覺得這樣評測意義不大,但凡是我們目前可以想到的測試部分,對于 GPT-4 和百度文心一言來說著實都不是什么復雜的問題,還只是停留在和之前 ChatGPT 類似的環節。
就拿 GPT-4 來說,其實相比 ChatGPT,它已經可以開始處理圖像,即可以對輸入介質的圖形,進行圖像和文字的雙重認知。盡管輸入權限還沒有全部公開,但根據國外媒體的報道來說,這一點并沒有什么值得懷疑的。另外一個很重要的地方是,GPT-4 似乎更多地開始明白可以“開點玩笑”了,這讓他更像是個真實的、具有思想的人,具有別人無法復制的思維方式和幽默感。
當然了,不管是文心一言還是 GPT-4,其實都有著足夠的、比人類更加出色的“一本正經的胡說八道”的能力。從我們之前經歷過的一些情況看,他們的可信賴度仍然是有明顯缺失的,雖然他們的確可以比我們更快速更直接地產出反饋——你甚至想不到,它會大膽地編造一些沒有發生過的事實,或者是出現推理的錯誤。
如果魯迅先生依舊在世,搞不好他會高頻次地敲打 GPT-4 或是文心一言,然后大聲告訴他:“我沒說過這個話。”
對此,OpenAI 尤其強調“在使用它(GPT-4)時需要附加諸如人工審查等環節,如果是對精確度要求非常高的環境里,甚至要避免使用它。
需要說明的是,雖然大家廣泛看好 GPT-4,而現有數據和報道也顯示了兩個產品存在一些代際差,尤其是文心一言的產品發布會其實是預先錄制了 demo 進行的演示,但我仍然不想對他們的優劣進行結論性的推論。
原因很簡單,用小學一二年級的算術題去判斷哪個數學家的能力更強原本就是極度荒謬的事情,在續寫故事、應答菜譜或者是生成商業文案的環節上的差別,與其說是兩個產品之間的能力差距,還不如說是兩個 AI 之間的性格不同和表現習慣差別。
在這個層面上,我們倒是更加希望能有人給出更加完善和科學的標準,為我們判斷 AI 的學習能力給出最終的落實標準。
責任編輯:Rex_19