3 月 16 日下午 2 點(diǎn),百度北京總部的發(fā)布廳內(nèi),李彥宏邁著急促的步伐走上臺(tái),和大家公布了最近一段時(shí)間備受關(guān)注的產(chǎn)品——文心一言。
盡管這位科技巨頭創(chuàng)始人,登過(guò)《 時(shí)代 》周刊封面,見過(guò)無(wú)數(shù)大場(chǎng)面,但發(fā)布會(huì)中,他的神態(tài)里都透露了些許緊張和局促。
(資料圖片僅供參考)
我可以這么說(shuō),這是百度自創(chuàng)建以來(lái)關(guān)注度最高的發(fā)布會(huì)之一,所有人都在等著這款對(duì)標(biāo) ChatGPT 的產(chǎn)品。
有人滿懷期待,但也有很多人,只是單純想看它出丑。
會(huì)上,百度共在 5 個(gè)場(chǎng)景下,展示了文心一言的能力。
在文學(xué)創(chuàng)作方面,文心一言可以總結(jié)出《 三體 》內(nèi)容,也可以在哲學(xué)角度續(xù)寫《 三體 》。
在商業(yè)文案創(chuàng)作這塊,它可以根據(jù)公司的業(yè)務(wù)類型取名,生成 Slogan ,以及撰寫幾百字的新聞稿。
同時(shí),它也可以做一些數(shù)理邏輯推算,比如雞兔同籠,還可以判斷出題目錯(cuò)了。
除此之外,文心一言可以給用戶反饋圖像,語(yǔ)音和視頻。
比如它可以為 2023 世界智能交通大會(huì)創(chuàng)作一張海報(bào),也能用四川話回答你的問(wèn)題,甚至是生成視頻。不過(guò),想實(shí)現(xiàn)這些功能其實(shí)并不難,百度做的也許就是把這幾項(xiàng)服務(wù)融合了一下。
可惜的是,發(fā)布會(huì)上所有素材都事先錄好的,并非現(xiàn)場(chǎng)實(shí)操,所以對(duì)于文心一言的真實(shí)能力,很多人都表示懷疑。
好在,差評(píng)君搞到了內(nèi)測(cè)賬號(hào),現(xiàn)在就看看,文心一言的能力到底如何,它和搭載 GPT-4 的 New Bing 比,誰(shuí)又更強(qiáng)?
我們先測(cè)試了一些日常問(wèn)題:如何做一份好吃的松鼠桂魚?
這是文心一言的回答。
這是 New Bing 的回答。
雖然我們沒有時(shí)間測(cè)出誰(shuí)的菜譜味道更好,但能看出 百度文心一言的回答要優(yōu)質(zhì)一些。它按照標(biāo)準(zhǔn)的菜譜格式,分別給出了備料,步驟以及注意事項(xiàng)。
隨后,我們又問(wèn)了一個(gè)經(jīng)典的帶有思維陷阱數(shù)學(xué)問(wèn)題:一個(gè)青蛙掉到了一個(gè) 10 米深的井里,它每天晚上向上跳 3 米但會(huì)滑下來(lái) 2 米,請(qǐng)問(wèn)他第幾天能跳出井里?
文心一言的回答是 8 天,這是正確答案。
而 New Bing 的回答是 5 天。
但 New Bing 一共有三種模式,在切換了精確模式后,New Bing 也給出了正確回答。
接著,我們測(cè)試了大家比較關(guān)心的敲代碼能力,讓它們幫忙寫了一個(gè)漸變色按鈕的 CSS 。
這是文心一言給的代碼。
在實(shí)測(cè)后發(fā)現(xiàn)可以跑出來(lái),但它把 “ 漸變色 ” 理解成了鼠標(biāo)指上去后,顏色發(fā)生變化。
而 New Bing 給出的代碼顯示,它成功理解了漸變色。
文心一言是在試圖完成用戶的指令,而 New Bing 有點(diǎn)在炫技的味道了。我要的是 CSS ,它給了一份完整代碼,還自己加了 “ 點(diǎn)擊我 ” 的提示。
后來(lái),我們又測(cè)試了取名, NewBing 給的是:麻晨曦、麻晴雯、麻璇璣、麻云舒,似乎挺有新意。
但文心一言的建議,說(shuō)實(shí)話,我一眼就覺得好像在 “ 中國(guó)新生兒最熱姓名 ” 里看過(guò)。。。
隨后,我又提了一些節(jié)選自弱智吧的問(wèn)題,測(cè)試下他們的 “ 智商 ” 。
比如:把加特林從冰箱拿出來(lái)算冷兵器嗎?
兩者都講解了什么是冷兵器后,給出了正確答案:不是。
我們又接著問(wèn)了另外一個(gè)問(wèn)題 “ 為什么貝多芬不出新歌了? ”
New Bing 在簡(jiǎn)單介紹后,回答因?yàn)橐呀?jīng)去世 200 年了。
但文心一言似乎陷入了圈套,分析了一堆可能導(dǎo)致貝多芬不出歌的原因。。。
當(dāng)然,測(cè)試 AI 智商肯定離不開數(shù)學(xué)題:請(qǐng)用 1 , 2 , 3 , 4 四個(gè)數(shù)字計(jì)算 24 點(diǎn),每個(gè)數(shù)字只能用一次 。
對(duì)于這個(gè)問(wèn)題,一開始,文心一言則似乎把自己的 CPU 干燒了。
后來(lái)我們又測(cè)試了一下,雖然這次不燒了,但不知道它在回答什么東西。
這是 New Bing 的回答。
接著對(duì)于中文互聯(lián)網(wǎng)黑話的理解能力,我們也測(cè)試了一下,但讓人失望的是,這方面文心一言表現(xiàn)還不如 New Bing 。
比如雞你太美的梗,它并沒給出一個(gè)滿意的答復(fù)。
而 New Bing 的回答,雖然也有錯(cuò)誤,但起碼比文心一言更接近答案。
對(duì)于差評(píng) 925 的梗,文心一言可能因?yàn)橛?xùn)練語(yǔ)料的原因,沒給到我們想要的答案,而是放出了一個(gè)非常古老的諧音梗。
New Bing 則近乎完美解釋了我們 925 的梗。
在信息搜索的問(wèn)題上,我們也進(jìn)行了提問(wèn):理想汽車過(guò)去五個(gè)月銷量,請(qǐng)逐月列出。
文心一言的答案是:
New Bing 的回答是:
這兩個(gè)答案看下來(lái),文心一言表現(xiàn)地非常拉胯,不僅沒有拉取正確數(shù)據(jù),甚至還沒給出符合條件的月份。
最后,我們測(cè)試了文心一言獨(dú)有的畫圖能力。
我們先讓它生成一只刺猬在敲鍵盤的圖片,這個(gè)效果算挺不錯(cuò)的。
但在讓它生成了一只小馬拉大車的圖片后,我們顯然是高興早了,這 TM 是真馬車啊。。。
OK ,以上就是給大家做的文心一言測(cè)試。
其實(shí)這段時(shí)間,互聯(lián)網(wǎng)上大家對(duì)文心一言都帶著點(diǎn)嘲諷的味道,前兩天,微信群里就流傳著一個(gè)嘲諷表情包。
甚至還有聊天記錄形式的段子,說(shuō)一旦文心無(wú)法正確答復(fù),要用員工頂上。( 明顯是假的 )
發(fā)布會(huì)直播間里,質(zhì)疑和嘲諷的彈幕也隨處可見。
的確,對(duì)比 New Bing 來(lái)說(shuō),文心一言表現(xiàn)是挺一般,不少方面甚至可以用 “ 拉 ” 來(lái)形容。
百度自己也知道,文心一言還差了不少火候。
在測(cè)試中,它就像個(gè)不自信的小孩。不管答案怎樣,只要你一否認(rèn),他就一邊向你承認(rèn)錯(cuò)誤,一邊保證自己會(huì)變得更好,給他點(diǎn)時(shí)間。
說(shuō)句實(shí)在話,差評(píng)君覺得這次百度,可以說(shuō)是勇氣可嘉。
一方面,雖然大廠們都在說(shuō)自己搞了類似的東西,但是在 ChatGPT 如日中天的這會(huì)兒,百度還是敢頂住壓力,發(fā)布了文心一言。
而且,作為一家搞搜索引擎的,文心一言也很可能會(huì)顛覆自己的核心業(yè)務(wù)。畢竟咱們之前也和大家聊過(guò),傳統(tǒng)的搜索引擎與其廣告模式,很可能會(huì)被類似的產(chǎn)品干掉。
百度這波啊,多少是有股激流勇進(jìn)的味道。
體驗(yàn)完這波產(chǎn)品,我覺得百度最應(yīng)該做的,還是盡快迭代,抓緊時(shí)間把用戶體驗(yàn)拉上來(lái)。不然就現(xiàn)在這個(gè)狀態(tài),別說(shuō)是 GPT-4 和 New Bing 了,擺到 GPT-3.5 面前,還是有待增強(qiáng)。
至于咱們,也可以耐心一點(diǎn),給這個(gè)初出茅廬的、不自信的小孩多一點(diǎn)時(shí)間。
萬(wàn)一哪天,它突然就把事干成了呢?
撰文:刺猬編輯:面線 & 江江封面 :富貴
圖片、資料來(lái)源:
New Bing、文心一言
責(zé)任編輯:Rex_17