在等待了一個多月后,百度的文心一言終于正式發布,只是對于百度來說整個發布會過程多少有點“煎熬”,現場沒有進行實機測試,而是用一段視頻來展示文心一言的功能。
百度似乎對文心一言的表現有些忐忑,甚至從李彥宏的演講過程來看,這位中國互聯網的傳奇人物,竟然有點緊張。對于百度來說,文心一言的重要性不言而喻,甚至有人將其看做是中國互聯網對抗ChatGPT的唯一希望,而在過去的一個月里,已經有眾多企業宣布與文心一言合作,進軍未來的人工智能行業。
(資料圖片僅供參考)
氣氛烘托到這個程度,文心一言的具體表現將會直接影響投資者以及用戶對百度的信心。
圖源:文心一言發布會
果不其然,從發布會上用視頻代替實機演示的時間點開始,百度的股價就開始暴跌,僅10分鐘的跌幅就達到10%,240億元的市值就此蒸發,換算一下,每過一秒百度就損失四千萬元市值。
不過,就像過去很多大企業在發布新品時的遭遇一樣,百度的股價同樣坐上了“過山車”,16日暴跌,17號暴漲,百度的股價甚至高于16號的最高值。
百度的市值忽起忽落,不知道李彥宏的心情是否也一樣跟著上下顛簸。不過,至少在發布會現場,李彥宏也承認,現如今的文心一言還有很多不完美的地方,但是未來將會變得更好,用一句網友熟悉的話來形容:未來可期。
文心一言的表現到底如何?
文心一言,會畫畫?
在正式發布前,百度就已經對外宣傳文心一言除了可以提供類似于ChatGPT的對話問答功能外,還支持生成圖片、視頻等功能。不過在測試中,內測版的文心一言似乎并不能提供視頻生成功能,而是直接生成了一段文字。
雖然答非所問,但是從文字描述來看,對應的視頻畫面倒也是符合我的要求。
對此,李彥宏其實也給出了解釋,視頻功能未上線主要是因為對資源的消耗過大,考慮到整體用戶體驗所以在內測版中沒有推出。
視頻功能不行,那么繪畫呢?
我嘗試用不同的描述來讓文心一言生成不同的照片和畫作,不得不說結果確實出乎我的預料。
這是生成的第一張照片,草原、太陽,基本上符合我的要求,只是太陽似乎少了一個。
以畢加索的風格生成一幅油畫呢?
我想文心一言恐怕對畢加索風格有“億”點誤解。
試試梵高風格?
居然比畢加索的好多了,文心一言難道是個梵高粉絲?
再來看看日系風格。
木屋里變成木屋外,遠方還有個雨傘頭怪人,雖然意境上是符合描述,但是BUG也不少。
再來試試科幻風格的,比如機甲大戰怪獸。
看著挺不錯的,但是怪獸呢?
拿武器的男人、異形都沒有,只有一片農田。
在嘗試用不停的話術來生成照片后,可以看出文心一言的繪畫功能處于一個不穩定的狀態,即使是類似的描述,也有可能因為描述內容而出現差別極大的結果,可以是大致符合的,也可以是背道而馳的。
至少從測試結果來看,雖然文心一言的繪畫照片生成速度和質量都很不錯,但是在對用戶語義和內容的理解上,顯然是存在一定的問題,后續還有著很大的優化空間。
對話文心一言
對比繪畫功能,對話式問答或許才是大多數人需要的功能,百度或許是把更多的精力用在對話功能的優化上了?那么就讓我們看看,文心一言在對話式問答上的表現如何。
我首先嘗試著讓文心一言評價一下2023年的春節檔電影《流浪地球2》。
單看評價內容確實可圈可點,但是注意看第一行回復,“該片于2020年春節期間上映”,《流浪地球》是2019年的春節檔電影,《流浪地球2》則是2023年的春節檔,不管是1還是2顯然都與2020年搭不上邊,邏輯上的錯誤使得這個回復的評分大打折扣。
如果我們指出回答的錯誤會怎樣呢?
得,直接變成未上映了。
換一種方式提問會怎樣?
我們得到了一個前后矛盾的回答。
實話說,就現在的表現來看,文心一言即使在常識性的問答上都有不少的錯誤,甚至會在一個回答中給出完全相反的觀點。
特別是涉及到具體時間的問題回答上,文心一言似乎有嚴重的BUG。
再來試試腦筋急轉彎。
回答不出所料。
有意思的是,在我指出回答中存在的問題后,文心一言居然圓回來了。
腦筋急轉彎還是有點難度過高,讓我們試試普通的提問。
終于回答正確了,不容易啊。
再來測試一下其他應用場景。
咋看之下,這個回答是沒有問題的,只不過,若是懂行的人看到這份回答, 恐怕會忍不住笑出聲。比如,銳龍9 6900HX確實是一顆高性能處理器,而RX 5800XM則是一個不存在的產品,即使有也是AMD的顯卡產品而非處理器。
再來看顯卡推薦,RTX 2060是正確的,但是Intel iGPU就多少讓人摸不著頭腦了,Intel自己估計都不知道還有這樣的東西,下面的內存、硬盤兩項回答上同樣有不少問題。
讓我們換個領域試試。
看來在生活領域的問答中,文心一言的準確度要高很多。
換個方式問,同樣回答正確。
再來上點難度。
雖然去兩遍長城有點讓人摸不著頭腦,但是從計劃來看,并沒有太大的問題,完全是一個可實現的簡略旅游計劃。
那么能否生成一個詳細一點的旅游計劃呢?
可以說,如果你想來一趟短暫的廣州旅行,但是卻不知道去哪里,按照這份攻略來走基本上不會出錯,文心一言在生活問答方面的表現遠遠超出了我的預料。
雖然在涉及到文藝作品、數碼等領域的問答存在許多問題,但是在使用率最高的生活問答中,文心一言的表現已然合格,結合手機端的APP定位和用戶人像,可以提供更準確、詳細的建議。
至少在旅游娛樂方面,文心一言已經展示出很大的潛力。
文心一言,可以成為生產力工具嗎?
在此之前,我們聊到ChatGPT,除了驚嘆于強大的對話式問答功能,其在生產力方面的表現也讓許多人產生了危機感,甚至有聲音認為,ChatGPT將會取代許多工作,導致失業危機。
那么,文心一言作為同類型的人工智能產品,在生產力方面的表現又如何呢?
首先來一篇簡單的廣州風土人情介紹文章。
額,好像被我玩壞了。
在刪去字數要求后,文心一言給出了正常的回答。
換個條件再試試。
還是正常的。
讓我們繼續測試。
額,看樣子“500字”似乎是文心一言的死穴,隨后我對500字進行了一些微調,但是給出的回答都是正常的,恐怕這里存在一個未知的BUG,有待后續百度的工程師進行修復。
拋開意外觸發的BUG不談,文心一言確實可以生成簡單的文案,可以為使用者提供一個基本的內容框架,只需要進行內容填充就可以成為一篇簡單直白的介紹文。當然要求不高的話,直接復制粘貼使用也是可以的,在生產力方面,文心一言的表現并不如生活領域的表現突出,甚至可以說有些稀疏平常。
圖源:文心一言發布會
不過,考慮到目前文心一言還是初始內測版本,后續的優化空間還是很大的。綜合體驗下來,文心一言給我的感受既有驚喜也有“驚嚇”,雖然在一些專業性質較強的領域上,文心一言有著不少的問題,但是在一些重點優化的領域,如生活娛樂,可以看到文心一言的回答已經有了不錯的表現。
在生活娛樂領域表現出來的潛力,或許就是百度在發布文心一言后,第二天股價暴漲的原因,雖然在生產力等方面的表現不如人意,但是卻已經表現出了驚人的潛力。
對于文心一言的未來,個人是十分看好的。
責任編輯:Rex_17