<bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 首頁 > 智能影音 >

    時(shí)訊:別只罵谷歌Bard了,ChatGPT加持的微軟New Bing也錯(cuò)誤頻出

    機(jī)器之心專欄

    作者:李星漩、丁博生、趙若辰、謝耀賡、邴立東

    這些天看下來,在與谷歌 Bard 加持的搜索引擎較量中,微軟基于 ChatGPT 的新必應(yīng)似乎完全占據(jù)了上風(fēng)。但仍不禁要問,新必應(yīng)的搜索結(jié)果真的無懈可擊嗎?最近有來自新加坡南洋理工大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)的NLP研究者深扒了微軟發(fā)布會上搜索演示的細(xì)節(jié),并揪出了很多錯(cuò)誤。

    2 月 8 號美東時(shí)間八點(diǎn)半,谷歌發(fā)布會在巴黎召開。前一天微軟正式推出了新一代 AI 驅(qū)動搜索引擎 New Bing,把基于 ChatGPT 技術(shù)的生成模型和 Bing 集成在一起。微軟副總裁 Yusuf Mehdi 進(jìn)行了一次完美的演示 [0],當(dāng)日微軟市值暴漲 800 億美元。即便是在 OpenAI 沒有開放注冊的中國,朋友圈、微信群里 Yusuf 展示的生成模型如何增強(qiáng) Bing 搜索引擎和 Edge 瀏覽器體驗(yàn)的片段也在瘋傳。汝之蜜糖,彼之砒霜,大家都在等著搜索巨頭谷歌怎么應(yīng)對。


    (資料圖片僅供參考)

    谷歌發(fā)布會的現(xiàn)場,大家都在等待傳說中跟 New Bing 對標(biāo)的 Bard 登場。作為有谷歌搜索引擎加持的大語言模型,大家對 Bard 充滿了遐想。然而,發(fā)布會現(xiàn)場,關(guān)于 Bard 的內(nèi)容并不多。于是大家又把眼光投向了谷歌在推特上發(fā)布的 Bard 視頻,仔細(xì)扒下來,大家突然發(fā)現(xiàn) Bard 在回答問題時(shí)犯了事實(shí)性錯(cuò)誤。

    在被問及「關(guān)于詹姆斯韋伯望遠(yuǎn)鏡的新發(fā)現(xiàn),有什么可以告訴我九歲孩子的?」時(shí),Bard 回答道:「第一張系外行星照片是由詹姆斯韋伯望遠(yuǎn)鏡拍攝。」而事實(shí)卻是由歐洲南方天文臺的甚大望遠(yuǎn)鏡在 2004 年拍下的,此時(shí)距離詹姆斯韋伯望遠(yuǎn)鏡升空還有 18 年之久。這個(gè)錯(cuò)誤成了谷歌當(dāng)日股價(jià)大跌的導(dǎo)火索。

    圖 1 Bard 關(guān)于詹姆斯韋伯望遠(yuǎn)鏡演示截圖

    而在巴黎發(fā)布會的現(xiàn)場,盡管 Bard 的展示部分只有 4 分鐘左右,其關(guān)于星座最佳觀測時(shí)間的回答同樣存在明顯的事實(shí)偏差。如下圖,Bard 的回答中提到獵戶座最佳觀測時(shí)間是十一月到二月。

    圖 2 Bard 關(guān)于星系觀測時(shí)間演示截圖

    根據(jù)不同信息源,獵戶座的最佳觀測時(shí)間不盡相同,但是都明確指出最佳觀測時(shí)段從每年一月起。教育科技網(wǎng)站 BYJU"S 提供的最佳時(shí)間為一月到三月 [1],維基百科提供的最佳時(shí)間為一月到四月 [2]。

    圖 3 BYJU‘S 關(guān)于獵戶座最佳觀測時(shí)間的解答

    由于 Bard 發(fā)布會相較于 New Bing 發(fā)布會的落差,以及被揪出了事實(shí)性錯(cuò)誤,當(dāng)天谷歌市值暴跌近 1000 億美元,Bard 也因此被戲稱為史上最貴發(fā)布會。我們不禁好奇,在 New Bing 看似完美的發(fā)布會中,是不是也藏著事實(shí)性的錯(cuò)誤呢?

    New Bing 的事實(shí)性錯(cuò)誤

    我們發(fā)現(xiàn),New Bing 生成的內(nèi)容中摻雜了很多事實(shí)性錯(cuò)誤,包括名人身份信息、財(cái)報(bào)數(shù)字、夜店?duì)I業(yè)時(shí)間,等等。

    生成模型的事實(shí)性錯(cuò)誤分類

    對于以 GPT 系列(包括 ChatGPT、InstructGPT 等)、T5 為代表的生成模型,事實(shí)性錯(cuò)誤可以粗分為以下兩類:

    生成內(nèi)容與引用內(nèi)容沖突。大語言模型在內(nèi)容生成過程中隨著序列增長,容易出現(xiàn)脫離引用內(nèi)容,造成增加、刪減或篡改原文的現(xiàn)象。 生成的內(nèi)容沒有事實(shí)依據(jù)。這類錯(cuò)誤通俗來說就是一本正經(jīng)得胡說八道。沒有事實(shí)依據(jù)的指引,僅靠模型預(yù)訓(xùn)練時(shí)候存儲的信息很容易使模型在生成過程中不知所云。很大概率會生成與事實(shí)不符或是和問題無關(guān)的內(nèi)容。

    現(xiàn)在我們來檢視 New Bing 發(fā)布會 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事實(shí)性錯(cuò)誤以及分別是什么類型。為了行文方便,我們把 New Bing 和集成在 Edge 的 New Bing 插件統(tǒng)稱為 New Bing。

    日本詩人例子的錯(cuò)誤

    在 New Bing 發(fā)布會視頻 29:57 處,當(dāng) New Bing 被問到知名日本詩人時(shí),給出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

    圖 4 New Bing 演示中日本詩人例子截圖

    然而根據(jù)維基百科和 IMDB 提供的信息 [5, 6, 7],Eriko Kishida 的生卒年分別為 1929 和 2011。同時(shí),她也不是劇作家(playwright)和散文家(essaysit),而是詩人、翻譯家和童話作家。被 New Bing 轉(zhuǎn)了業(yè)還少活了八年,岸田的家人大概不太能接受。同時(shí)不幸被轉(zhuǎn)業(yè)的還有 Gackt 同學(xué)。據(jù)維基百科提供的信息 [8],Gackt 玩過音樂、唱過歌、作過曲也演過戲,就是沒作過詩。

    財(cái)報(bào)例子的錯(cuò)誤

    在 New Bing 發(fā)布會視頻 35:49 處,Yusuf 展示集成了 New Bing 的 Edge 瀏覽器,對于打開的服飾公司蓋璞 (Gap) 2022 年第三季度的財(cái)報(bào),如何進(jìn)行要點(diǎn)生成。乍眼一看,New Bing 的總結(jié)非常實(shí)用,用關(guān)鍵點(diǎn)的方式庖丁解牛一般展示了 Gap 三季報(bào)的要點(diǎn),巴菲特看到此或許也會「驚為真人」。然而,當(dāng)我們找出 Gap 2022 年三季報(bào) [9],仔細(xì)閱讀過后,發(fā)現(xiàn) New Bing 的總結(jié)錯(cuò)漏百出,讓人不忍直視。

    圖 5 New Bing 對 Gap 2022 年第三季度財(cái)報(bào)的摘要

    首先,New Bing 給出了 Gap 調(diào)整后的運(yùn)營毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)為 5.9%。然而在財(cái)報(bào)中,Gap 的運(yùn)營毛利率是 4.6%,調(diào)整后則是 3.9%。

    圖 6 Gap 2022 年第三季度財(cái)報(bào)截圖

    New Bing 接下來又給出調(diào)整后攤薄每股收益為 0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但財(cái)報(bào)里的數(shù)據(jù)則是 0.71 美元。

    圖 7 Gap 2022 年第三季度財(cái)報(bào)截圖

    甚至 New Bing 給出了 Gap 全年的銷售指引為「預(yù)計(jì)銷售凈增長率為低雙位數(shù)」,而實(shí)際是四季度「可能呈中間個(gè)位數(shù)下降」。是下降而非增長,一詞之差,對用戶的投資行為將產(chǎn)生嚴(yán)重的誤導(dǎo),這虧錢了算誰的。New Bing 甚至無中生有,給出了更多的全年財(cái)務(wù)指引「營業(yè)毛利為 7%,攤薄每股收益為 1.6 美元到 1.75 美元之間」,而這些數(shù)據(jù)在 Gap 三季度財(cái)報(bào)中統(tǒng)統(tǒng)沒有提到。

    圖 8 Gap 2022 年第三季度財(cái)報(bào)截圖

    視頻 36:15 處,Yusuf 又展示了用 New Bing 進(jìn)行 Gap 和體育休閑服品牌露露樂檬(Lululemon)財(cái)報(bào)對比的功能。這部分又是錯(cuò)誤信息的重災(zāi)區(qū)。

    圖 9 New Bing 對 Gap 和 Lululemon 財(cái)報(bào)對比功能

    在右側(cè) New Bing 給出的表格中,除了上文所說的 Gap 營業(yè)毛利 5.9% 應(yīng)為 4.6%(或調(diào)整后 3.9%)和 Gap 攤薄每股收益 0.42 美元應(yīng)為 0.77 美元(或調(diào)整后 0.71 美元), New Bing 又給出了 Gap 現(xiàn)金和現(xiàn)金等價(jià)物為 14 億美元的數(shù)據(jù),而實(shí)際上財(cái)報(bào)中是 6.79 億美元。

    圖 10 Lululemon 2022 年第三季度財(cái)報(bào)截圖

    同樣的情況也出現(xiàn)在 New Bing 給出的 Lululemon 數(shù)據(jù)中。根據(jù) Lululemon 2022 三季報(bào)的數(shù)據(jù) [10],New Bing 給出的 Lululemon 毛利率為 58.7%,實(shí)際上應(yīng)為 55.9%。New Bing 提到 Lululemon 營業(yè)毛利為 20.6%,實(shí)際上應(yīng)為 19.0%。New Bing 給出 Lululemon 攤薄每股收益為 1.65 美元,實(shí)際上應(yīng)為 2.00 美元。

    圖 11 Lululemon 2022 年第三季度財(cái)報(bào)截圖

    我們不禁想問:New Bing 是如何對著 Gap 和 Lululemon 的財(cái)報(bào)一本正經(jīng)地胡說八道的?一個(gè)合理的推斷是,生成出來的這些錯(cuò)誤數(shù)據(jù),很可能是來自它預(yù)訓(xùn)練階段見過的財(cái)報(bào)分析數(shù)據(jù)。ChatGPT 這類大型語言模型的生成,隨著生成的序列越長,越容易脫離給定的 Gap 和 Lululemon 的財(cái)報(bào)數(shù)據(jù),放飛自我,生成不著邊際的虛假信息。

    夜店例子的錯(cuò)誤

    在 New Bing 發(fā)布會視頻 29:17 處,New Bing 又為豐富墨西哥城的游客們的夜生活提供了「毫無建設(shè)性」的建議。對于其推薦的幾個(gè)夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到這些酒吧沒有客戶評價(jià)、沒有聯(lián)系方式也沒有商店介紹。然而這些信息都可以在谷歌地圖或者商店的 Facebook 主頁上找到。看來 New Bing 網(wǎng)上沖浪力度還不夠。

    El Almacen 在 New Bing 里的營業(yè)時(shí)間是周二到周日的下午五點(diǎn)到晚上十一點(diǎn),然而真實(shí)的營業(yè)時(shí)間是除周一外的下午七點(diǎn)到凌晨三點(diǎn) [11]。這讓五點(diǎn)去吃晚飯的游客還得挨兩個(gè)小時(shí)的餓。Guadalajara de Noche 則是相反,實(shí)際營業(yè)時(shí)間是每天的下午五點(diǎn)半到凌晨一點(diǎn)半或十二點(diǎn)半 [12],而 New Bing 給出的營業(yè)時(shí)間是下午八點(diǎn)開始。看來游客靠 New Bing 的建議去找餐廳,能不能吃到飯就得看運(yùn)氣了。

    圖 12 New Bing 演示中夜店例子截圖

    其他錯(cuò)誤

    除了上述的信息錯(cuò)誤,我們還發(fā)現(xiàn)了一系列散布在各個(gè)角落的事實(shí)錯(cuò)誤,比如商品價(jià)格誤差、商店地址錯(cuò)誤、時(shí)間錯(cuò)誤等。

    實(shí)例演示里的錯(cuò)誤

    由于 New Bing 還沒有完全開放,我們無法直接在 New Bing 上拿到發(fā)布會現(xiàn)場的搜索結(jié)果,但是微軟提供了幾個(gè)實(shí)例演示 [13],讓用戶體驗(yàn)。本著打破砂鍋問到底的精神,我們也把這幾個(gè)演示都放到放大鏡下進(jìn)行研究。我們發(fā)現(xiàn),即便是這幾個(gè)精心挑選的例子,里面還是有不少錯(cuò)誤信息。

    在「What art ideas can I do with my kid? 」中,New Bing 給出了很多手工品制作建議。對于每一個(gè)手工品,New Bing 都總結(jié)了制作所需的材料。然而每一個(gè)手工品的材料總結(jié)都是不完整的。比如 New Bing 從引用網(wǎng)站 [14] 中總結(jié)制作紙吉他需要紙盒、橡皮筋、顏料和膠水。但卻漏掉了引用中提到的海綿刷、膠帶和木珠。

    圖 13 New Bing 實(shí)例演示 “我可以和孩子一起做什么樣的手工?” 截圖

    圖 14 引用網(wǎng)站中制作紙吉他所需材料截圖

    在 New Bing 的實(shí)例演示中還有一個(gè)非常明顯和常見的錯(cuò)誤,即給的引用鏈接與生成的內(nèi)容無關(guān),驢唇不對馬嘴。

    比如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 沒有出現(xiàn)在所給的引用 10 [15] 中。同時(shí)「時(shí)間穿越」問題在該例子中依舊不能避免,New Bing 聲稱 2022 版 Kia Telluride 獲得了 2020 年世界年度汽車獎(jiǎng),實(shí)際情況是當(dāng)年獲得該獎(jiǎng)項(xiàng)的是 Kia Telluride 2020 版本。2022 年世界年度汽車獎(jiǎng)獲得者則是 Hyundai IONIQ 5,而引用 7 [16] 也是與「2020 年世界年度汽車獎(jiǎng)」毫不相關(guān)的文章。我們在所有實(shí)例演示中找到了多達(dá) 21 處類似的錯(cuò)誤。

    圖 15 New Bing 演示實(shí)例 “我需要一輛大型快車” 截圖

    小結(jié):發(fā)現(xiàn)錯(cuò)誤將指引我們前進(jìn)

    從上述的分析可以看出,無論是 New Bing 還是 Bard,他們的回答都容易出現(xiàn)事實(shí)性錯(cuò)誤。當(dāng)全世界都驚訝于 ChatGPT 等大型語言模型展現(xiàn)出來的能力時(shí),當(dāng) ChatGPT 成為史上最快達(dá)到 1 億用戶的應(yīng)用之際,我們一方面是為 AI 的進(jìn)步振臂歡呼,一方面也需要冷靜地思考怎么解決 AI 目前還存在的諸多問題。

    自從 1956 年那群聚在達(dá)特茅斯學(xué)院的天才們,第一次定義了什么是人工智能之后,AI 經(jīng)歷了幾起幾落。近 70 年的發(fā)展過程中有很多讓人感動的堅(jiān)持:是初代 AI 的稚嫩探索,是專家系統(tǒng)的勇敢嘗試,是 Hinton、Bengio、Lecun 這些學(xué)者把神經(jīng)網(wǎng)絡(luò)的冷板凳坐穿,是 DeepMind 用 AlphaGo 讓 AI 出圈,是谷歌、Meta、CMU、斯坦福、清華等一眾頂尖研究機(jī)構(gòu)堅(jiān)持開源,是 OpenAI 頂住壓力把 GPT 這個(gè)路線走通,是全球幾代科研人員的接力,我們才走到今天。

    然而,如果我們放任 AI 生成大量不真實(shí)的信息,那么不用多久,大眾對于 AI 建立的信心就會被摧毀,各種虛假信息也會充斥互聯(lián)網(wǎng)。我們指出大模型的錯(cuò)誤,并不是為了拉踩哪個(gè)公司或者哪個(gè)模型,相反,我們是要讓 AI 變得更好。

    正如阿根廷詩人博爾赫斯曾經(jīng)說過:任何命運(yùn),無論多么復(fù)雜漫長,實(shí)際上只反應(yīng)于一個(gè)瞬間,那就是人們徹底醒悟自己究竟是誰的那一刻。在 ChatGPT 等大模型已經(jīng)具備了媲美人類的文字能力時(shí),我們清楚地知道,下一步的重點(diǎn)是把真實(shí)世界的知識更完整準(zhǔn)確地融入大模型,讓 AI 模型安全地、可靠地、廣泛地應(yīng)用于人們的日常生活。我們從未如此期待,也從未如此接近那一刻的到來。

    參考文獻(xiàn)

    [0] https://www.youtube.com/watch?v=rOeRWRJ16yY

    [1] https://byjus.com/question-answer/in-which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/

    [2] https://en.wikipedia.org/wiki/Orion_(constellation)

    [3] https://www.youtube.com/watch?v=rOeRWRJ16yY

    [4] https://www.bing.com/new?form=MY028Z&OCID=MY028Z

    [5] https://de.wikipedia.org/wiki/Eriko_Kishida

    [6] https://ja.wikipedia.org/wiki/ 岸田衿子

    [7] https://www.imdb.com/name/nm1063814/

    [8] https://en.wikipedia.org/wiki/Gackt

    [9] https://www.gapinc.com/en-us/articles/2022/11/gap-inc-reports-third-quarter-fiscal-2022-results

    [10] https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:~:text=For%20the%20third%20quarter%20of%202022%2C%20compared%20to%20the%20third,%2C%20and%20increased%2041%25%20internationally

    [11] https://restaurantguru.com/El-Almacen-Mexico-City

    [12] https://www.google.com/search?q=guadalajara+de+noche+mexico+city&oq=guadalajara+de+&aqs=chrome.1.69i57j35i39j46i512j0i512j46i175i199i512j0i512j46i512j0i512l2j46i512.7030j0j4&sourceid=chrome&ie=UTF-8

    [13] https://www.bing.com/new?form=MY028Z&OCID=MY028Z

    [14] https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/

    [15] https://www.topspeed.com/cars/guides/best-awd-cars-for-2022/

    [16] https://www.hotcars.com/best-6-seater-suvs-2022/

    責(zé)任編輯:Rex_13

    推薦閱讀
    欧美国产在线一区,免费看成年视频网页,国产亚洲福利精品一区,亚洲一区二区约美女探花
    <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 主站蜘蛛池模板: jizzjizz之xxxx18| 亚洲综合精品第一页| 中文字幕日韩在线| 色噜噜噜噜亚洲第一| 日本免费福利视频| 国产亚洲欧美bt在线电影| 久久精品国产亚洲av水果派| 久久国产精品无码HDAV| 99久热任我爽精品视频| 日韩精品国产丝袜| 国产午夜在线观看视频播放| 亚洲性一级理论片在线观看| 67194午夜| 欧美三级全部电影观看| 国产精品东北一极毛片| 五月婷婷丁香六月| 韩国三级中文字幕hd久久精品| 日本黄线在线播放免费观看| 国产人妖ts在线视频播放| 久久a级毛片免费观看| 精彩视频一区二区| 好妈妈5高清中字在线观看| 亚洲黄色片一级| 777精品成人影院| 欧美xxxxx喷潮| 国产精选91热在线观看| 亚洲人成人网站在线观看| 国产三级在线视频播放线| 日本按摩xxxx| 四虎精品成人免费观看| www.91av| 欧美日韩一区二区三区在线观看视频 | 国产无遮挡吃胸膜奶免费看 | 国产91乱剧情全集| 一本大道道无香蕉综合在线| 熟妇人妻VA精品中文字幕| 国产精品柏欣彤在线观看| 久久精品女人天堂AV免费观看| 老汉扛起娇妻玉腿进入h文| 好男人www社区| 亚洲武侠欧美自拍校园|