【CSDN 編者按】OpenAI 總裁格雷格?布羅克曼:GPT-4 并不完美但絕對與眾不同。
原文鏈接:https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/
整理 | 王子彧
(相關資料圖)
出品 | CSDN(ID:CSDNnews)
3月15日,繼 ChatGPT 展現了驚人的實力之后,OpenAI 又扔下了一顆核彈:備受期待的史上最強人工智能大模型 GPT-4 發布 了。
據 TechCrunch 消息,OpenAI 聯合創始人兼總裁格雷格?布羅克曼在接受記者凱爾·威格斯采訪時表示,GPT-4 并不完美但絕對與眾不同,并且他還在采訪中透露, OpenAI 正在測試 GPT-4 高級版本,是普通 GPT-4 儲存內容能力的 5 倍。本文對這篇采訪進行了編譯,以饗讀者。
關鍵改進:多模態能力
GPT-4 在其前身 GPT-3 的基礎上,對很多方面做了關鍵性的改進。例如提供了更多真實的聲明,并允許開發者更容易設計其風格和行為。同時,GPT-4 也是多模態的,它可以可以接受圖像作為輸入并生成標題、分類和分析。
但 GPT-4 也有局限性。和 GPT-3 一樣,該模型對事實產生了 "幻覺",并出現了基本的推理錯誤。OpenAI 在自己的博客上舉了個例子, GPT-4 將“貓王”埃爾維斯?普雷斯利(Elvis Presley)描述為 "一個演員的兒子",但事實是他的父母都不是演員。
當被問及如何比較 GPT-4 和 GPT-3 時,格雷格?布羅克曼說了一個詞:與眾不同。他解釋到:“盡管 GPT-4 還存在很多問題和錯誤,但絕對與眾不同,你可以看到其在微積分或法律等技能方面的提升。雖然它曾在某些領域表現很糟糕,但現在已經達到超越常人的水準。”
測試結果驗證了格雷格?布羅克曼的觀點。在高考微積分考試中,GPT-4 得了 4 分, GPT-3 得了 1 分,而介于 GPT-3 和 GPT-4 之間的中間模型 GPT-3.5,得了 4 分。
在分析 GPT-4 的能力時,OpenAI 還讓該模型參加了統一律師考試、法學院入學考試(LSAT)、研究生入學考試(GRE)的定量、口頭推理、分析寫作考試以及和各種 AP 科目考試等測試。結果顯示,GPT-4 在大多數這些專業和學術考試中表現與人類水平相當。這意味著,如果 GPT-4 是一個僅憑應試能力來判斷的人,它可以進入法學院,而且很可能也能進入許多大學。
這是因為 GPT-4 是在圖像和文本數據上訓練的,而它的前身只在文本上訓練。OpenAI 說,訓練數據來自 "各種合法授權的、公開可用的數據源,其中可能包括公開可用的個人信息",但當被問具體細節時,格雷格?布羅克曼避而不談。(訓練數據曾使 OpenAI 陷入法律糾紛)。
超強優勢:圖像理解能力
GPT-4 有超強的圖像理解能力。例如,輸入提示“這張圖片有什么好笑的?GPT-4 會將整張圖片分解,并正確地解釋了這個笑話的笑點。
OpenAI 在其文本到圖像轉換系統 Dall-E 2 上也遇到了類似倫理困境。在最初禁用該功能后,OpenAI 允許客戶上傳人臉,用 AI 驅動的圖像生成系統對其進行編輯。當時,OpenAI 聲稱,其安全系統的升級使面部編輯功能成為可能,因為它將深度造假以及試圖創建性、政治和暴力內容的潛在危害降到最低。
另一個長期問題是防止 GPT-4 在無意中被用于可能造成傷害的方式使用。在該模型發布幾小時后,以色列網絡安全初創公司 Adversa AI 發布了一篇博客,演示了繞過 OpenAI 的內容過濾器并讓 GPT-4 生成釣魚電子郵件、對同性戀者的攻擊性描述以及其他令人反感文本的方法。
在語言模型領域,這并不罕見。Facebook 母公司 Meta 的聊天機器人 BlenderBot 和 OpenAI 的 ChatGPT 也曾被誘惑輸出不恰當的內容,甚至透露了其內部工作的敏感細節。但包括記者在內的許多人都希望,GPT-4 可能會在這方面帶來重大改進。
當被問及 GPT-4 的穩健性時,布羅克曼強調,該模型已經通過六個月的安全培訓。在內部測試中,與 GPT-3.5 相比,它對 OpenAI 的使用政策不允許的內容請求的回應率降低了 82%,對 "事實 "的回應率提高了 40% 。
布羅克曼說:"我們花了很多時間試圖了解 GPT-4 的能力,我們不斷地進行更新,包括不斷改進,這樣模型就更有擴展性,以達到人們希望它擁有的任何個性或模式。"
不足之處
坦率地說,早期的現實測試結果并不是那么讓人滿意。除了 Adversa AI 測試之外,微軟的聊天機器人 Bing Chat 也被證明非常容易受到越獄影響。使用精心設計的輸入,用戶能夠讓該聊天機器人表達愛意,發出威脅傷害,為大屠殺辯護和編造陰謀論。
布羅克曼并不否認 GPT-4 在這方面的不足,但他強調了該模型的緩解性轉向工具,包括被稱為“系統”消息的 API 級功能。系統消息本質上是為 GPT-4 的交互設定基調并建立界限的指令。例如,一條系統消息可能是這樣寫的:“你是一位總是以蘇格拉底風格回答問題的導師。你永遠不會給學生答案,而是總是試著提出正確的問題,幫助他們學會獨立思考。”
我們的想法是,系統消息充當護欄,防止 GPT-4 偏離軌道。布羅克曼說:“真正弄清楚 GPT-4 的語氣、風格和本質一直是我們關注的焦點。我認為我們開始更多地了解如何進行工程設計,了解如何擁有一個可重復的過程,讓你得到對人們真正有用的可預測結果。”
布羅克曼還提到了 Evals,這是 OpenAI 最新的開源軟件框架,用于評估其 AI 模型的性能,這是 OpenAI 致力于“增強”其模型的一個標志。Evals 允許用戶開發和運行評估 GPT-4 等模型 的基準測試,同時檢查其性能,這是一種眾包的模型測試方法。
布羅克曼說:“通過 Evals,我們可以更好地看到用戶關心的用例,并可以對其進行測試。我們之所以開源這個框架原因之一是我們不再每隔三個月發布一個新模型以不斷改進。你不會制造你不能測量的東西,對吧?當我們推出新版模型,我們至少可以知道發生了哪些變化。”
布羅克曼還被問道,OpenAI 是否會補償人們用 Evals 測試其模型?他不肯承諾,但他確實指出,在有限的時間內,OpenAI 允許選定的 Eevals 用戶提前訪問 GPT-4 API。
關于未來:GPT-4 的另一個版本
布羅克曼的談話還談到了 GPT-4 的上下文窗口,指的是模型在生成其他文本之前可以考慮的文本。OpenAI 正在測試 GPT-4 的另一個版本,它可以 "記住 "大約 50 頁的內容,是普通的 GPT-4 所能容納內容的 5 倍,是 GPT-3 的八倍。
布羅克曼認為,擴大的上下文窗口會帶來新的、以前沒有探索過的應用,特別是在企業中。他設想了一個為公司打造的 AI 聊天機器人,利用來自不同來源的各部門的員工的背景和知識,以一種非常明智但具有對話性的方式回答問題。
這不是一個新概念。但布羅克曼提出的理由是,GPT-4 的答案將比今天的聊天機器人和搜索引擎的答案有用得多。他說:“以前,模型根本不知道你是誰,你對什么感興趣等。而有了更大的上下文窗口肯定會讓它的能力變強,從而更好的為人們提供服務支持。”
? 微軟 Office 全家桶被 GPT-4 革新:Word 一鍵變成 PPT,打工人的春天來了!
? 文心一言來了!李彥宏:百度是全球大廠中第一個做出來的!
?Google 工程主管:AIGC 將在三年內終結編程!
責任編輯:Rex_17