作者 |程茜 編輯|心緣
(資料圖片)
國內大模型三部曲:開源、超級應用、比肩GPT。
智東西8月8日報道,今天下午,百川智能發布530億參數規模的閉源大模型Baichuan-53B,這是百川智能發布的第三個大模型,主要服務B端行業,預計下個月將會開放API等相關組件。
百川智能4月10日成立后,6月15日發布了70億參數規模開源模型Baichuan-7B,7月11日發布了130億參數規模大模型Baichuan-13B,到今天,Baichuan-53B已經是其發布的第三個模型。百川智能創始人、CEO王小川透露,這次大模型的文科能力更好,比如在理解古詩、生成有個性化風格的文章等方面。
在大模型成果進展加快的同時,百川智能的商業化布局也已經開始。最近,搜狗原CMO洪濤在朋友圈官宣即將入職百川智能,負責商業化。王小川告訴智東西,洪濤回來代表了百川智能在商業化上的探索,一方面百川智能的大模型發布速度很快,另一方面也是其在商業化的考慮以及消費端應用的布局考量。
Baichuan-53B已經開放內測申請:/home
01.從響應、問答、篩選到結果優化構建搜索增強系統
Baichuan-53B的預訓練數據特點,包括全面的世界知識體系、系統的數據質量體系、多粒度的大規模聚類系統、細粒度自動化匹配算法。
搜索增強是解決模型時效性和幻覺的有效手段,因此,百川智能將搜索技術與大語言模型能力相結合,實現創新性的模型優化與改進。
搜索增強系統融合了指令意圖理解、智能搜索和結果增強等關鍵組件,這一綜合體系通過深入理解用戶指令,精確驅動查詢詞的搜索,并結合大語言模型技術來優化模型結果生成的可靠性,基于此,百川智能實現了更精確、更智能的模型結果回答,減少了模型的幻覺。
其中,動態響應策略方面,百川智能將指令任務細化為16個獨立類別,涵蓋了用戶指令的精準問答、邏輯推理、頭腦風暴等各種場景,并針對每一個指令類別都進行了設計和優化。
智能化搜索詞生成則是通過對問答樣本進行精細化人工標注,捕捉和理解用戶多元化的指令需求,大模型負責執行一系列關鍵任務,如時效性識別和搜索意圖判別,從而準確解釋用戶的查詢意圖并精準響應。
為了達到高質量搜索結果篩選,百川智能構建了一個搜索結果相關性模型,對從搜索內容和知識庫中獲取的信息進行相關性評分。
在回答結果的搜索增強上,百川智能采用RLHF(人類反饋強化學習)技術,使得大模型能夠參照搜索結果,針對用戶請求生成高價值且具有實時性的回答。
除此以外,大模型還會通過對齊調整讓模型同人類價值觀對齊,生成令人滿意的回復內容。
02.寫作能力升級搜索增強或成大模型差異化優勢
王小川談道,目前做大模型的主流創業公司中,百川智能是唯一一家做過超級應用的公司,包括搜索、輸入法等,這些應用將語言AI用到極致,將當時最先進的語言變成模型從而構建超級應用。此外,冬奧會上的數字人就是搜狗提供的技術支持,可以看出,搜狗此前在AI方面有過諸多探索。
在現場,王小川演示了Baichuan-53B在起名字、生成大綱、寫文案方面的能力。
例如提問“如果要成立一個用大模型服務中小企業數字化升級的科技服務公司,可以起個什么公司名”。
還有生成大綱的指令,如“幫我生成一份電動汽車品牌的調研匯報PPT大綱,并提供每頁核心內容概要及配圖建議”。
大模型的內容生成能力方面,現場演示的問題是“幫我以古龍的風格寫個朋友圈,介紹我今天參加了籃球比賽的事情”。
Baichuan-53B還可以寫微信春節祝福語。
內容理解上,Baichuan-53B能解釋“床前明月光的‘床’是什么意思”。
王小川提到,大模型出現之前,搜索引擎很難變成一個問答引擎。事實上,搜狗很早就將Transformer架構應用到搜索引擎中去,搜索本身也是一件強AI的事情。
大模型發展尚處早期階段,一些大模型的同質化現象出現,王小川認為,大模型的同質化是產業發展早期的正常階段,而百川智能的搜索增強未來也會是其大模型發展的一大差異化優勢。
03.互聯網數據處理、模型訓練、多元人才百川智能三大殺手锏
成立至今,百川智能已經發布了三個模型,有150余家企業申請應用。百川智能技術聯合創始人陳煒鵬告訴智東西,這背后有三大原因。
首先,做大模型的第一個環節是數據從哪來,中文互聯網網頁中的數據高達萬億、百億量級,搜狗此前的數據積累,能讓他們知道哪里有好的數據,并且將這些數據進行收集、處理、識別,在這一領域,百川智能目前的團隊有很強的技術積累和方法論。
在英文數據方面也是如此,他補充道,搜狗在翻譯領域的積累也有很多。
其次,模型本身的訓練,模型的訓練是一個相對復雜的系統,陳煒鵬談道,這包括數據的獲取、選擇、配比、標注,數據準備好之后模型的訓練框架,網絡的運營效率如何組成框架,不同的算法如何組合,選用什么樣的網絡結構統領這些,如何評價這個事情,算法的選擇等。百川智能此前推出的70億參數規模大模型在并行策略方面做的比較好,有技術積累。
最后,百川智能目前的技術團隊有很多來自字節跳動、百度、華為的技術人才,也使得其技術能力更加多元。
綜上,在技術和人才的共同加持下,百川智能在大模型的研發方面走的比較快。
王小川補充道,OpenAI的聊天機器人ChatGPT引爆了生成式AI的熱潮,讓資本、人才都認為這件事可行,因此一些技術在頂尖水平的人才都開始涌向大模型。目前,火山引擎、阿里云、騰訊云都已經出現在了百川智能的合作伙伴名單里,火山引擎和百川智能的合作與Llama和微軟的合作邏輯一致,王小川認為,之后云廠商都會開放和模型廠商的合作。
04.結語:開源、超級應用比肩GPT缺一不可
王小川認為對國內大模型企業的評價應該包含三個維度,是否能拿出足夠好的AGI從而能比肩、GPT-4,是否有超級應用以及是否開源。
國外有OpenAI的GPT大模型能力、Meta發布的開源Llama大模型,國內目前大模型能力距GPT還有一定距離,百川智能優先對齊的就是開源大模型,能支持企業做私有化部署,其次要考慮的是應用問題,最后是比肩、GPT-4。對于百川智能而言,王小川稱,他們既有做對標GPT閉源大模型的能力,也能布局開源大模型。
責任編輯:Rex_09