老被人說在大模型競(jìng)賽中掉隊(duì)的華為,這次終于帶著它的家伙事兒來了。
這不,在昨天的華為開發(fā)者大會(huì) 2023 上,華為就狠狠地秀了一把。
將近三個(gè)小時(shí)的發(fā)布會(huì),還是繼承了華為以往大雜燴的風(fēng)格,看得世超是眼花繚亂。
(資料圖片)
不過,總結(jié)下來其實(shí)也就突出了一個(gè)主題:盤古大模型 3.0 。
其實(shí)就在前幾天,當(dāng)別的大模型還在比各種評(píng)分的時(shí)候,盤古靠著世界頂級(jí)期刊 Nature 認(rèn)證的金字招牌,以一種別具一格的方式進(jìn)入了大家的視野。
據(jù)說,加入了盤古大模型,氣象預(yù)測(cè)的速度提高了 10000 倍以上,幾秒鐘就能出結(jié)果,臺(tái)風(fēng)打哪來,幾點(diǎn)來,啥時(shí)候走,都能給你預(yù)測(cè)得明明白白的。
最主要的是,它的預(yù)測(cè)精度甚至超過了號(hào)稱全球最強(qiáng)的歐洲氣象中心的 IFS 系統(tǒng),算是頭一個(gè) AI 預(yù)測(cè)贏了傳統(tǒng)數(shù)值預(yù)測(cè)的產(chǎn)品。
要知道,以往的 AI 氣象預(yù)測(cè)多是基于 2D 神經(jīng)網(wǎng)絡(luò)開發(fā),但氣象這玩意實(shí)在是太復(fù)雜了,2D 著實(shí)有點(diǎn)兒吃不消。
而且,之前的 AI 模型會(huì)在預(yù)測(cè)的過程當(dāng)中不斷累計(jì)迭代的誤差,容易影響到結(jié)果的精確性。
所以 AI 預(yù)測(cè)方法一直都不咋受待見。
而盤古氣象大模型牛就牛在,他們用了個(gè)叫 3DEST 的三維神經(jīng)網(wǎng)絡(luò)來處理氣象數(shù)據(jù), 2D 干不了的那就換 3D 來。
3DEST 的網(wǎng)絡(luò)訓(xùn)練和推理策略
針對(duì)迭代誤差的問題,模型還用了個(gè) “ 層次化時(shí)域聚合策略 ” 來減少迭代誤差,從而提高預(yù)報(bào)的精度。
這詞兒雖然聽起來挺容易被唬住的,但其實(shí)很好理解。
就比如,之前的 AI 氣象預(yù)測(cè)模型 FourCastNet ,在臺(tái)風(fēng)來之前,它會(huì)提前 6 小時(shí)進(jìn)行預(yù)測(cè),在這 6 個(gè)小時(shí)里,模型會(huì)多次計(jì)算臺(tái)風(fēng)到底啥時(shí)候來。
可能一會(huì)兒算出來 5 個(gè)小時(shí),一會(huì)兒又算出來 4 個(gè)半小時(shí),這些結(jié)果加到一起誤差就大了。
但盤古氣象大模型想了個(gè)法子,訓(xùn)練了 4 個(gè)不同預(yù)報(bào)間隔的模型,分別是 1 小時(shí)迭代 1 次,還有 3 小時(shí)、 6 小時(shí)和 24 小時(shí)迭代 1 次。
再根據(jù)具體的氣象預(yù)測(cè)需求,選擇相應(yīng)的模型進(jìn)行迭代。
就比如說,咱們?nèi)绻A(yù)測(cè)未來 7 天的天氣,那就讓 24 小時(shí)的模型迭代 7 次;預(yù)測(cè) 20 個(gè)小時(shí)就是 6 小時(shí)的模型迭代 3 次 +1 小時(shí)的迭代 2 次。
迭代次數(shù)越少,誤差也就越小。
這波操作,讓天氣預(yù)報(bào)又邁向了一個(gè)新的 level 。
不過,可能有差友開始犯嘀咕了,人家的大模型都是生成圖像和文字,怎么到華為這就變成了天氣預(yù)報(bào)了?
有一說一啊,這盤古大模型跟咱之前接觸到的 ChatGPT 、 Midjourney 的確不太一樣,人家做的是行業(yè)的生意。
簡(jiǎn)單來理解,就是盤古大模型咱個(gè)人一般用不上。
它并不是 大家期待的 ChatGPT“ 克星 ” ,而是針對(duì)平時(shí)不太能接觸到的To B 市場(chǎng)。
咱先不提難與不難,至少華為這么多年積累下來的企業(yè)客戶資源,確實(shí)很容易變現(xiàn)。
而且華為這次的發(fā)布會(huì)可不止帶來了氣象預(yù)測(cè)模型這一個(gè)狠角色。
40 多年都沒發(fā)現(xiàn)新的抗生素,盤古藥物分子大模型一來就找著了超級(jí)抗菌藥 Drug X ,而且藥物的研發(fā)周期從數(shù)年縮短至幾個(gè)月,研發(fā)成本降低 70% 。
盤古礦山大模型也能深入到采煤的 1000 多個(gè)工序之中,而且光是里頭挑選精煤的這一個(gè)環(huán)節(jié),就能讓精煤回收率提升 0.1% 到 0.2% 。
要知道,一家年產(chǎn) 1000 萬噸焦煤的選煤廠,每提升 0.1% 精煤產(chǎn)率,每年就能多 1000 萬的利潤(rùn)。
這可都是白花花的 銀子啊。。。
事實(shí)上,除了上邊兒咱提到的天氣預(yù)測(cè)、藥物研發(fā)和選煤,盤古大模型在很多行業(yè)里都已經(jīng)用起來了。
發(fā)布會(huì)上,華為云人工智能首席科學(xué)家田奇就表示,華為云人工智能項(xiàng)目已經(jīng)應(yīng)用在了超過 1000 個(gè)項(xiàng)目中,其中 30% 用在客戶的核心生產(chǎn)系統(tǒng)里,平均推動(dòng)客戶盈利能力提升了 18% 。
而華為能夠量產(chǎn)這些各不相同的行業(yè)大模型,要?dú)w功于華為盤古大模型 3.0 的 5+N+X 三層架構(gòu)。
正是這種結(jié)構(gòu),讓盤古能夠快速落地到各個(gè)行業(yè)里。
為什這么說呢?
因?yàn)?AI 落地行業(yè),數(shù)據(jù)是一大難點(diǎn)。
張平安在發(fā)布會(huì)上就說, “ 由于行業(yè)數(shù)據(jù)獲取難,技術(shù)與行業(yè)結(jié)合難,大模型在行業(yè)的落地進(jìn)展較慢。 ”
而盤古則很巧妙,通過 5+N+X 的三層架構(gòu),直接把這個(gè)大難題拆成了 3 個(gè)小問題來解決。
首先,是先讓盤古 L0 層的 5 個(gè)大模型,學(xué)習(xí)了上百 TB 的百科知識(shí)、文學(xué)作品、程序代碼等文本數(shù)據(jù),以及數(shù) 10 億張帶文本標(biāo)簽的互聯(lián)網(wǎng)圖像。
咱們可以理解為,先讓第一層 L0 的大模型( 自然語言大模型、視覺大模型、多模態(tài)大模型、預(yù)測(cè)大模型、科學(xué)計(jì)算大模型這 5 個(gè)基礎(chǔ)大模型 )建立起基本的認(rèn)知,也就是有點(diǎn)像咱們大學(xué)前的素質(zhì)教育階段。
然后,在第二層 L1 中的模型,則是讓 L0 中的某一個(gè)基礎(chǔ)大模型學(xué)習(xí) N 個(gè)相關(guān)行業(yè)的數(shù)據(jù)形成的。這就像大學(xué)的本科階段,需要選擇各種專業(yè)去學(xué)習(xí)。
打個(gè)比方,醫(yī)院里的 CT 影像檢測(cè)跟工廠的圖像質(zhì)檢雖說用的都是視覺大模型。
但畢竟一個(gè)是醫(yī)院,一個(gè)是工廠,使用場(chǎng)景完全不一樣,光靠基礎(chǔ)大模型那肯定行不通,但如果把行業(yè)數(shù)據(jù)加進(jìn)去,可能就有驚喜了。
最后的 L2 ,則類似研究生,會(huì)在具體行業(yè)的基礎(chǔ)上再細(xì)化到某個(gè)場(chǎng)景。比如在倉儲(chǔ)物流行業(yè)里,貨物的運(yùn)輸、入庫、出庫可能都需要用到不一樣的部署模型。
與此同時(shí)呢,華為還在里頭加入一個(gè)反饋環(huán)節(jié),有點(diǎn)進(jìn)公司實(shí)習(xí)內(nèi)味了。
根據(jù)他們的說法,過去開發(fā)一個(gè) GPT-3 規(guī)模的行業(yè)大模型,通常需要 5 個(gè)月;而有了這套東西,開發(fā)周期能縮短至原來的 1/5 。
同時(shí)很多行業(yè)數(shù)據(jù)集小的限制也能被解決。比如造大飛機(jī)這種很細(xì)很細(xì)的行業(yè),也能有大模型。
除了這一套大模型,華為這次還提出了個(gè)非常有意思的東西——算力國(guó)產(chǎn)化。
眾所周知,咱們?cè)?AI 算力方面,確實(shí)是比較尷尬。
一來, AI 行業(yè)的核心設(shè)備英偉達(dá)的 H100/A100 咱們買不到,二來,即使英偉達(dá) “ 貼心 ” 出了平替 H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。
在大模型動(dòng)輒幾個(gè)月訓(xùn)練時(shí)間的背景之下,這就很容易被算力更強(qiáng)的國(guó)外同行彎道超車。
而這一回,針對(duì)這個(gè)問題,華為還是掏了些真家伙出來的。
比如,在紙面性能上,華為的昇騰 910 處理器已經(jīng)夠上了英偉達(dá) A100 。
不過實(shí)際應(yīng)用起來,還是有一些差距的。而且 A100 這也不是英偉達(dá)的終極武器。
但是,昇騰已經(jīng)受到了不少友商的認(rèn)可。華為甚至在發(fā)布會(huì)上,直接表示 “ 中國(guó)一半大模型的算力都是由他們提供的 ” 。
當(dāng)然,華為這會(huì)兒在算力上的亮點(diǎn),更像是整個(gè)軟件生態(tài)帶來的。
比如,根據(jù)發(fā)布會(huì)的說法,算上 AI 昇騰云算力底座、計(jì)算框架 CANN 。。。等環(huán)節(jié),華為在訓(xùn)練大模型方面,效率是業(yè)界主流 GPU 的 1.1 倍。
還有,他們給用戶制定好了全套的應(yīng)用套餐。
例如,美圖僅用 30 天就將 70 個(gè)模型遷移到了華為生態(tài)。同時(shí)華為還表示, 在雙方的努力下,AI 性能較原有方案提升了 30% 。
還是挺可觀的。
而且華為還說,他們現(xiàn)在有近 400 萬的開發(fā)者,這個(gè)數(shù)量,是和英偉達(dá) CUDA 生態(tài)對(duì)齊了。
這一系列的動(dòng)作, 算是把短板補(bǔ)上了一部分。
總的來說,一場(chǎng)華為發(fā)布會(huì)看下來,差評(píng)君覺得華為在 AI 方面的布局是很深刻的,他們?cè)缇烷_始思考 “AI 真正能帶給我們什么 ” 這個(gè)問題了。
過去半年里, AI 行業(yè)雖然掌聲雷動(dòng),但是真正落到行業(yè)層面,多少有些尷尬。
而華為的這一次動(dòng)作,恰好印證了如任正非說的:
“ 未來在 AI 大模型方面會(huì)風(fēng)起云涌的,不只是微軟一家。人工智能軟件平臺(tái)公司對(duì)人類社會(huì)的直接貢獻(xiàn)可能不到 2% , 98% 都是對(duì)工業(yè)社會(huì)、農(nóng)業(yè)社會(huì)的促進(jìn)。 ”
AI 領(lǐng)域,真正的大時(shí)代還在后頭。
撰文:糖醋排骨&及格 編輯:江江&面線 封面:煥妍
圖片、資料來源:
極客公園, 6000 字詳解盤古大模型:能否撐起世界 AI 另一極?
中國(guó)經(jīng)濟(jì)網(wǎng),華為最新消息,在 AI 大模型領(lǐng)域重大升級(jí)
財(cái)經(jīng)雜志,胡厚崑:大模型時(shí)代,華為的定位和路徑
遠(yuǎn)川研究所,盤古 3.0 :中國(guó)大模型突圍的一個(gè)典型樣本
知乎,華為盤古天氣大模型:Pangu-Weather 打破中期天氣預(yù)報(bào) AI-NWP 爭(zhēng)論
絡(luò)繹科學(xué),華為盤古氣象大模型登 Nature 正刊:破解氣象預(yù)測(cè)難題,比傳統(tǒng)方法快 1 萬倍
責(zé)任編輯:Rex_08