機器之心原創(chuàng)
(資料圖)
作者:蛋醬
最近幾年,AI 加持下的新藥研發(fā)成為被寄予厚望的賽道之一。
從流程上看,藥物研發(fā)分為藥物發(fā)現(xiàn)、臨床前研究、臨床研究、審批與上市四個階段。醫(yī)藥界有一個「雙十定律」的說法 —— 即需要超過 10 年時間、10 億美元的成本,才有可能成功研發(fā)出一款新藥。即使如此,也只有約 10% 新藥能被批準進入臨床期。
目前,AI 技術(shù)的參與主要集中于藥物發(fā)現(xiàn)階段。挑戰(zhàn)在于,雖然 AI 技術(shù)加快了一部分工作的推進速度,但 AI 技術(shù)與藥物研發(fā)的 “聯(lián)姻” 并不是一蹴而就的,囿于算法低效、數(shù)據(jù)割裂、數(shù)據(jù)安全、算力瓶頸等挑戰(zhàn),藥物研發(fā)仍然是一項高風險、長周期、高成本的工作。
鑒于「AI 新藥研發(fā)」還處于待普及階段,學界和業(yè)界都在探索一種更好的技術(shù)落地模式。數(shù)據(jù)、算法、算力,并列為人工智能技術(shù)發(fā)展的三大要素,也在某種程度上決定了 AI 新藥研發(fā)能夠以何種速度走到最后一步。研發(fā)團隊需要具備的條件很多:大量數(shù)據(jù)資源、充足的算力以及強大的技術(shù)積累。在這樣的情況下,在數(shù)據(jù)、算法、算力三方面均有深厚實力的大廠似乎更能扛起這份責任。
路漫漫其修遠兮,究竟該如何解決遇到的挑戰(zhàn)?
盤古藥物分子大模型,為新藥研發(fā)提質(zhì)增效
對于西安交大一附院的劉冰教授來說,「雙十定律」給他帶來的體會尤其深刻。
2020 年,劉冰教授所在的團隊正在嘗試研發(fā)一種名為「Drug X」的超級抗菌藥。然而細菌的進化速度是非常驚人的,很多時候可能等不及一款新藥上市,細菌就已經(jīng)產(chǎn)生了對這款藥物的耐藥性。近四十年來,領(lǐng)域內(nèi)都未有新類別、新靶點的抗生素出現(xiàn),有些被超級耐藥菌感染的病人甚至面臨無藥可用的局面。
「目前一款抗生素的研發(fā)費用平均能達到 16 億美金,如果這款抗生素在還沒有面世的階段被發(fā)現(xiàn)了細菌對它的耐藥性,就等于 16 億美金直接打水漂了。」劉冰教授表示。
想要研制一款超級抗菌藥,就相當于和「耐藥性的產(chǎn)生」進行一場時間賽跑。
傳統(tǒng)的藥物研發(fā)方式顯然是不夠快的,我們可以粗略算一算:藥物研發(fā)平均周期超過 10 年,其中先導藥物的設(shè)計就需要 3 到 5 年之久。科研團隊首先要從上億個小分子化合物中找到對目標靶點最有效的那一個,在這個過程中,團隊需要不斷地修改藥物結(jié)構(gòu)來提高其活性和成藥性。每一次更新藥物結(jié)構(gòu)都意味著合成路線、藥效評估實驗等系列方案的重設(shè)和驗證。
彼時,劉冰教授剛回國不久,實驗室還在建設(shè)中,他想要帶領(lǐng)團隊進行 AI 輔助藥物設(shè)計,但在數(shù)據(jù)、算法、算力三方面都遇到了一些挑戰(zhàn)。
與華為云的合作機會讓他看到了新的可能。華為云在 2021 年正式推出了盤古藥物分子大模型,這是當前業(yè)界參數(shù)最大的藥物分子大模型,主要面向藥物研發(fā)領(lǐng)域,提供結(jié)合預測、屬性預測、分子優(yōu)化與生成能力。
「在科研的整個過程中,可能一萬次失敗里面才有一次成功。像我們這樣十多個人的團隊,必須要依靠像 AI 這種新技術(shù),才能繞開既有壁壘,走出一條新路。」劉冰教授表示。
劉冰教授所遇到的壁壘,也正是現(xiàn)階段大多數(shù)科研團隊和藥企所遇到的挑戰(zhàn)。而引入 AI 技術(shù)進行藥物設(shè)計的提升是相當明顯的:在「藥物分子篩選」和「藥物分子優(yōu)化」這兩大環(huán)節(jié),華為云盤古藥物分子大模型對 Drug X 的研發(fā)提供了重要幫助。最終,在 AI 大模型的加持下,Drug X 先導藥的研發(fā)周期獲得了數(shù)十倍的加速,從數(shù)年縮短到數(shù)月,研發(fā)成本直接降低了 70%。
這種飛躍式提升是如何實現(xiàn)的?簡單來說,華為云盤古藥物分子大模型接受了超大規(guī)模的化合物表征模型訓練,預先對 17 億個藥物分子的化學結(jié)構(gòu)進行了學習,并對藥物分子結(jié)構(gòu)進行預測、打分。實驗結(jié)果表明,華為云盤古藥物分子大模型的成藥性預測準確率比傳統(tǒng)方式高 20%,幫助科研人員省去大量藥物設(shè)計的成本。此外,該模型還內(nèi)置了高效的分子生成器生成了 1 億個創(chuàng)新的類藥物小分子篩選庫,結(jié)構(gòu)新穎性達 99.68%,為發(fā)現(xiàn)新藥創(chuàng)造了更多可能性。
盤古藥物分子大模型框架。圖源:
https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full
「盤古藥物分子大模型的訓練前后花費兩年的時間,華為云團隊在模型架構(gòu)設(shè)計及驗證、大規(guī)模百卡昇騰 NPU 的訓練都遇到過挑戰(zhàn),最后都一一解決了。」華為云 EIHealth 醫(yī)療智能體負責人喬楠博士介紹說。
在這一模型的打造過程中,華為云團隊首創(chuàng)了名為「圖 - 序列不對稱條件自編碼器」的架構(gòu),將藥物分子結(jié)構(gòu)轉(zhuǎn)換成可量化的數(shù)值,可以更好地在數(shù)值空間定量地對藥物分子結(jié)構(gòu)與性質(zhì)進行預測與推薦。在 AI 優(yōu)先推薦的藥物分子基礎(chǔ)上,科研人員可直接選擇評分較高的藥物分子進行人工實驗驗證。
這一架構(gòu)的靈感來源于人類認識化合物的兩種方式:分子式和結(jié)構(gòu)式。「我們教會 AI 用同樣的方法學習化合物的分子式和結(jié)構(gòu)式,設(shè)計了這樣一個圖和序列不對稱的算法架構(gòu),它的兩端采用的是兩種不同的深度學習架構(gòu),圖部分采用了圖深度學習、圖卷積的方法,序列部分采用了 Transformer 架構(gòu)。」喬楠博士表示。
盤古藥物分子大模型的圖 - 序列不對稱條件自編碼器架構(gòu)。
在縮短研發(fā)時間、降低研發(fā)成本之外,盤古藥物分子大模型還能夠?qū)Y選后的先導化合物進行定向優(yōu)化,通過更科學的藥物結(jié)構(gòu)設(shè)計,降低新藥可能對人體產(chǎn)生的毒副作用。
在相關(guān)論文發(fā)表前,華為云團隊對盤古藥物分子大模型進行了多項測試,結(jié)果表明,該模型在化合物 - 靶標相互作用預測、化合物 ADME/T(吸收、分配、代謝、排泄、毒性)屬性評分、化合物分子生成與優(yōu)化等 20 余項藥物發(fā)現(xiàn)任務(wù)上實現(xiàn)了 SOTA(性能最優(yōu)),可賦能藥物發(fā)現(xiàn)全鏈條任務(wù)。
正如喬楠博士所說,如果說相關(guān)領(lǐng)域內(nèi)的科研是「科學」,那么盤古藥物設(shè)計大模型就是「技術(shù)」,科學與技術(shù)與相輔相成,才能讓基礎(chǔ)發(fā)現(xiàn)快速轉(zhuǎn)化為一個可以運用到實際場景的成果。在近兩年的商用中,已有多家藥企借助盤古藥物分子大模型設(shè)計出了具備良好活性的新分子。
其中,微芯生物在腫瘤藥物設(shè)計領(lǐng)域基于華為云能力,將藥物設(shè)計效率提升 1/3,分子優(yōu)化后結(jié)合能提升 40%,加速腫瘤領(lǐng)域藥物研發(fā)創(chuàng)新研究。
旺山旺水在中樞神經(jīng)系統(tǒng)創(chuàng)新藥物的系列研發(fā)工作中,靶點發(fā)現(xiàn)效率提升 3 倍,分子設(shè)計實驗時間及資金成本節(jié)省 60%以上,高靶向性化合物的優(yōu)化設(shè)計和驗證工作量降低五倍以上。
打造新藥研發(fā)領(lǐng)域的「EDA 軟件」
不只有面向藥物分子設(shè)計的行業(yè)大模型,一直以來,華為云還在做一件更長期主義的事:打造新藥研發(fā)領(lǐng)域的「EDA 軟件」。
業(yè)內(nèi)有一個判斷:「未來的 AI 制藥,正從以算法為中心(Model-centric)朝著以數(shù)據(jù)為中心(Data-centric)的競爭趨勢演進,而高質(zhì)量大數(shù)據(jù)是醫(yī)藥研發(fā)的競爭關(guān)鍵。」
新藥研發(fā)的核心高質(zhì)量數(shù)據(jù)通常掌握在藥企手中,然而大部分藥企特別是中小企業(yè)仍處于傳統(tǒng)醫(yī)藥研發(fā)階段,缺乏人工智能及大數(shù)據(jù)分析手段的支撐。海量的原始數(shù)據(jù)未經(jīng)過系統(tǒng)化的清洗整理,大多不能產(chǎn)生良好的預測效果。
數(shù)據(jù)的價值需要使用算法去發(fā)現(xiàn),同時結(jié)合 AI 新藥研發(fā)公司成熟的算法,而算法需要運行在算力平臺上。在這種情況下,就需要一個高效的企業(yè)級 AI 輔助藥物研發(fā)平臺將三大要素有機結(jié)合起來。
如此一來,不僅能夠提高藥物研發(fā)的效率、節(jié)約成本,還能大大降低藥物研發(fā)的門檻,讓每一家藥企都能高效轉(zhuǎn)型。
為此,華為云在醫(yī)藥領(lǐng)域自下而上構(gòu)建了 IaaS、PaaS、SaaS 三層服務(wù):基于分布式云基礎(chǔ)設(shè)施,在藥物研發(fā)環(huán)節(jié)為藥企提供融合大數(shù)據(jù)、AI 能力的一站式 AI 輔助藥物研發(fā)平臺,并且根據(jù)多樣性的數(shù)據(jù)治理和 AI 開發(fā)需求,提供全鏈路藥物研發(fā)數(shù)據(jù)治理能力和全流程藥物研發(fā) AI 開發(fā)能力,幫助眾多藥企降低 AI 開發(fā)門檻和提升研發(fā)效率 。
具體來說,在 SaaS 層,華為云的一站式 AI 輔助藥物研發(fā)平臺涵蓋了「靶點發(fā)現(xiàn)」、「藥物篩選」、「分子優(yōu)化」三大核心服務(wù),覆蓋新藥研發(fā)全流程,支持從靶點發(fā)現(xiàn)、虛擬篩選、先導化合物優(yōu)化到獲取可合成先導化合物的全業(yè)務(wù)流程,真正做到了「無功能斷點」。
例如,傳統(tǒng)的靶點發(fā)現(xiàn)需要做大量的科研工作,對靶點做大量的生物學假設(shè),并設(shè)計一系列的實驗進行驗證,需要漫長的周期。在這一環(huán)節(jié),華為云發(fā)布了 AutoGenome 單組學自動 AI 建模、AutoOmics 多組學自動 AI 建模、AutoGGN 調(diào)控網(wǎng)絡(luò)自動 AI 建模三個框架,即使是沒有機器學習背景的研究人員,也可以借助這些自動化調(diào)優(yōu)的方法和策略對自己研究的問題和數(shù)據(jù)進行建模。
再談到藥物篩選,傳統(tǒng)方法通常是借助實驗手段或采用高通量實驗篩選平臺進行篩選,不僅耗時、耗錢,而且多樣性差。華為云的一站式 AI 輔助藥物研發(fā)平臺則大大加速了這一早期篩選過程:平臺預置了藥物虛擬篩選流程和分子庫,依托于華為云彈性擴容算力,支持并行化地完成海量的藥物虛擬篩選,同時支持小分子和多肽分子對接,提供了打分矩陣、集成可視化。
藥物虛擬篩選結(jié)果案例展示。
一個具備代表性的案例是,新冠疫情爆發(fā)之后,由于沒有實驗提出新冠病毒相關(guān)靶點,研究人員很難進行相關(guān)業(yè)務(wù)設(shè)計。當時,華為云和國內(nèi)幾所高校積極開展新冠肺炎藥物篩選工作,基于華為云 15000 核超大算力,完成了新冠 21 個蛋白質(zhì)靶點與 8500 個已上市藥物的篩選工作。原本耗時一個月的藥物虛擬篩選,最終縮短到一天完成。
對于分子優(yōu)化環(huán)節(jié),傳統(tǒng)方法更加依賴資深的藥化專家在漫長職業(yè)生涯中積累的經(jīng)驗,對化合物進行改造,并需要進行實驗驗證,項目的成功極其依賴藥化專家的經(jīng)驗和運氣,而華為云提供的盤古藥物分子大模型將這一階段的工作進行了拆解,提供了多種自動化工具。
模型以參考化合物為起點,使得從參考化合物到改造化合物的類藥性質(zhì)一覽無余,更方便地迭代優(yōu)化,得到性質(zhì)更優(yōu)、結(jié)構(gòu)新穎的化合物。這些豐富的功能意味著,如果一位藥企的研究人員積累了大量關(guān)于某種毒性的試驗數(shù)據(jù),就可將試驗數(shù)據(jù)上傳并通過盤古藥物分子大模型基于它的試驗數(shù)據(jù)進行 Fine-tune 調(diào)優(yōu),直接可以在八十多種分子屬性里面再加上新的自定義分子屬性。
「算法只是一種技術(shù)的架構(gòu),一方面算法需要數(shù)據(jù)的訓練來實現(xiàn)真正的業(yè)務(wù)需要,另一方面,就像 ChatGPT 一樣,只有足夠多的數(shù)據(jù)輸入才能實現(xiàn)算法的最好性能,最后,算法的領(lǐng)先性需要持續(xù)的數(shù)據(jù)輸入和迭代。所以未來 AI 制藥的競爭是 AI 算法和藥企數(shù)據(jù)的深度結(jié)合,實現(xiàn)干(計算,Dry Lab)濕(實驗,Wet Lab)結(jié)合,循環(huán)迭代的大模型。」
SaaS 化服務(wù)的好處在于,藥企只需訂閱這一平臺,就可以立即將其應(yīng)用到自身的業(yè)務(wù)中,不用考慮他要雇多少人去開發(fā)、維護平臺,也不需要考慮怎么引入新的技術(shù)方法。這種模式對于藥企來是最直接、最快速的提升,意味著可以將重心、核心、精力聚焦于自身的業(yè)務(wù)層。
在將最新的技術(shù)和方法引入到平臺的同時,華為云團隊也特別注重將客戶需求和建議融入平臺。為了應(yīng)對不斷變化的需求,「AI 輔助藥物研發(fā)平臺」每年平均迭代、更新幾十次,華為云派出專業(yè)的研發(fā)團隊讓藥企的算法模型服務(wù)持續(xù)從業(yè)務(wù)中獲得反饋以進行更新,確保藥企可以方便快捷地將最新的技術(shù)應(yīng)用起來,最終加速創(chuàng)新藥的研發(fā)。
數(shù)據(jù)、算法、算力,構(gòu)成了 AI 技術(shù)發(fā)展的三大要素,三者之間密不可分。例如,還有一些挑戰(zhàn)依舊是藥企最擔心的:比如藥物設(shè)計階段產(chǎn)生的大量數(shù)據(jù)如何存、怎么用?算力資源的局限如何突破?
面向客戶在「數(shù)據(jù)」和「算力」兩塊的升級需求,華為云也給到了專門的解決方案:通過全鏈路藥研數(shù)據(jù)治理服務(wù),在集成、存儲、轉(zhuǎn)換、分析、治理等全生命周期幫助醫(yī)藥企業(yè)進行自動化、智能化的數(shù)據(jù)治理,實現(xiàn)外采數(shù)據(jù)統(tǒng)一管控、干實驗數(shù)據(jù)跨團隊共享、干 / 濕實驗數(shù)據(jù)整合閉環(huán),并以中心化數(shù)據(jù)安全策略覆蓋全鏈路,為藥物研發(fā)提供高質(zhì)量、高可信數(shù)據(jù);此外,在算力方面,華為云提供醫(yī)藥行業(yè)分布式云基礎(chǔ)設(shè)施,為藥物研發(fā)提供最強算力底座和極致算力性能,通過高安全、高可用、高性能、國產(chǎn)化、大算力的云計算資源,保障生物醫(yī)藥企業(yè)數(shù)字化建設(shè)的數(shù)據(jù)安全性、系統(tǒng)合規(guī)性、研發(fā)穩(wěn)定性、資源彈性。
讓「AI for Industries」走到千行百業(yè)的深處
從目前的階段來看,AI 制藥對于制藥行業(yè)仍是一門顛覆式的創(chuàng)新技術(shù)。長遠來看,AI 技術(shù)廣泛應(yīng)用于制藥行業(yè)的是必然趨勢,以傳統(tǒng)實驗為唯一的藥物發(fā)現(xiàn)過程必將逐漸過渡為以數(shù)據(jù)驅(qū)動的范式。
中國的制藥行業(yè)是一個飽和的市場,對于每一家藥企來說,創(chuàng)新藥的研發(fā)將成為下一階段取勝的關(guān)鍵。接下來的路怎么走,仍然值得探討。
在取得一系列成果之后,華為云已成為 AI 新藥研發(fā)賽道的「實力玩家」,越來越受到行業(yè)伙伴的關(guān)注。基于此,多方機構(gòu)聯(lián)合起來探索一種科研機構(gòu)、醫(yī)藥產(chǎn)業(yè)鏈、華為云等「產(chǎn)學研用」緊密結(jié)合的模式,成為了眾望所歸。
在近日舉辦的華為云 AI 新藥研發(fā)論壇中,由昌平區(qū)管委會、昌發(fā)展、華為云共同建設(shè)的「生命谷健康云創(chuàng)新中心」正式揭牌。
該中心投入運營后,華為云也將基于人工智能等云計算能力持續(xù)匯聚各方力量,更有效地服務(wù)藥企,幫助京津冀 TOP 藥企實現(xiàn)突破性創(chuàng)新,提升京津冀生物醫(yī)藥產(chǎn)業(yè)在全國的知名度,并將合作模式輻射至全國各生物醫(yī)藥產(chǎn)業(yè)園區(qū)。
華為云 EI 服務(wù)產(chǎn)品部部長尤鵬表示,AI制藥技術(shù)使得漫長的「馬拉松」轉(zhuǎn)向「加速跑」,華為希望以自身數(shù)據(jù)、算法、算力三方面的積累,以生命谷健康云創(chuàng)新中心為起點,未來服務(wù)于全國100+生物醫(yī)藥產(chǎn)業(yè)基地,推動中國新藥研發(fā)高質(zhì)量高速發(fā)展。
在新藥研發(fā)領(lǐng)域的歷史性變革中,像華為云這樣的頭部企業(yè),正在對中國 AI 新藥研發(fā)事業(yè)起到重要的推動作用。在我國生物醫(yī)藥產(chǎn)業(yè)鏈和產(chǎn)業(yè)集聚的形成過程中,「生命谷健康云創(chuàng)新中心」模式也將成為一種值得關(guān)注的創(chuàng)新路徑。
最后,當大模型成為全新的風口,我們更需要思考的是,動輒十億、百億參數(shù)的大模型能在何種程度上改變社會,實現(xiàn)路徑又是怎樣的。
作為國內(nèi)率先投入大模型研發(fā)及落地的機構(gòu),華為云認為,未來的三年將會是大模型是風起云涌的三年,AI 將會和各行各業(yè)深度結(jié)合,「AI for Industries」將是主要方向。
基于盤古基礎(chǔ)大模型,華為云正在向各行各業(yè)提供盤古行業(yè)大模型服務(wù),陸續(xù)推出了礦山、藥物分子、電力、氣象、海浪等盤古行業(yè)大模型,為業(yè)界貢獻先進的算法和解決方案。
未來,參照已經(jīng)實踐的大模型服務(wù)模式,華為云希望繼續(xù)將最前沿的一批 AI 技術(shù)復制到千行百業(yè)之中去,推動人工智能開發(fā)實現(xiàn)從「作坊式」到「工業(yè)化」升級。
責任編輯:Rex_18