(資料圖片)
文/陳根
2020年11月30日,人工智能系統AlphaFold 2在國際蛋白質結構預測競賽中奪得冠軍,AlphaFold2的成功被認為是生物學領域的重大突破,因為它有助于更好地理解蛋白質如何形成疾病等。而在整個科學社會中,AlphaFold2的成就被看作是一個重要的里程碑,被廣泛認為是人工智能的一個顯著的成果。
一方面,人工智能可以應用于蛋白質的研究和開發,例如通過對大量生物數據進行分析和預測,以幫助科學家了解蛋白質的結構和功能,并為新藥物的開發提供支持。另一方面,人工智能還可以通過生物信息學方法來設計新的蛋白質,例如通過編碼蛋白質的信息和計算其可能的結構和性質來制造新的蛋白質。
現在,在一篇于今年1月26日發表在《自然·生物技術》(Nature Biotechnology)的論文中,科學家就成功創建了可以從頭制造蛋白質的AI系統,其生成的蛋白質構造和已知天然蛋白不同,但是同樣具有生物活性。
在生物學中,我們需要生成特定功能的良好構造的蛋白質序列;而在語言學中,我們希望生成特定主題上的語法語義正確的自然語言句子。這兩者的相似性使得Salesforce Research公司選用AI自然語言處理系統為基礎構造ProGen模型。
ProGen模型是一種生成式深度學習模型,它使用計算機學習文本數據集中的模式和語言結構,從而生成新的文本。ProGen模型可以使用不同類型的語言數據訓練,并可以通過控制生成文本的長度、模式和語法結構等參數來生成不同類型的文本。在本次研究中,ProGen模型使用了19000個家族的2.8億條蛋白質序列進行訓練,其中一些帶有控制蛋白質特性的標簽。
然后,研究人員從模型生成的100萬個序列中篩選了100個進行測試,發現其中一些合成蛋白質的活性與天然蛋白質相當,其中一種只和天然蛋白質有31.4%的相似度。要知道,通常只要一個突變就可以使天然蛋白質失效。
這些蛋白不僅可以用于研究人體內的生物學過程,例如研究疾病機制或評估新藥物的治療效果,作為診斷檢測工具,例如癌癥檢測、生育檢測等,還可以作為工業生產的原料,例如制造食品、化妝品等——合成蛋白對于改善人類健康和生活質量具有重要的意義。科學家表示,這項技術可能比獲得諾貝爾獎的“定向進化”蛋白質設計技術更為強大。
責任編輯:Rex_07