用AI設計蛋白質 滿足“定制”需求(探一線)

在上海張江科學城的實驗室裡,科學家正見証一場生命極限的突破——90攝氏度的密閉罐裡,酶正在快速“瓦解”塑料。這款耐高溫的塑料降解酶,是上海交通大學洪亮教授團隊用AI設計改造的“新品”蛋白質。
當傳統生物學家還在實驗室用移液槍逐個測試蛋白質功能、組裝“理想型”蛋白質時,洪亮團隊的AI大模型“啟明星”已構建出億級蛋白質的“功能圖譜”,能夠精准、高效地設計出耐熱、耐鹼、耐酸等“超能”蛋白質,滿足“定制”蛋白質的需求。
蛋白質是生命活動的物質基礎,自然界中參與構成蛋白質的氨基酸有20種,一個蛋白質分子通常由幾十個至上千個數量不等的氨基酸按照特定順序排列而成。排序的細微差別,可能讓蛋白質表現出截然不同的功能特性,比如穩定性、活性、親和力等。過去數十年間,生物學家只能依靠實驗方法來測定蛋白質的結構,揭示復雜的蛋白質結構會耗費生物學家大量時間。2018年,谷歌DeepMind團隊發布了AI大模型AlphaFold,它能精准地解析蛋白質的三維構造,為科研人員更高效、更精准地進行藥物開發、疫苗設計奠定基礎。
“使用AI設計蛋白質時,我們就在思考,設計的目的是滿足某些功能需求,為何不訓練AI模型,把滿足功能需求的蛋白質直接設計出來?”洪亮團隊決定訓練一個與AlphaFold不同的AI大模型,挑戰蛋白質功能設計的難關。
“我們利用AI技術學習不同自然環境下,各種生物體內蛋白質鏈條中氨基酸的排列規則。更重要的是,我們從溫度、酸鹼度、壓強這3個維度,為5億個蛋白質打上功能標簽,然后把這海量的功能標簽‘投喂’給AI大模型,使之能快速、精准地設計出耐熱、耐酸、耐鹼的‘皮實’蛋白產品。”洪亮說。
如果把一個蛋白質看作一塊模具,那麼整個數據集就是裝滿90億塊模具的超級工具箱,這是迄今為止全球最大的蛋白質數據集。由36.2億條陸地微生物蛋白質序列、26.4億條海洋微生物蛋白質序列、24.3億條抗體蛋白質序列、0.6億條病毒蛋白質序列等組成的蛋白質數據集中,蘊藏著從地表到極地冰川、深海溝壑的“適者生存法則”。
“比如這款耐熱的塑料降解酶,我們先從‘啟明星’中挑出幾個具備耐熱功能的蛋白質‘模具’,再使用AI技術修飾改造這些蛋白質‘模具’的氨基酸序列,提高它的耐熱性,同步進行實驗驗証,從而避免了過去的高通量篩選,提升了蛋白質設計與改造的效率。”洪亮說。
在上海交通大學張江校區的自動化實驗室裡,機械臂正飛快地驗証著AI設計的蛋白質。這裡每天產生的實驗數據,又會回流到AI系統中持續優化蛋白質模具,形成“數據—模型—實驗”的增強循環,洪亮形象地稱之為“蛋白質的自動駕駛模式”。“我們的目的就是讓設計AI化、實驗自動化,把復雜的蛋白質科學變成簡單的工程過程。”洪亮說。
截至目前,已有8個產業項目使用“啟明星”大模型設計蛋白質,成功率達70%。這種突破正在改寫產業規則:某生物醫藥企業利用“啟明星”設計的極度耐鹼的蛋白質,使用壽命提高一倍多,每年可為企業節省上千萬元的成本。
談及未來圖景,洪亮這樣描繪:生物學家隻需在電腦上輸入需求,AI就能自動生成候選蛋白質“模具”,自動化平台完成驗証優化。這不僅能夠將科研人員從重復實驗中解放,更可能催生“定制化合成生物”的全新產業形態。
由中國科研團隊建立的蛋白質大模型及部分數據集已於日前發布,並在軟件托管平台GitHub上開源,供全世界的科研機構接入。
站在合成生物產業的新賽道,洪亮說,當AI開始理解生命的“設計邏輯”,我們或許正在見証新的產業革命——在這個蛋白質可以被精准“編程”的時代,從醫藥研發到環境保護,生命科學將向前邁出更大的步伐。
《 人民日報 》( 2025年05月17日 06 版)
分享讓更多人看到
- 評論
- 關注