破解基因組的奧秘一直是生物科學的前沿挑戰(zhàn),如何讓人工智能(AI)讀懂 DNA 的復雜信息,并用它來設計和操控生命的“程序代碼”?
通過深度學習算法,AI 不僅能識別基因組中細微的模式,還可以生成完整的基因序列,為基因編輯和新藥開發(fā)提供前所未有的支持。
今日凌晨,斯坦福大學化學工程助理教授 Brian L. Hie 團隊以封面文章的形式在權威科學期刊 Science 上發(fā)表了一項開創(chuàng)性研究成果 —— Evo,一個能夠解碼和設計 DNA、RNA 和蛋白質序列的大規(guī)?;蚪M基礎模型。
據(jù)介紹,Evo 模型基于 3000 億 DNA token 訓練,能夠在長序列的單堿基分辨率下進行預測和生成,尤其在跨物種的基因預測上取得了超越特定模型的表現(xiàn)。
Evo 模型專為捕捉生物學中兩個核心方面:中心法則的多模態(tài)性和進化的多尺度特性。中心法則揭示了 DNA、RNA 和蛋白質的統(tǒng)一信息流,而進化跨越了分子、途徑、細胞到生物體的各個層級。
研究發(fā)現(xiàn),Evo 生成的多基因系統(tǒng)成功率接近 50%,生成的 CRISPR-Cas9 蛋白也經實驗驗證具有功能活性。此外,在全基因組生成方面,Evo 生成的序列在基因組組織、編碼密度和天然基因組方面顯示出高度的相似性。
Evo 不僅能夠預測基因突變的效應,還具備生成完整基因組序列的能力,在基因組設計、藥物開發(fā)和生物工程領域具有廣闊的潛力。
美國 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中評論道:“Evo 的意義在于,首次從進化多樣性中提取出 DNA 的‘語法規(guī)則’,將基因組信息的建模提升到一個新的層次?!?/p>
Evo :解碼生命指令的基因組基礎模型
基因組序列的演化過程展現(xiàn)了生物體對環(huán)境的適應與選擇,隨著基因組測序技術的發(fā)展,人類逐步掌握了繪制和解析基因組多樣性的能力,從而揭示了基因在健康、疾病和生物適應性中的關鍵角色。
DNA 作為遺傳信息的載體,通過四種堿基(A、T、G、C)序列記錄了生物體的生命指令。
Theodoris 在評論文章中指出:“DNA 盡管只有四種堿基的 ‘詞匯’,卻像一種語言,編碼了調控細胞各層級活動的基礎信息,從DNA、RNA到蛋白質。這些信息在指導細胞功能的同時,代代相傳,驅動生物體的進化。”
Theodoris 指出,正是這種進化多樣性中的 DNA 序列對比,賦予了大型語言模型學習 DNA 語法的潛力,而這一能力是此前基于單一基因組的模型難以掌握的。
然而,建?;蚪M信息仍面臨顯著挑戰(zhàn)。當前的機器學習模型多聚焦于特定分子(如蛋白質、RNA),在長 DNA 序列的生成與預測上存在局限性,尤其是在涉及基因調控和 CRISPR 免疫等復雜系統(tǒng)的多分子、多尺度應用中。例如,基于 Transformer 的 DNA 模型受限于較短的上下文長度,多采用將核苷酸聚合成語言模型基本單元的方法,犧牲了單堿基分辨率。
為應對這些挑戰(zhàn),研究團隊借鑒自然語言處理模型在長文本預測與生成中的成功案例,開發(fā)了 Evo 模型。
Evo 采用了混合模型架構 StripedHyena,巧妙地將數(shù)據(jù)控制的卷積算子與多頭注意力機制相結合,克服了傳統(tǒng) Transformer 架構在長序列 DNA 處理中的計算成本和分辨率問題,實現(xiàn)了在單堿基分辨率下對長達 131072 個 token 的上下文長度的高效處理,極大提升了基因組分析的精確性和效率。
圖|擁有 70 億個參數(shù)的基因組基礎模型 Evo ,可學習從單個核苷酸到整個基因組的生物復雜性。
Evo 模型使用 OpenGenome 大型數(shù)據(jù)集進行訓練,該數(shù)據(jù)集包含超過 80000 個細菌和古菌基因組以及數(shù)百萬個預測的噬菌體和質粒序列,涵蓋 3000 億個核苷酸 token。訓練分兩個階段,先使用 8192 個 token 上下文長度,再擴展到 131072 個 token 上下文長度,參數(shù)規(guī)模達 70 億。
通過預訓練,使得 Evo 在預測突變對蛋白質和非編碼 RNA 功能影響時,能夠全面考慮分子間的協(xié)同作用,為基因突變的精確預測提供了可能性。
DNA 編碼與自然語言中的單詞和句子不同,DNA 是連續(xù)的,包含了重疊的多重信息。Theodoris 在評論文章中指出,“突變可能影響這些信息中的任何一層,因此大型語言模型需要在單核苷酸分辨率下操作,以全面理解 DNA 信息的復雜性?!?/p>
Evo 模型在單核苷酸分辨率下操作的能力,正是應對這種復雜性的核心。
研究人員對 DNA 序列建模進行 scaling laws 分析,比較了 Transformer++、Mamba、Hyena 和 StripedHyena 等多種架構。結果顯示,StripedHyena 在不同計算預算下表現(xiàn)出更優(yōu)的縮放率,能穩(wěn)定訓練,且在計算最優(yōu)前沿之外的性能也較好,這為選擇該架構作為 Evo 的基礎提供了依據(jù)。
Theodoris 評論道:“Evo 采用了 StripedHyena 架構,將計算時間增加較慢的 Hyena 算子與傳統(tǒng) Transformer 算子結合,提升了生成質量和計算效率,且其擴展規(guī)律與自然語言、計算機視覺的規(guī)律類似,為未來的模型擴展提供了計算資源分配的最佳方式?!?/p>
多模態(tài)預測:跨物種基因突變預測的優(yōu)異表現(xiàn)
研究人員在多種預測和生成任務中測試了 Evo 的能力,來驗證它解碼遺傳序列并在細胞內多層次調控中執(zhí)行任務的能力。
實驗數(shù)據(jù)顯示,Evo 在預測突變對蛋白質功能影響方面展現(xiàn)出領先性能,在原核生物蛋白質的 DMS 數(shù)據(jù)集中,Evo 的零樣本預測能力優(yōu)于其他核苷酸模型,接近某些專注于蛋白質的語言模型。
在人類蛋白質數(shù)據(jù)集上,由于初始數(shù)據(jù)量有限,表現(xiàn)略遜,但 Evo 在進一步訓練中的改進潛力巨大,尤其在預測困惑度與適應性關聯(lián)方面的發(fā)現(xiàn)提供了重要啟示。
圖|Evo 學習跨越蛋白質、ncRNAs 和調控 DNA 的功能
Evo 的跨物種預測能力不僅限于蛋白質。在非編碼RNA的功能預測中,Evo 在多個 DMS 任務中的表現(xiàn)超越其他核苷酸語言模型。尤其在預測 5S rRNA 突變對大腸桿菌生長影響時,Evo 的斯皮爾曼相關系數(shù)達 0.60,表現(xiàn)出優(yōu)異的突變影響預測能力。
此外,Evo 在調控 DNA 活性預測方面,以高零樣本似然度顯著關聯(lián)啟動子活性,結合監(jiān)督模型后接近先進的預測方法,為非編碼區(qū)域的功能研究提供了有力支持。
生成式設計:功能性 CRISPR-Cas9 與轉座子系統(tǒng)的創(chuàng)建
研究發(fā)現(xiàn),Evo 在生成式設計中的表現(xiàn)同樣亮眼。經過微調的 Evo 模型可以根據(jù)提示生成多種類型的 CRISPR-Cas 系統(tǒng),其中篩選出的 EvoCas9-1 被實驗驗證具有與天然 SpCas9 類似的體外切割活性。
除了 CRISPR 系統(tǒng),Evo 生成的 sgRNA 能夠提升 SpCas9 的切割效率,同時生成的 Cas9 系統(tǒng)部分與天然 Cas9 序列同一性較低,展示了較強的多樣性與功能性。
圖|Evo 可生成具有可信基因組結構的巨量級序列
在轉座子生成方面,Evo 同樣展現(xiàn)出靈活性和準確性。Evo 生成的 IS200 和 IS605 元素在體外實驗中表現(xiàn)良好,部分元件成功實現(xiàn)了切除與插入功能,顯示出在生成功能性轉座子中的潛力。例如, IS200 類似元件的成功率接近 50%,生成的 TnpA 蛋白具有功能性的發(fā)夾結構和低同一性,顯示出在轉座子生成中的廣泛適應性。
Theodoris 稱:“Evo 在基因工具生成中的表現(xiàn),顯示了 AI 在基因設計的廣泛應用性?!?/p>
Theodoris 認為,這項突破性的研究展現(xiàn)了如何在計算最優(yōu)的架構下實現(xiàn)數(shù)據(jù)和模型規(guī)模的合理配置,不僅對未來更大規(guī)模的基因組建模有指導意義,也標志著基因組大模型與自然語言處理的跨領域創(chuàng)新。
不足和展望
盡管 Evo 生成的基因組規(guī)模序列(約1 Mb)在編碼密度、GC含量、蛋白質結構預測、tRNA生成等方面高度接近天然基因組,但目前研究仍有瓶頸。
首先,Evo 模型在僅含 3000 億原核生物 token 的數(shù)據(jù)集預訓練,相比海量公開基因組數(shù)據(jù)只是一小部分,這導致其預測人類蛋白質突變功能效應的能力受限。
其次,與自然語言模型類似,Evo 在生成長序列時難以保證連貫性和多樣性。例如,生成 CRISPR - Cas 序列時會有 cas 基因缺失或不完整問題,生成百萬堿基長的基因組序列時難以涵蓋全套 rRNAs 等關鍵 token 基因,影響序列完整性和可用性。
研究團隊指出,未來將通過擴大數(shù)據(jù)集、增加模型規(guī)模、豐富訓練上下文等手段提升 Evo 的性能。
在功能拓展方面,利用基因組語言模型引導多基因系統(tǒng)定向進化,提高多基因環(huán)境下分子結構預測的準確性,并通過優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關系或語義層面挖掘宏基因組信息。
在數(shù)據(jù)拓展和安全方面,計劃納入真核基因組,但因其復雜性高,需在模型工程、計算資源和安全校準投入大量資源。結合大規(guī)?;蚪M改造進展,Evo 將推動生物工程和設計擴展到全基因組規(guī)模。
在功能拓展方面,利用基因組語言模型引導多基因系統(tǒng)定向進化,提高多基因環(huán)境下分子結構預測的準確性,并通過優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關系或語義層面挖掘宏基因組信息。
在數(shù)據(jù)拓展和安全方面,計劃納入真核基因組,但因其復雜性高,需在模型工程、計算資源和安全校準投入大量資源。結合大規(guī)?;蚪M改造進展,Evo 將推動生物工程和設計擴展到全基因組規(guī)模。
Theodoris 預測,未來模型可能學習人類及其他真核生物基因組,從而更有效地預測基因組中長距離調控交互的影響。
他還設想,通過環(huán)境因素或細胞狀態(tài)的提示,可以進一步引導 Evo,使其能夠在多細胞生物中根據(jù)不同的時空條件執(zhí)行特定的細胞功能。
Evo 模型的安全與倫理考量
值得關注的是,生物技術是一把雙刃劍,像 Evo 這樣的強大基因組基礎模型在帶來科研突破的同時,也引發(fā)了一些安全與倫理的討論。
例如,惡意用戶可能利用 Evo 生成抗藥性或免疫逃逸的微生物,盡管實際操作難度較大,但隨著基因工程工具的普及,有必要對模型使用權限進行嚴格監(jiān)管,明確“濫用”行為的界定,以確保 Evo 的安全使用。
此外,Evo 的開源性為科研帶來了透明性,但其應用資源的分配也可能引發(fā)科技不平等。
目前,主要能有效運用 Evo 的機構多集中于生物技術公司和大型科研組織,這可能加劇科技紅利在特定人群中的集中。為實現(xiàn)全球科技紅利的均衡,國際社會有必要推動資源匱乏地區(qū)的技術培訓與支持,以彌合科技應用的差距。
在生態(tài)層面,盡管 Evo 本身不會直接操控基因,但其生成的基因編輯系統(tǒng)可能帶來生態(tài)挑戰(zhàn)。基因編輯生物體釋放到自然環(huán)境中可能引發(fā)生態(tài)失衡。為此,研究團隊建議,全球科學界應制定更為嚴格的基因工程準則,以確??茖W技術在尊重自然生態(tài)的前提下造福人類。
Evo 的誕生標志著生成式基因組學進入了一個新時代。
作為一款具備跨物種基因預測和生成能力的基礎模型,Evo 不僅在基因組設計、藥物開發(fā)等領域展現(xiàn)了前所未有的潛力,也推動了生命科學領域的創(chuàng)新。
然而,在推動技術進步的同時,科學家們也需保持對安全、社會公平和生態(tài)保護的高度關注。通過制定完善的政策和全球協(xié)作,確保 Evo 模型的負責任應用,生成式基因組學將在未來迎來更加廣闊的應用前景。
作者:田小婷
編輯:學術君