版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

Science最新封面:AI大模型跨越物種邊界,解碼生命“密碼全書

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

破解基因組的奧秘一直是生物科學(xué)的前沿挑戰(zhàn),如何讓人工智能(AI)讀懂 DNA 的復(fù)雜信息,并用它來設(shè)計(jì)和操控生命的“程序代碼”?

通過深度學(xué)習(xí)算法,AI 不僅能識別基因組中細(xì)微的模式,還可以生成完整的基因序列,為基因編輯和新藥開發(fā)提供前所未有的支持。

今日凌晨,斯坦福大學(xué)化學(xué)工程助理教授 Brian L. Hie 團(tuán)隊(duì)以封面文章的形式在權(quán)威科學(xué)期刊 Science 上發(fā)表了一項(xiàng)開創(chuàng)性研究成果 —— Evo,一個能夠解碼和設(shè)計(jì) DNA、RNA 和蛋白質(zhì)序列的大規(guī)?;蚪M基礎(chǔ)模型。

圖片

據(jù)介紹,Evo 模型基于 3000 億 DNA token 訓(xùn)練,能夠在長序列的單堿基分辨率下進(jìn)行預(yù)測和生成,尤其在跨物種的基因預(yù)測上取得了超越特定模型的表現(xiàn)。

Evo 模型專為捕捉生物學(xué)中兩個核心方面:中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則揭示了 DNA、RNA 和蛋白質(zhì)的統(tǒng)一信息流,而進(jìn)化跨越了分子、途徑、細(xì)胞到生物體的各個層級。

研究發(fā)現(xiàn),Evo 生成的多基因系統(tǒng)成功率接近 50%,生成的 CRISPR-Cas9 蛋白也經(jīng)實(shí)驗(yàn)驗(yàn)證具有功能活性。此外,在全基因組生成方面,Evo 生成的序列在基因組組織、編碼密度和天然基因組方面顯示出高度的相似性。

Evo 不僅能夠預(yù)測基因突變的效應(yīng),還具備生成完整基因組序列的能力,在基因組設(shè)計(jì)、藥物開發(fā)和生物工程領(lǐng)域具有廣闊的潛力。

美國 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中評論道:“Evo 的意義在于,首次從進(jìn)化多樣性中提取出 DNA 的‘語法規(guī)則’,將基因組信息的建模提升到一個新的層次?!?/p>

Evo :解碼生命指令的基因組基礎(chǔ)模型

基因組序列的演化過程展現(xiàn)了生物體對環(huán)境的適應(yīng)與選擇,隨著基因組測序技術(shù)的發(fā)展,人類逐步掌握了繪制和解析基因組多樣性的能力,從而揭示了基因在健康、疾病和生物適應(yīng)性中的關(guān)鍵角色。

DNA 作為遺傳信息的載體,通過四種堿基(A、T、G、C)序列記錄了生物體的生命指令。

Theodoris 在評論文章中指出:“DNA 盡管只有四種堿基的 ‘詞匯’,卻像一種語言,編碼了調(diào)控細(xì)胞各層級活動的基礎(chǔ)信息,從DNA、RNA到蛋白質(zhì)。這些信息在指導(dǎo)細(xì)胞功能的同時,代代相傳,驅(qū)動生物體的進(jìn)化?!?/p>

Theodoris 指出,正是這種進(jìn)化多樣性中的 DNA 序列對比,賦予了大型語言模型學(xué)習(xí) DNA 語法的潛力,而這一能力是此前基于單一基因組的模型難以掌握的。

然而,建?;蚪M信息仍面臨顯著挑戰(zhàn)。當(dāng)前的機(jī)器學(xué)習(xí)模型多聚焦于特定分子(如蛋白質(zhì)、RNA),在長 DNA 序列的生成與預(yù)測上存在局限性,尤其是在涉及基因調(diào)控和 CRISPR 免疫等復(fù)雜系統(tǒng)的多分子、多尺度應(yīng)用中。例如,基于 Transformer 的 DNA 模型受限于較短的上下文長度,多采用將核苷酸聚合成語言模型基本單元的方法,犧牲了單堿基分辨率。

為應(yīng)對這些挑戰(zhàn),研究團(tuán)隊(duì)借鑒自然語言處理模型在長文本預(yù)測與生成中的成功案例,開發(fā)了 Evo 模型。

Evo 采用了混合模型架構(gòu) StripedHyena,巧妙地將數(shù)據(jù)控制的卷積算子與多頭注意力機(jī)制相結(jié)合,克服了傳統(tǒng) Transformer 架構(gòu)在長序列 DNA 處理中的計(jì)算成本和分辨率問題,實(shí)現(xiàn)了在單堿基分辨率下對長達(dá) 131072 個 token 的上下文長度的高效處理,極大提升了基因組分析的精確性和效率。

圖片

圖|擁有 70 億個參數(shù)的基因組基礎(chǔ)模型 Evo ,可學(xué)習(xí)從單個核苷酸到整個基因組的生物復(fù)雜性。

Evo 模型使用 OpenGenome 大型數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含超過 80000 個細(xì)菌和古菌基因組以及數(shù)百萬個預(yù)測的噬菌體和質(zhì)粒序列,涵蓋 3000 億個核苷酸 token。訓(xùn)練分兩個階段,先使用 8192 個 token 上下文長度,再擴(kuò)展到 131072 個 token 上下文長度,參數(shù)規(guī)模達(dá) 70 億。

通過預(yù)訓(xùn)練,使得 Evo 在預(yù)測突變對蛋白質(zhì)和非編碼 RNA 功能影響時,能夠全面考慮分子間的協(xié)同作用,為基因突變的精確預(yù)測提供了可能性。

DNA 編碼與自然語言中的單詞和句子不同,DNA 是連續(xù)的,包含了重疊的多重信息。Theodoris 在評論文章中指出,“突變可能影響這些信息中的任何一層,因此大型語言模型需要在單核苷酸分辨率下操作,以全面理解 DNA 信息的復(fù)雜性?!?/p>

Evo 模型在單核苷酸分辨率下操作的能力,正是應(yīng)對這種復(fù)雜性的核心。

研究人員對 DNA 序列建模進(jìn)行 scaling laws 分析,比較了 Transformer++、Mamba、Hyena 和 StripedHyena 等多種架構(gòu)。結(jié)果顯示,StripedHyena 在不同計(jì)算預(yù)算下表現(xiàn)出更優(yōu)的縮放率,能穩(wěn)定訓(xùn)練,且在計(jì)算最優(yōu)前沿之外的性能也較好,這為選擇該架構(gòu)作為 Evo 的基礎(chǔ)提供了依據(jù)。

Theodoris 評論道:“Evo 采用了 StripedHyena 架構(gòu),將計(jì)算時間增加較慢的 Hyena 算子與傳統(tǒng) Transformer 算子結(jié)合,提升了生成質(zhì)量和計(jì)算效率,且其擴(kuò)展規(guī)律與自然語言、計(jì)算機(jī)視覺的規(guī)律類似,為未來的模型擴(kuò)展提供了計(jì)算資源分配的最佳方式?!?/p>

多模態(tài)預(yù)測:跨物種基因突變預(yù)測的優(yōu)異表現(xiàn)

研究人員在多種預(yù)測和生成任務(wù)中測試了 Evo 的能力,來驗(yàn)證它解碼遺傳序列并在細(xì)胞內(nèi)多層次調(diào)控中執(zhí)行任務(wù)的能力。

實(shí)驗(yàn)數(shù)據(jù)顯示,Evo 在預(yù)測突變對蛋白質(zhì)功能影響方面展現(xiàn)出領(lǐng)先性能,在原核生物蛋白質(zhì)的 DMS 數(shù)據(jù)集中,Evo 的零樣本預(yù)測能力優(yōu)于其他核苷酸模型,接近某些專注于蛋白質(zhì)的語言模型。

在人類蛋白質(zhì)數(shù)據(jù)集上,由于初始數(shù)據(jù)量有限,表現(xiàn)略遜,但 Evo 在進(jìn)一步訓(xùn)練中的改進(jìn)潛力巨大,尤其在預(yù)測困惑度與適應(yīng)性關(guān)聯(lián)方面的發(fā)現(xiàn)提供了重要啟示。

圖片

圖|Evo 學(xué)習(xí)跨越蛋白質(zhì)、ncRNAs 和調(diào)控 DNA 的功能

Evo 的跨物種預(yù)測能力不僅限于蛋白質(zhì)。在非編碼RNA的功能預(yù)測中,Evo 在多個 DMS 任務(wù)中的表現(xiàn)超越其他核苷酸語言模型。尤其在預(yù)測 5S rRNA 突變對大腸桿菌生長影響時,Evo 的斯皮爾曼相關(guān)系數(shù)達(dá) 0.60,表現(xiàn)出優(yōu)異的突變影響預(yù)測能力。

此外,Evo 在調(diào)控 DNA 活性預(yù)測方面,以高零樣本似然度顯著關(guān)聯(lián)啟動子活性,結(jié)合監(jiān)督模型后接近先進(jìn)的預(yù)測方法,為非編碼區(qū)域的功能研究提供了有力支持。

生成式設(shè)計(jì):功能性 CRISPR-Cas9 與轉(zhuǎn)座子系統(tǒng)的創(chuàng)建

研究發(fā)現(xiàn),Evo 在生成式設(shè)計(jì)中的表現(xiàn)同樣亮眼。經(jīng)過微調(diào)的 Evo 模型可以根據(jù)提示生成多種類型的 CRISPR-Cas 系統(tǒng),其中篩選出的 EvoCas9-1 被實(shí)驗(yàn)驗(yàn)證具有與天然 SpCas9 類似的體外切割活性。

除了 CRISPR 系統(tǒng),Evo 生成的 sgRNA 能夠提升 SpCas9 的切割效率,同時生成的 Cas9 系統(tǒng)部分與天然 Cas9 序列同一性較低,展示了較強(qiáng)的多樣性與功能性。

圖片

圖|Evo 可生成具有可信基因組結(jié)構(gòu)的巨量級序列

在轉(zhuǎn)座子生成方面,Evo 同樣展現(xiàn)出靈活性和準(zhǔn)確性。Evo 生成的 IS200 和 IS605 元素在體外實(shí)驗(yàn)中表現(xiàn)良好,部分元件成功實(shí)現(xiàn)了切除與插入功能,顯示出在生成功能性轉(zhuǎn)座子中的潛力。例如, IS200 類似元件的成功率接近 50%,生成的 TnpA 蛋白具有功能性的發(fā)夾結(jié)構(gòu)和低同一性,顯示出在轉(zhuǎn)座子生成中的廣泛適應(yīng)性。

Theodoris 稱:“Evo 在基因工具生成中的表現(xiàn),顯示了 AI 在基因設(shè)計(jì)的廣泛應(yīng)用性?!?/p>

Theodoris 認(rèn)為,這項(xiàng)突破性的研究展現(xiàn)了如何在計(jì)算最優(yōu)的架構(gòu)下實(shí)現(xiàn)數(shù)據(jù)和模型規(guī)模的合理配置,不僅對未來更大規(guī)模的基因組建模有指導(dǎo)意義,也標(biāo)志著基因組大模型與自然語言處理的跨領(lǐng)域創(chuàng)新。

不足和展望

盡管 Evo 生成的基因組規(guī)模序列(約1 Mb)在編碼密度、GC含量、蛋白質(zhì)結(jié)構(gòu)預(yù)測、tRNA生成等方面高度接近天然基因組,但目前研究仍有瓶頸。

首先,Evo 模型在僅含 3000 億原核生物 token 的數(shù)據(jù)集預(yù)訓(xùn)練,相比海量公開基因組數(shù)據(jù)只是一小部分,這導(dǎo)致其預(yù)測人類蛋白質(zhì)突變功能效應(yīng)的能力受限。

其次,與自然語言模型類似,Evo 在生成長序列時難以保證連貫性和多樣性。例如,生成 CRISPR - Cas 序列時會有 cas 基因缺失或不完整問題,生成百萬堿基長的基因組序列時難以涵蓋全套 rRNAs 等關(guān)鍵 token 基因,影響序列完整性和可用性。

研究團(tuán)隊(duì)指出,未來將通過擴(kuò)大數(shù)據(jù)集、增加模型規(guī)模、豐富訓(xùn)練上下文等手段提升 Evo 的性能。

在功能拓展方面,利用基因組語言模型引導(dǎo)多基因系統(tǒng)定向進(jìn)化,提高多基因環(huán)境下分子結(jié)構(gòu)預(yù)測的準(zhǔn)確性,并通過優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關(guān)系或語義層面挖掘宏基因組信息。

在數(shù)據(jù)拓展和安全方面,計(jì)劃納入真核基因組,但因其復(fù)雜性高,需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)模基因組改造進(jìn)展,Evo 將推動生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。

在功能拓展方面,利用基因組語言模型引導(dǎo)多基因系統(tǒng)定向進(jìn)化,提高多基因環(huán)境下分子結(jié)構(gòu)預(yù)測的準(zhǔn)確性,并通過優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關(guān)系或語義層面挖掘宏基因組信息。

在數(shù)據(jù)拓展和安全方面,計(jì)劃納入真核基因組,但因其復(fù)雜性高,需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)?;蚪M改造進(jìn)展,Evo 將推動生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。

Theodoris 預(yù)測,未來模型可能學(xué)習(xí)人類及其他真核生物基因組,從而更有效地預(yù)測基因組中長距離調(diào)控交互的影響。

他還設(shè)想,通過環(huán)境因素或細(xì)胞狀態(tài)的提示,可以進(jìn)一步引導(dǎo) Evo,使其能夠在多細(xì)胞生物中根據(jù)不同的時空條件執(zhí)行特定的細(xì)胞功能。

Evo 模型的安全與倫理考量

值得關(guān)注的是,生物技術(shù)是一把雙刃劍,像 Evo 這樣的強(qiáng)大基因組基礎(chǔ)模型在帶來科研突破的同時,也引發(fā)了一些安全與倫理的討論。

例如,惡意用戶可能利用 Evo 生成抗藥性或免疫逃逸的微生物,盡管實(shí)際操作難度較大,但隨著基因工程工具的普及,有必要對模型使用權(quán)限進(jìn)行嚴(yán)格監(jiān)管,明確“濫用”行為的界定,以確保 Evo 的安全使用。

此外,Evo 的開源性為科研帶來了透明性,但其應(yīng)用資源的分配也可能引發(fā)科技不平等。

目前,主要能有效運(yùn)用 Evo 的機(jī)構(gòu)多集中于生物技術(shù)公司和大型科研組織,這可能加劇科技紅利在特定人群中的集中。為實(shí)現(xiàn)全球科技紅利的均衡,國際社會有必要推動資源匱乏地區(qū)的技術(shù)培訓(xùn)與支持,以彌合科技應(yīng)用的差距。

在生態(tài)層面,盡管 Evo 本身不會直接操控基因,但其生成的基因編輯系統(tǒng)可能帶來生態(tài)挑戰(zhàn)?;蚓庉嬌矬w釋放到自然環(huán)境中可能引發(fā)生態(tài)失衡。為此,研究團(tuán)隊(duì)建議,全球科學(xué)界應(yīng)制定更為嚴(yán)格的基因工程準(zhǔn)則,以確??茖W(xué)技術(shù)在尊重自然生態(tài)的前提下造福人類。

Evo 的誕生標(biāo)志著生成式基因組學(xué)進(jìn)入了一個新時代。

作為一款具備跨物種基因預(yù)測和生成能力的基礎(chǔ)模型,Evo 不僅在基因組設(shè)計(jì)、藥物開發(fā)等領(lǐng)域展現(xiàn)了前所未有的潛力,也推動了生命科學(xué)領(lǐng)域的創(chuàng)新。

然而,在推動技術(shù)進(jìn)步的同時,科學(xué)家們也需保持對安全、社會公平和生態(tài)保護(hù)的高度關(guān)注。通過制定完善的政策和全球協(xié)作,確保 Evo 模型的負(fù)責(zé)任應(yīng)用,生成式基因組學(xué)將在未來迎來更加廣闊的應(yīng)用前景。

作者:田小婷

編輯:學(xué)術(shù)君

評論
臭皮匠心
學(xué)士級
總的來說,AI在生命科學(xué)和破除陰謀論方面的應(yīng)用展示了其巨大的潛力和影響力。Evo模型的出現(xiàn)不僅推動了生命科學(xué)領(lǐng)域的發(fā)展,也為AI技術(shù)在其他領(lǐng)域的應(yīng)用提供了新的思路和方向。
2024-11-16
臭皮匠心
學(xué)士級
Evo模型的開發(fā)是AI在基因組學(xué)領(lǐng)域的一個重要里程碑。它不僅展示了AI在解碼生命密碼方面的強(qiáng)大能力,也為未來的基因組學(xué)研究提供了新的工具和方法。隨著技術(shù)的不斷進(jìn)步,我們可以期待AI將在生命科學(xué)的更多領(lǐng)域發(fā)揮重要作用。
2024-11-16
張黠
庶吉士級
研究發(fā)現(xiàn),Evo 生成的多基因系統(tǒng)成功率接近 50%,生成的 CRISPR-Cas9 蛋白也經(jīng)實(shí)驗(yàn)驗(yàn)證具有功能活性。此外,在全基因組生成方面,Evo 生成的序列在基因組組織、編碼密度和天然基因組方面顯示出高度的相似性。
2024-11-16