亚洲专区路线一路线二天美,中文字幕人妻偷伦在线视频

破解基因組的奧秘一直是生物科學(xué)的前沿挑戰(zhàn)，如何讓人工智能（AI）讀懂 DNA 的復(fù)雜信息，并用它來設(shè)計(jì)和操控生命的“程序代碼”？

通過深度學(xué)習(xí)算法，AI 不僅能識別基因組中細(xì)微的模式，還可以生成完整的基因序列，為基因編輯和新藥開發(fā)提供前所未有的支持。

今日凌晨，斯坦福大學(xué)化學(xué)工程助理教授 Brian L. Hie 團(tuán)隊(duì)以封面文章的形式在權(quán)威科學(xué)期刊 Science 上發(fā)表了一項(xiàng)開創(chuàng)性研究成果 —— Evo，一個(gè)能夠解碼和設(shè)計(jì) DNA、RNA 和蛋白質(zhì)序列的大規(guī)?；蚪M基礎(chǔ)模型。

據(jù)介紹，Evo 模型基于 3000 億 DNA token 訓(xùn)練，能夠在長序列的單堿基分辨率下進(jìn)行預(yù)測和生成，尤其在跨物種的基因預(yù)測上取得了超越特定模型的表現(xiàn)。

Evo 模型專為捕捉生物學(xué)中兩個(gè)核心方面：中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則揭示了 DNA、RNA 和蛋白質(zhì)的統(tǒng)一信息流，而進(jìn)化跨越了分子、途徑、細(xì)胞到生物體的各個(gè)層級。

研究發(fā)現(xiàn)，Evo 生成的多基因系統(tǒng)成功率接近 50%，生成的 CRISPR-Cas9 蛋白也經(jīng)實(shí)驗(yàn)驗(yàn)證具有功能活性。此外，在全基因組生成方面，Evo 生成的序列在基因組組織、編碼密度和天然基因組方面顯示出高度的相似性。

Evo 不僅能夠預(yù)測基因突變的效應(yīng)，還具備生成完整基因組序列的能力，在基因組設(shè)計(jì)、藥物開發(fā)和生物工程領(lǐng)域具有廣闊的潛力。

美國 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中評論道：“Evo 的意義在于，首次從進(jìn)化多樣性中提取出 DNA 的‘語法規(guī)則’，將基因組信息的建模提升到一個(gè)新的層次?！?/p>

Evo ：解碼生命指令的基因組基礎(chǔ)模型

基因組序列的演化過程展現(xiàn)了生物體對環(huán)境的適應(yīng)與選擇，隨著基因組測序技術(shù)的發(fā)展，人類逐步掌握了繪制和解析基因組多樣性的能力，從而揭示了基因在健康、疾病和生物適應(yīng)性中的關(guān)鍵角色。

DNA 作為遺傳信息的載體，通過四種堿基（A、T、G、C）序列記錄了生物體的生命指令。

Theodoris 在評論文章中指出：“DNA 盡管只有四種堿基的 ‘詞匯’，卻像一種語言，編碼了調(diào)控細(xì)胞各層級活動的基礎(chǔ)信息，從DNA、RNA到蛋白質(zhì)。這些信息在指導(dǎo)細(xì)胞功能的同時(shí)，代代相傳，驅(qū)動生物體的進(jìn)化?！?/p>

Theodoris 指出，正是這種進(jìn)化多樣性中的 DNA 序列對比，賦予了大型語言模型學(xué)習(xí) DNA 語法的潛力，而這一能力是此前基于單一基因組的模型難以掌握的。

然而，建?；蚪M信息仍面臨顯著挑戰(zhàn)。當(dāng)前的機(jī)器學(xué)習(xí)模型多聚焦于特定分子（如蛋白質(zhì)、RNA），在長 DNA 序列的生成與預(yù)測上存在局限性，尤其是在涉及基因調(diào)控和 CRISPR 免疫等復(fù)雜系統(tǒng)的多分子、多尺度應(yīng)用中。例如，基于 Transformer 的 DNA 模型受限于較短的上下文長度，多采用將核苷酸聚合成語言模型基本單元的方法，犧牲了單堿基分辨率。

為應(yīng)對這些挑戰(zhàn)，研究團(tuán)隊(duì)借鑒自然語言處理模型在長文本預(yù)測與生成中的成功案例，開發(fā)了 Evo 模型。

Evo 采用了混合模型架構(gòu) StripedHyena，巧妙地將數(shù)據(jù)控制的卷積算子與多頭注意力機(jī)制相結(jié)合，克服了傳統(tǒng) Transformer 架構(gòu)在長序列 DNA 處理中的計(jì)算成本和分辨率問題，實(shí)現(xiàn)了在單堿基分辨率下對長達(dá) 131072 個(gè) token 的上下文長度的高效處理，極大提升了基因組分析的精確性和效率。

圖｜擁有 70 億個(gè)參數(shù)的基因組基礎(chǔ)模型 Evo ，可學(xué)習(xí)從單個(gè)核苷酸到整個(gè)基因組的生物復(fù)雜性。

Evo 模型使用 OpenGenome 大型數(shù)據(jù)集進(jìn)行訓(xùn)練，該數(shù)據(jù)集包含超過 80000 個(gè)細(xì)菌和古菌基因組以及數(shù)百萬個(gè)預(yù)測的噬菌體和質(zhì)粒序列，涵蓋 3000 億個(gè)核苷酸 token。訓(xùn)練分兩個(gè)階段，先使用 8192 個(gè) token 上下文長度，再擴(kuò)展到 131072 個(gè) token 上下文長度，參數(shù)規(guī)模達(dá) 70 億。

通過預(yù)訓(xùn)練，使得 Evo 在預(yù)測突變對蛋白質(zhì)和非編碼 RNA 功能影響時(shí)，能夠全面考慮分子間的協(xié)同作用，為基因突變的精確預(yù)測提供了可能性。

DNA 編碼與自然語言中的單詞和句子不同，DNA 是連續(xù)的，包含了重疊的多重信息。Theodoris 在評論文章中指出，“突變可能影響這些信息中的任何一層，因此大型語言模型需要在單核苷酸分辨率下操作，以全面理解 DNA 信息的復(fù)雜性?！?/p>

Evo 模型在單核苷酸分辨率下操作的能力，正是應(yīng)對這種復(fù)雜性的核心。

研究人員對 DNA 序列建模進(jìn)行 scaling laws 分析，比較了 Transformer++、Mamba、Hyena 和 StripedHyena 等多種架構(gòu)。結(jié)果顯示，StripedHyena 在不同計(jì)算預(yù)算下表現(xiàn)出更優(yōu)的縮放率，能穩(wěn)定訓(xùn)練，且在計(jì)算最優(yōu)前沿之外的性能也較好，這為選擇該架構(gòu)作為 Evo 的基礎(chǔ)提供了依據(jù)。

Theodoris 評論道：“Evo 采用了 StripedHyena 架構(gòu)，將計(jì)算時(shí)間增加較慢的 Hyena 算子與傳統(tǒng) Transformer 算子結(jié)合，提升了生成質(zhì)量和計(jì)算效率，且其擴(kuò)展規(guī)律與自然語言、計(jì)算機(jī)視覺的規(guī)律類似，為未來的模型擴(kuò)展提供了計(jì)算資源分配的最佳方式?！?/p>

多模態(tài)預(yù)測：跨物種基因突變預(yù)測的優(yōu)異表現(xiàn)

研究人員在多種預(yù)測和生成任務(wù)中測試了 Evo 的能力，來驗(yàn)證它解碼遺傳序列并在細(xì)胞內(nèi)多層次調(diào)控中執(zhí)行任務(wù)的能力。

實(shí)驗(yàn)數(shù)據(jù)顯示，Evo 在預(yù)測突變對蛋白質(zhì)功能影響方面展現(xiàn)出領(lǐng)先性能，在原核生物蛋白質(zhì)的 DMS 數(shù)據(jù)集中，Evo 的零樣本預(yù)測能力優(yōu)于其他核苷酸模型，接近某些專注于蛋白質(zhì)的語言模型。

在人類蛋白質(zhì)數(shù)據(jù)集上，由于初始數(shù)據(jù)量有限，表現(xiàn)略遜，但 Evo 在進(jìn)一步訓(xùn)練中的改進(jìn)潛力巨大，尤其在預(yù)測困惑度與適應(yīng)性關(guān)聯(lián)方面的發(fā)現(xiàn)提供了重要啟示。

圖｜Evo 學(xué)習(xí)跨越蛋白質(zhì)、ncRNAs 和調(diào)控 DNA 的功能

Evo 的跨物種預(yù)測能力不僅限于蛋白質(zhì)。在非編碼RNA的功能預(yù)測中，Evo 在多個(gè) DMS 任務(wù)中的表現(xiàn)超越其他核苷酸語言模型。尤其在預(yù)測 5S rRNA 突變對大腸桿菌生長影響時(shí)，Evo 的斯皮爾曼相關(guān)系數(shù)達(dá) 0.60，表現(xiàn)出優(yōu)異的突變影響預(yù)測能力。

此外，Evo 在調(diào)控 DNA 活性預(yù)測方面，以高零樣本似然度顯著關(guān)聯(lián)啟動子活性，結(jié)合監(jiān)督模型后接近先進(jìn)的預(yù)測方法，為非編碼區(qū)域的功能研究提供了有力支持。

生成式設(shè)計(jì)：功能性 CRISPR-Cas9 與轉(zhuǎn)座子系統(tǒng)的創(chuàng)建

研究發(fā)現(xiàn)，Evo 在生成式設(shè)計(jì)中的表現(xiàn)同樣亮眼。經(jīng)過微調(diào)的 Evo 模型可以根據(jù)提示生成多種類型的 CRISPR-Cas 系統(tǒng)，其中篩選出的 EvoCas9-1 被實(shí)驗(yàn)驗(yàn)證具有與天然 SpCas9 類似的體外切割活性。

除了 CRISPR 系統(tǒng)，Evo 生成的 sgRNA 能夠提升 SpCas9 的切割效率，同時(shí)生成的 Cas9 系統(tǒng)部分與天然 Cas9 序列同一性較低，展示了較強(qiáng)的多樣性與功能性。

圖｜Evo 可生成具有可信基因組結(jié)構(gòu)的巨量級序列

在轉(zhuǎn)座子生成方面，Evo 同樣展現(xiàn)出靈活性和準(zhǔn)確性。Evo 生成的 IS200 和 IS605 元素在體外實(shí)驗(yàn)中表現(xiàn)良好，部分元件成功實(shí)現(xiàn)了切除與插入功能，顯示出在生成功能性轉(zhuǎn)座子中的潛力。例如， IS200 類似元件的成功率接近 50%，生成的 TnpA 蛋白具有功能性的發(fā)夾結(jié)構(gòu)和低同一性，顯示出在轉(zhuǎn)座子生成中的廣泛適應(yīng)性。

Theodoris 稱：“Evo 在基因工具生成中的表現(xiàn)，顯示了 AI 在基因設(shè)計(jì)的廣泛應(yīng)用性?！?/p>

Theodoris 認(rèn)為，這項(xiàng)突破性的研究展現(xiàn)了如何在計(jì)算最優(yōu)的架構(gòu)下實(shí)現(xiàn)數(shù)據(jù)和模型規(guī)模的合理配置，不僅對未來更大規(guī)模的基因組建模有指導(dǎo)意義，也標(biāo)志著基因組大模型與自然語言處理的跨領(lǐng)域創(chuàng)新。

不足和展望

盡管 Evo 生成的基因組規(guī)模序列（約1 Mb）在編碼密度、GC含量、蛋白質(zhì)結(jié)構(gòu)預(yù)測、tRNA生成等方面高度接近天然基因組，但目前研究仍有瓶頸。

首先，Evo 模型在僅含 3000 億原核生物 token 的數(shù)據(jù)集預(yù)訓(xùn)練，相比海量公開基因組數(shù)據(jù)只是一小部分，這導(dǎo)致其預(yù)測人類蛋白質(zhì)突變功能效應(yīng)的能力受限。

其次，與自然語言模型類似，Evo 在生成長序列時(shí)難以保證連貫性和多樣性。例如，生成 CRISPR - Cas 序列時(shí)會有 cas 基因缺失或不完整問題，生成百萬堿基長的基因組序列時(shí)難以涵蓋全套 rRNAs 等關(guān)鍵 token 基因，影響序列完整性和可用性。

研究團(tuán)隊(duì)指出，未來將通過擴(kuò)大數(shù)據(jù)集、增加模型規(guī)模、豐富訓(xùn)練上下文等手段提升 Evo 的性能。

在功能拓展方面，利用基因組語言模型引導(dǎo)多基因系統(tǒng)定向進(jìn)化，提高多基因環(huán)境下分子結(jié)構(gòu)預(yù)測的準(zhǔn)確性，并通過優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心，從關(guān)系或語義層面挖掘宏基因組信息。

在數(shù)據(jù)拓展和安全方面，計(jì)劃納入真核基因組，但因其復(fù)雜性高，需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)模基因組改造進(jìn)展，Evo 將推動生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。

在數(shù)據(jù)拓展和安全方面，計(jì)劃納入真核基因組，但因其復(fù)雜性高，需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)?；蚪M改造進(jìn)展，Evo 將推動生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。

Theodoris 預(yù)測，未來模型可能學(xué)習(xí)人類及其他真核生物基因組，從而更有效地預(yù)測基因組中長距離調(diào)控交互的影響。

他還設(shè)想，通過環(huán)境因素或細(xì)胞狀態(tài)的提示，可以進(jìn)一步引導(dǎo) Evo，使其能夠在多細(xì)胞生物中根據(jù)不同的時(shí)空條件執(zhí)行特定的細(xì)胞功能。

Evo 模型的安全與倫理考量

值得關(guān)注的是，生物技術(shù)是一把雙刃劍，像 Evo 這樣的強(qiáng)大基因組基礎(chǔ)模型在帶來科研突破的同時(shí)，也引發(fā)了一些安全與倫理的討論。

例如，惡意用戶可能利用 Evo 生成抗藥性或免疫逃逸的微生物，盡管實(shí)際操作難度較大，但隨著基因工程工具的普及，有必要對模型使用權(quán)限進(jìn)行嚴(yán)格監(jiān)管，明確“濫用”行為的界定，以確保 Evo 的安全使用。

此外，Evo 的開源性為科研帶來了透明性，但其應(yīng)用資源的分配也可能引發(fā)科技不平等。

目前，主要能有效運(yùn)用 Evo 的機(jī)構(gòu)多集中于生物技術(shù)公司和大型科研組織，這可能加劇科技紅利在特定人群中的集中。為實(shí)現(xiàn)全球科技紅利的均衡，國際社會有必要推動資源匱乏地區(qū)的技術(shù)培訓(xùn)與支持，以彌合科技應(yīng)用的差距。

在生態(tài)層面，盡管 Evo 本身不會直接操控基因，但其生成的基因編輯系統(tǒng)可能帶來生態(tài)挑戰(zhàn)?；蚓庉嬌矬w釋放到自然環(huán)境中可能引發(fā)生態(tài)失衡。為此，研究團(tuán)隊(duì)建議，全球科學(xué)界應(yīng)制定更為嚴(yán)格的基因工程準(zhǔn)則，以確?？茖W(xué)技術(shù)在尊重自然生態(tài)的前提下造福人類。

Evo 的誕生標(biāo)志著生成式基因組學(xué)進(jìn)入了一個(gè)新時(shí)代。

作為一款具備跨物種基因預(yù)測和生成能力的基礎(chǔ)模型，Evo 不僅在基因組設(shè)計(jì)、藥物開發(fā)等領(lǐng)域展現(xiàn)了前所未有的潛力，也推動了生命科學(xué)領(lǐng)域的創(chuàng)新。

然而，在推動技術(shù)進(jìn)步的同時(shí)，科學(xué)家們也需保持對安全、社會公平和生態(tài)保護(hù)的高度關(guān)注。通過制定完善的政策和全球協(xié)作，確保 Evo 模型的負(fù)責(zé)任應(yīng)用，生成式基因組學(xué)將在未來迎來更加廣闊的應(yīng)用前景。

作者：田小婷

編輯：學(xué)術(shù)君

Science最新封面：AI大模型跨越物種邊界，解碼生命“密碼全書

微信扫一扫：分享