版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AI助力RNA病毒研究歷史性突破,中山大學(xué)等用深度學(xué)習(xí)模型,發(fā)現(xiàn)超過(guò)16萬(wàn)種新病毒

HyperAI超神經(jīng)
原創(chuàng)
人工智能說(shuō)明書,了解 AI 的功效和副作用。
收藏

2020 年初,新冠病毒的陰影迅速籠罩全球。在這場(chǎng)與時(shí)間的賽跑中,我們見證了無(wú)數(shù)英勇的個(gè)體和團(tuán)隊(duì)挺身而出,社會(huì)體系經(jīng)歷了一次次嚴(yán)峻考驗(yàn),也為全球的公共衛(wèi)生領(lǐng)域敲響了警鐘。

冠狀病毒之所以令人畏懼,很大程度上是因?yàn)樗鼘儆?RNA 病毒。這類病毒在復(fù)制過(guò)程中缺乏糾錯(cuò)機(jī)制,容易發(fā)生突變。這種突變能力不僅允許 RNA 病毒跨物種傳播,擴(kuò)大宿主范圍,還可能引發(fā)致病力的變化。原本對(duì)人類無(wú)害的病毒,一旦發(fā)生突變,就可能變得具有致病性,從而引發(fā)疾病。由于人類對(duì)這類突變病毒普遍缺乏免疫力,一旦病毒發(fā)生變異,就可能迅速引發(fā)大規(guī)模的疾病流行。

盡管病毒與人類健康密切相關(guān),但人類已知已確認(rèn)的病毒種類僅有 5,000 余種,可謂是冰山一角。傳統(tǒng) RNA 病毒鑒定方法高度依賴序列同源性比對(duì),即通過(guò)比較未知病毒與已知病毒的序列相似性來(lái)進(jìn)行識(shí)別。但是,由于 RNA 病毒種類繁多且高度分化,傳統(tǒng)方法難以捕捉缺乏同源性或同源性極低的「暗物質(zhì)病毒」,這限制了新病毒發(fā)現(xiàn)的效率。

在過(guò)去 10 年中,人工智能相關(guān)方法,尤其是深度學(xué)習(xí)算法,在生命科學(xué)領(lǐng)域的各個(gè)研究領(lǐng)域產(chǎn)生了重大影響。AI 與病毒學(xué)研究的結(jié)合,正在為人類突破 RNA 病毒鑒定這一難題提供新方法。

近日,**中山大學(xué)醫(yī)學(xué)院的施莽教授聯(lián)合浙江大學(xué)、復(fù)旦大學(xué)、中國(guó)農(nóng)業(yè)大學(xué)、香港城市大學(xué)、廣州大學(xué)、悉尼大學(xué)、阿里云飛天實(shí)驗(yàn)室等,提出了全新的深度學(xué)習(xí)模型 LucaProt。**該模型利用云計(jì)算與 AI 技術(shù),發(fā)現(xiàn)了 180 個(gè)超群、16 萬(wàn)余種全新 RNA 病毒,是已知病毒種類的近 30 倍,大幅提升了業(yè)界對(duì) RNA 病毒多樣性和病毒演化歷史的認(rèn)知。該研究還發(fā)現(xiàn)了迄今為止最長(zhǎng)的 RNA 病毒基因組,長(zhǎng)度達(dá)到 47,250 個(gè)核苷酸,這標(biāo)志著在 RNA 病毒鑒定領(lǐng)域取得了重大突破。

該研究以「Using artificial intelligence to document the hidden RNA virosphere」為題,發(fā)表在國(guó)際學(xué)術(shù)期刊 Cell 上。

研究亮點(diǎn):

* 人工智能驅(qū)動(dòng)的宏基因組挖掘技術(shù),實(shí)現(xiàn)了全球 RNA 病毒多樣性的空前擴(kuò)展

* 通過(guò)精確鑒定,揭露了 161,979 種潛在 RNA 病毒物種和 180 個(gè)病毒超群的存在

* 該研究發(fā)現(xiàn)迄今為止最長(zhǎng)的 RNA 病毒基因組,可能具有模塊化的結(jié)構(gòu)特征

數(shù)據(jù)集:涵蓋全球各類生態(tài)系統(tǒng), RNA 病毒存在多樣性

該研究首先對(duì) NCBI SRA、CNGBdb 等數(shù)據(jù)庫(kù)進(jìn)行了系統(tǒng)搜索,旨在對(duì)全球范圍內(nèi)各種生態(tài)系統(tǒng)中的 RNA 病毒多樣性進(jìn)行深入研究。

如下圖 A 所示,研究團(tuán)隊(duì)總共從全球生物環(huán)境樣本中篩選出來(lái)了 10,487 份數(shù)據(jù),**涉及的總測(cè)序數(shù)據(jù)達(dá)到了 51 TB,產(chǎn)生了超過(guò) 13 億個(gè)片段和 8.72 億個(gè)預(yù)測(cè)蛋白。**利用這些龐大的數(shù)據(jù)集,研究者們揭示并驗(yàn)證了潛在的病毒 RdRP,并通過(guò) 2 種不同的策略進(jìn)行了交叉驗(yàn)證。

RNA 病毒研究概述

通過(guò)合并 2 種搜索策略的結(jié)果,**該研究發(fā)現(xiàn)了 513,134 條病毒基因組,這些基因組代表了 161,979 個(gè)潛在的病毒種和 180 個(gè) RNA 病毒超群。**這一發(fā)現(xiàn)顯著擴(kuò)展了該研究對(duì) RNA 病毒超群數(shù)量的認(rèn)識(shí),將其擴(kuò)容約 9 倍,病毒種類增加了約 30 倍。

如下圖 C 所示,該研究通過(guò)與其他研究中的 RdRP 蛋白序列進(jìn)行比較,共揭示了 70,458 個(gè)新識(shí)別的潛在獨(dú)特病毒物種。

該研究的病毒超群分析

**該研究還揭示了 60 個(gè)以前未被識(shí)別的和未充分探索的超群,**這些超群迄今為止僅受到有限的關(guān)注。特別值得注意的是,如下圖 D 所示,該研究發(fā)現(xiàn)其中 23 個(gè)超群無(wú)法通過(guò)傳統(tǒng)的序列同源方法識(shí)別,這些被稱為病毒圈的「暗物質(zhì)」。

不同的 RNA 病毒簇和 RNA 病毒超群

LucaProt:基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型,為病毒學(xué)研究開創(chuàng)全新范式

該研究開發(fā)了一個(gè)基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型,即 LucaProt。如下圖 E 所示,LucaProt 由 5 個(gè)核心模塊組成:Input、Tokenizer、Encoder、Pooling和 Output:

* Input:主要負(fù)責(zé)接收氨基酸序列;

* Tokenizer:主要負(fù)責(zé)將原始序列轉(zhuǎn)換為模型可以理解的格式。這一模塊包括構(gòu)建一個(gè)由病毒 RdRP 序列和非病毒 RdRP 序列組成的語(yǔ)料庫(kù),并使用 BPE 算法創(chuàng)建詞匯表,將蛋白質(zhì)序列分解為單個(gè)氨基酸以提取結(jié)構(gòu)信息;

* Encoder:主要負(fù)責(zé)將數(shù)據(jù)轉(zhuǎn)換為 2 種表示形式,一種是通過(guò) Transformer-Encoder 生成的序列表示矩陣,另一種是通過(guò)結(jié)構(gòu)預(yù)測(cè)模型 ESMFold 產(chǎn)生的結(jié)構(gòu)表示矩陣。這種雙軌表示方法既解決了 3D 結(jié)構(gòu)數(shù)據(jù)稀缺的問(wèn)題,又提高了計(jì)算效率;

* Pooling:主要負(fù)責(zé)通過(guò)值級(jí)注意力池化方法 (VLAP) 將序列矩陣和結(jié)構(gòu)矩陣轉(zhuǎn)換為 2 個(gè)向量,為有效分類減少維度并精選特征。

* Output:主要負(fù)責(zé)將這些向量轉(zhuǎn)換成一個(gè)概率值,指示樣本為病毒 RdRP 的可能性。通過(guò) sigmoid 函數(shù),將序列分類為病毒 RdRP 或非病毒 RdRP。

LucaProt 的 RdRP 識(shí)別方法

最終,**該研究精心籌備了包含 235,413 個(gè)樣本的數(shù)據(jù)集,**旨在提升模型的準(zhǔn)確性和泛化能力。這個(gè)數(shù)據(jù)集由 5,979 種已充分研究過(guò)的病毒 RdRP (陽(yáng)性樣本) 和 229,434 個(gè)非病毒 RdRP (陰性樣本) 組成,基于 Transformer 框架與大模型表征技術(shù),結(jié)合蛋白質(zhì)序列和內(nèi)在結(jié)構(gòu)性特征,在準(zhǔn)確性、效率和檢測(cè)到的病毒多樣性方面均優(yōu)于傳統(tǒng)方法。

更重要的是,LucaProt 不僅整合了序列數(shù)據(jù),還結(jié)合了結(jié)構(gòu)信息,這對(duì)于準(zhǔn)確預(yù)測(cè)蛋白質(zhì)功能至關(guān)重要。

識(shí)別出超出以往認(rèn)知的基因組結(jié)構(gòu),發(fā)現(xiàn)迄今為止最長(zhǎng)的 RNA 病毒基因組

為了全面評(píng)估 LucaProt 的性能,該研究進(jìn)行了多角度的深入分析,以確保對(duì)其準(zhǔn)確性和效率進(jìn)行全面的驗(yàn)證:

* LucaProt 的效能評(píng)估

* 驗(yàn)證和確認(rèn)新發(fā)現(xiàn)的病毒超群是否為 RNA 病毒

* RNA 病毒基因組結(jié)構(gòu)的模塊化和靈活性分析

* RNA 病毒系統(tǒng)發(fā)育多樣性分析

* 全球 RNA 病毒的生態(tài)結(jié)構(gòu)分析

5 種方法共同參與效能評(píng)估,LucaProt 的表現(xiàn)最為全面

為了評(píng)估 LucaProt 的效能,該研究將其與其他 4 種病毒發(fā)現(xiàn)工具進(jìn)行了基準(zhǔn)測(cè)試。結(jié)果表明,如圖 A 所示,LucaProt 在保持相對(duì)較低的假陽(yáng)性率的同時(shí),展現(xiàn)出了最高的召回率。

召回率、精度和假陽(yáng)性率分析

在計(jì)算效率方面,如圖 E 所示,LucaProt 在處理不同長(zhǎng)度的數(shù)據(jù)集時(shí),基于 6 個(gè)數(shù)據(jù)集的平均計(jì)算時(shí)間,展現(xiàn)了更為合理的效率。

基于6個(gè)不同長(zhǎng)度數(shù)據(jù)集計(jì)算的平均時(shí)間

最后,LucaProt 中集成的高級(jí) Transformer 架構(gòu),允許對(duì)更長(zhǎng)的氨基酸序列進(jìn)行并行處理,如圖 F-H 所示。這種架構(gòu)在捕獲序列空間中遙遠(yuǎn)部分之間的關(guān)系方面,比其它生物信息學(xué)工具中常用的 CNN/RNN 編碼器更為有效。

基于測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果比較

新發(fā)現(xiàn)RNA病毒超群的驗(yàn)證與結(jié)構(gòu)特征確認(rèn),大多與現(xiàn)有 RdRP 表現(xiàn)出序列相似性

研究團(tuán)隊(duì)對(duì) 50 個(gè)環(huán)境樣本進(jìn)行了 DNA 和 RNA 的提取及測(cè)序,目的是驗(yàn)證這些樣本中鑒定的 115 個(gè)病毒超群的存在。如圖 B 所示,只有 RNA 測(cè)序讀數(shù)能夠成功映射到與病毒 RdRP 相關(guān)的序列,而 RNA 和 DNA 測(cè)序讀數(shù)則分別映射到了與 DNA 病毒、逆轉(zhuǎn)錄病毒 (RT) 和細(xì)胞生物相關(guān)的序列。

進(jìn)一步地,如圖 C 所示,通過(guò)應(yīng)用更靈敏的 RT-PCR 方法,研究團(tuán)隊(duì)在 115 個(gè)病毒超群中進(jìn)一步確認(rèn)了 17 個(gè)。在這些超群中,DNA 提取未能檢測(cè)到編碼病毒 RdRP 的序列,這進(jìn)一步證實(shí)了這些病毒超群確實(shí)是 RNA 生物。

RNA 病毒超群的真實(shí)性評(píng)價(jià)

研究發(fā)現(xiàn)迄今為止最長(zhǎng)的 RNA 病毒基因組

在深入分析假定 RNA 病毒基因組的組成和結(jié)構(gòu)時(shí),該研究發(fā)現(xiàn)盡管大多數(shù)基因組的長(zhǎng)度集中在大約 2,131 個(gè)核苷酸,但編碼 RdRP 的基因組或基因組片段在不同超群中長(zhǎng)度差異顯著。特別地,該研究從土壤樣本中鑒定出極長(zhǎng)的 RNA 病毒基因組,如圖 C 所示,其中一條基因組長(zhǎng)達(dá) 47.3 kb,**是目前已知最長(zhǎng)的 RNA 病毒之一。**在這超長(zhǎng)基因組中,該研究發(fā)現(xiàn)了一個(gè)額外的 ORF,位于第 50 端和 RdRP 編碼區(qū)之間,但其功能尚需進(jìn)一步研究。

病毒超群的基因組特征

RNA 病毒種的擴(kuò)展速度驚人,環(huán)境樣本中可能存在更多高度分化的 RNA 病毒

該研究還發(fā)現(xiàn),如下圖所示,與國(guó)際病毒分類委員會(huì) (ICTV) 定義的病毒種相比,RNA 病毒種的數(shù)量增加了 55.9 倍,與所有先前描述的 RdRP 序列相比也增加了 1.4 倍。這種擴(kuò)展在已知病毒群的多樣性增加中尤為明顯。

31 個(gè) RNA 病毒超群的系統(tǒng)發(fā)育多樣性分析

值得注意的是,一些之前僅由有限數(shù)量基因組代表的群體,例如 AstroPoty、Hypo、Yan 以及幾個(gè)新發(fā)現(xiàn)的超群,展現(xiàn)出了高水平的系統(tǒng)發(fā)育多樣性。例如,SG023 包含 1,232 種病毒,SG025 包含 466 種病毒,SG027 包含 475 種病毒。**這表明在環(huán)境樣本中可能存在更多高度分化的RNA病毒,**等待我們?nèi)グl(fā)現(xiàn)。

極端環(huán)境中的 RNA 病毒依舊存在多樣性

**該研究顯示 RNA 病毒遍布全球 1,612 個(gè)地點(diǎn)和 32 個(gè)生態(tài)系統(tǒng)。**如圖 A 所示,即便在多次研究過(guò)的生態(tài)樣本中,LucaProt 仍發(fā)現(xiàn)了 5-33.3% 的新病毒群,說(shuō)明 RNA 病毒的多樣性尚未充分挖掘,尤其是在土壤和水生環(huán)境。

研究還比較了不同生態(tài)系統(tǒng)中 RNA 病毒的 α 多樣性和豐度。如圖 C-D 所示,α 多樣性在凋落葉、濕地、淡水和廢水環(huán)境中最高,而豐度在南極沉積物、海洋沉積物和淡水生態(tài)系統(tǒng)中最高。巖鹽和地下環(huán)境中的多樣性和豐度最低,與宿主細(xì)胞數(shù)量少相符。極端生態(tài)亞型如溫泉和熱液噴口的 RNA 病毒多樣性低,但豐度適中。

全球 RNA 病毒的生態(tài)結(jié)構(gòu)

從學(xué)術(shù)到產(chǎn)業(yè),AI 在 RNA 病毒研究中的革命性進(jìn)展與未來(lái)展望

事實(shí)上,AI 在 RNA 病毒研究領(lǐng)域的應(yīng)用已經(jīng)成為科學(xué)探索的一股強(qiáng)大潮流。由中山大學(xué)施莽教授領(lǐng)銜的科研團(tuán)隊(duì)運(yùn)用 AI 技術(shù),取得了突破性進(jìn)展,發(fā)現(xiàn)了超過(guò) 16 萬(wàn)種新的 RNA 病毒,這一成就標(biāo)志著該領(lǐng)域的一個(gè)重要里程碑。

但早在 2022 年,一個(gè)國(guó)際研究團(tuán)隊(duì)在美國(guó)、法國(guó)、瑞士等國(guó)科學(xué)家的合作下,**就曾利用人工智能機(jī)器學(xué)習(xí)技術(shù),從全球海水樣本中鑒定出 5,500 種新的 RNA 病毒,**為RNA病毒數(shù)據(jù)庫(kù)的建立做出了貢獻(xiàn)。這項(xiàng)研究不僅拓寬了生態(tài)學(xué)研究的范疇,也加深了人們對(duì) RNA 病毒進(jìn)化的理解,為探索地球上早期生命的演化提供了新的線索。

該研究成果以「Cryptic and abundant marine viruses at the evolutionary origins of Earth’s RNA virome」為題已發(fā)表在 Science 雜志上。

當(dāng)然,AI 在 RNA 病毒研究中的應(yīng)用不僅限于未知領(lǐng)域的探索,對(duì)于已知領(lǐng)域的深入研究同樣至關(guān)重要。例如,COVID-19 作為一種 RNA 病毒,其基因組序列在全球共享的 GISAID 數(shù)據(jù)庫(kù)中已有近 1,600 萬(wàn)個(gè)。這些數(shù)據(jù)為研究提供了豐富的信息,但同時(shí)也需要大量的計(jì)算和人力資源來(lái)分析 COVID-19 的進(jìn)化和歷史。

為了應(yīng)對(duì)這一挑戰(zhàn),2024 年初,曼徹斯特大學(xué)和牛津大學(xué)的科學(xué)家們開發(fā)了一種 AI 框架,該框架能夠識(shí)別和追蹤新的和相關(guān)的 COVID-19 變體,未來(lái)可能有助于解決其他感染問(wèn)題。**這一框架結(jié)合了降維技術(shù)和曼徹斯特大學(xué)數(shù)學(xué)家開發(fā)的新型可解釋聚類算法 CLASSIX,能夠快速識(shí)別潛在風(fēng)險(xiǎn)的病毒基因組。**這項(xiàng)研究發(fā)表在「美國(guó)國(guó)家科學(xué)院院刊」上,為追蹤病毒進(jìn)化提供了新的方法,可能會(huì)對(duì)傳統(tǒng)的病毒進(jìn)化追蹤方法產(chǎn)生影響。

在產(chǎn)業(yè)界,RNA 病毒研究的探索同樣活躍。由于 RNA 病毒在復(fù)制過(guò)程中的高突變率,研究 RNA 病毒的疫苗開發(fā)一直是個(gè)難題。2023 年上半年,AI 輔助藥物研發(fā)的應(yīng)用日益增多,**百度加州分部的科學(xué)家利用 AI 對(duì) mRNA 疫苗進(jìn)行了深入的優(yōu)化,不僅在序列上,還在結(jié)構(gòu)上進(jìn)行了改進(jìn),提高了分子的穩(wěn)定性,**使其在人體內(nèi)保持更長(zhǎng)時(shí)間的活性。如果這一技術(shù)在安全性上得到驗(yàn)證,將成為新一代 RNA 疫苗研發(fā)的有力工具,也可能為 RNA 藥物研發(fā)領(lǐng)域提供新的思路。

到了 2023 年下半年,Deep Genomics 公司發(fā)布了「An RNA foundation model enables discovery of disease mechanisms and candidate therapeutics」,介紹了其獨(dú)特的人工智能基礎(chǔ)模型 BigRNA。**BigRNA 是首個(gè)用于 RNA 生物學(xué)和治療學(xué)的 Transformer 神經(jīng)網(wǎng)絡(luò),擁有近 20 億個(gè)可調(diào)參數(shù),并在包含 1 萬(wàn)億個(gè)基因組信號(hào)的數(shù)千個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,**代表了新一代深度學(xué)習(xí) AI,能夠應(yīng)用于多種不同的 RNA 治療發(fā)現(xiàn)任務(wù)。

展望未來(lái),AI 在 RNA 病毒研究中的應(yīng)用前景也相當(dāng)廣闊。隨著計(jì)算能力的提升和算法的改進(jìn),AI 或?qū)⒛軌蛱幚砀笠?guī)模的數(shù)據(jù)集,識(shí)別出更多未知的病毒種群,以及它們的宿主和傳播途徑。這不僅將加深人們對(duì) RNA 病毒在生態(tài)系統(tǒng)中作用的理解,還將為預(yù)防和控制未來(lái)可能出現(xiàn)的疫情提供強(qiáng)有力的支持。

此外,AI 在疫苗設(shè)計(jì)和藥物研發(fā)中的應(yīng)用,預(yù)示著人們可能也即將迎來(lái)更加個(gè)性化和精準(zhǔn)的醫(yī)療解決方案,為全球公共衛(wèi)生安全帶來(lái)了新的希望。