版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

登Nature子刊!北大團(tuán)隊(duì)用AI預(yù)測(cè)新冠/艾滋病/流感病毒進(jìn)化方向,精度提升67%

HyperAI超神經(jīng)
原創(chuàng)
人工智能說(shuō)明書,了解 AI 的功效和副作用。
收藏

2019 年 12 月,新冠疫情 (COVID-19) 突然爆發(fā),這種由 SARS-CoV-2 病毒引起的疾病具有高度傳染性,僅一個(gè)月時(shí)間,我國(guó)病例涉及人數(shù)就超過(guò)了 1,000 例,并迅速蔓延至全球。

為了抵抗病毒的進(jìn)一步傳播,我國(guó)在 2021 年年初推出了全民免費(fèi)接種疫苗政策,然而,即使在疫苗的加持下,這場(chǎng)健康危機(jī)也變得越來(lái)越復(fù)雜。這是因?yàn)?SARS-CoV-2 病毒通過(guò)不斷變異,逐漸適應(yīng)了疫苗產(chǎn)生的免疫壓力以及變化的環(huán)境條件,最初在武漢發(fā)現(xiàn)的「病毒株」早已消失,取而代之的則是各種各樣的變異毒株,持續(xù)引發(fā)著新一輪感染浪潮,其影響一直延續(xù)到 2023 年之后。

無(wú)獨(dú)有偶,就在最近,流感病毒陽(yáng)性率持續(xù)攀升,許多人不知不覺(jué)間便感染了甲型流感(簡(jiǎn)稱甲流),與 SARS-CoV-2 病毒相似,甲流也具有傳染性強(qiáng)、傳播速度快、變異速度較快的特點(diǎn),同一個(gè)季節(jié)內(nèi)可能出現(xiàn)多個(gè)亞型病毒,這也增加了人群短時(shí)間內(nèi)重復(fù)感染的風(fēng)險(xiǎn)。

由此可見(jiàn),病毒進(jìn)化方向預(yù)測(cè)對(duì)防控和疫苗藥物設(shè)計(jì)至關(guān)重要。然而,突變作為病毒進(jìn)化的基礎(chǔ),其高度隨機(jī)性導(dǎo)致通常情況下只有極少數(shù)突變能夠「恰好」增加病毒的適應(yīng)性,這種正樣本(有益突變)和負(fù)樣本(有害突變)的不平衡問(wèn)題使得訓(xùn)練一個(gè)能夠預(yù)測(cè)病毒稀少有益突變的深度學(xué)習(xí)模型及其困難。與此同時(shí),病毒往往僅有少數(shù)位點(diǎn)會(huì)發(fā)生突變,這讓神經(jīng)網(wǎng)絡(luò)難以直接捕獲突變引起的微弱分子內(nèi)相互作用變化,也對(duì)建模造成了困擾。

對(duì)此,北京大學(xué)信息工程學(xué)院田永鴻教授、陳杰副教授,聯(lián)合廣州國(guó)家實(shí)驗(yàn)室周鵬研究員指導(dǎo)博士生聶志偉、碩士生劉旭東等,重新審視病毒進(jìn)化的預(yù)測(cè)難題,提出了一種進(jìn)化驅(qū)動(dòng)的病毒變異驅(qū)動(dòng)力預(yù)測(cè)框架 E2VD,該框架可以對(duì) SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的進(jìn)化方向進(jìn)行預(yù)測(cè),顯著提升了人類對(duì)新發(fā)病毒感染的響應(yīng)速度,為疫苗和藥物的快速優(yōu)化提供了重要支持。

研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」為題于 2025 年 1 月 17 日發(fā)表在《Nature Machine Intelligence》上。

數(shù)據(jù)集:UniRef90 預(yù)訓(xùn)練數(shù)據(jù)集和病毒深度突變掃描數(shù)據(jù)集

病毒在進(jìn)化過(guò)程中會(huì)不斷產(chǎn)生新突變并進(jìn)行選擇性累積,因此,針對(duì)進(jìn)化場(chǎng)景的蛋白質(zhì)語(yǔ)言模型需要具備強(qiáng)大的零樣本泛化能力,即能夠處理未見(jiàn)過(guò)的突變情況。為了實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)選擇了 UniRef90 作為蛋白質(zhì)語(yǔ)言模型預(yù)訓(xùn)練的數(shù)據(jù)集。UniRef90 包含豐富的序列層面進(jìn)化信息,同時(shí)不會(huì)在模型訓(xùn)練初期對(duì)性能造成負(fù)面影響。這種豐富的進(jìn)化信息讓模型在預(yù)訓(xùn)練過(guò)程中接觸到足夠多的蛋白質(zhì)家族序列樣本,從而提升其零樣本泛化能力。

此外,為了支持模型學(xué)習(xí)病毒突變引所致進(jìn)化適應(yīng)度景觀,研究團(tuán)隊(duì)采用了各類病毒的開(kāi)源深度突變掃描數(shù)據(jù)集。

模型架構(gòu):進(jìn)化啟發(fā)的通用架構(gòu)設(shè)計(jì)

研究團(tuán)隊(duì)基于「微弱突變放大」和「稀少有益突變挖掘」的設(shè)計(jì),提出了進(jìn)化驅(qū)動(dòng)的病毒變異驅(qū)動(dòng)力預(yù)測(cè)框架 E2VD。如下圖 a 所示,主要包括 3 個(gè)模塊,分別是蛋白質(zhì)序列編碼、局部-全局相互作用依賴融合 (Local-global dependence coupling) 和多任務(wù)焦點(diǎn)學(xué)習(xí) (Multi-task focal learning)。


E2VD 模型架構(gòu)

* 首先,在蛋白質(zhì)序列編碼模塊,研究團(tuán)隊(duì)自主訓(xùn)練了面向病毒進(jìn)化的定制化蛋白質(zhì)大語(yǔ)言模型 (Protein language model),可實(shí)現(xiàn)病毒蛋白序列特征的精準(zhǔn)提取;

* 其次,在局部-全局相互作用依賴融合模塊,研究人員利用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 捕捉突變與臨近氨基酸之間的相互作用依賴關(guān)系,并設(shè)計(jì)了可學(xué)習(xí)的動(dòng)態(tài)注意力機(jī)制,構(gòu)建突變所在 motif 級(jí)別的遠(yuǎn)程相互作用依賴網(wǎng)絡(luò)。這一設(shè)計(jì)有效解決了變異體整體突變較少導(dǎo)致的微弱效應(yīng)難以被捕獲的問(wèn)題;

* 然后,在多任務(wù)焦點(diǎn)學(xué)習(xí)模塊,結(jié)合了多任務(wù)學(xué)習(xí)和難樣本挖掘策略的優(yōu)勢(shì),通過(guò)多任務(wù)訓(xùn)練的參數(shù)共享來(lái)提升模型對(duì)于病毒突變適應(yīng)度的預(yù)測(cè)性能。

更重要的是,如上圖 b 所示,團(tuán)隊(duì)設(shè)計(jì)了新穎的多任務(wù)焦點(diǎn)學(xué)習(xí)損失函數(shù) (Multi-task focal loss),促使模型在訓(xùn)練時(shí)更加關(guān)注難以被有效學(xué)習(xí)的稀少有益突變,從而大幅度提升對(duì)于稀少有益突變(即難樣本)的預(yù)測(cè)表現(xiàn)。

此外,如上圖 c 所示,E2VD 預(yù)測(cè)框架可以針對(duì)各類病毒適應(yīng)度預(yù)測(cè)任務(wù)進(jìn)行輸入和輸出的靈活調(diào)整,例如預(yù)測(cè)突變所致結(jié)合親和力變化可以僅輸入病毒序列、預(yù)測(cè)突變所致抗體逃逸能力變化可同時(shí)輸入病毒序列和抗體序列等,從而在統(tǒng)一的架構(gòu)上實(shí)現(xiàn)跨病毒類型、跨毒株的高精度進(jìn)化預(yù)測(cè)。
具體而言,在研究中,E2VD 框架被用于 SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的相關(guān)預(yù)測(cè)任務(wù):

* 針對(duì) SARS-CoV-2 的任務(wù)包括結(jié)合親和力 (Binding affinity)、表達(dá)量 (Expression) 和抗體逃逸 (Antibody escape) 的預(yù)測(cè),這 3 個(gè)任務(wù)是病毒變異的關(guān)鍵驅(qū)動(dòng)因子。

* 針對(duì) Influenza、Zika 和 HIV 病毒的任務(wù)則是預(yù)測(cè)突變導(dǎo)致的適應(yīng)度效應(yīng),用來(lái)分析模型的泛化能力。
實(shí)驗(yàn)結(jié)果:E2VD 預(yù)測(cè)有益突變的精度提升 67%,泛化性能極佳
E2VD 可精準(zhǔn)捕獲病毒進(jìn)化模式,預(yù)測(cè)有益突變的精度提升 67%

團(tuán)隊(duì)比較了面向進(jìn)化場(chǎng)景的定制化蛋白質(zhì)語(yǔ)言與主流蛋白質(zhì)語(yǔ)言模型的預(yù)測(cè)表現(xiàn),結(jié)果表明,團(tuán)隊(duì)定制化的蛋白質(zhì)語(yǔ)言模型以最少的 340M 模型參數(shù)量實(shí)現(xiàn)了最佳的預(yù)測(cè)表現(xiàn),甚至超越了參數(shù)量為其 44 倍的 ESM2-15B 的效果,這證明了定制化的預(yù)訓(xùn)練數(shù)據(jù)集和訓(xùn)練策略的有效性。

隨后,團(tuán)隊(duì)在各類關(guān)鍵病毒進(jìn)化驅(qū)動(dòng)力預(yù)測(cè)任務(wù)下比較了 E2VD 與主流方法,結(jié)果表明 E2VD 顯著超越其他方法,性能提升在 7%-21% 不等。進(jìn)一步地,為了證明 E2VD 精準(zhǔn)捕獲病毒進(jìn)化模式的能力,比如對(duì)不同類型突變的精準(zhǔn)區(qū)分、對(duì)稀少有益突變的精準(zhǔn)挖掘,研究人員進(jìn)行了多個(gè)實(shí)驗(yàn)。

a: w/o MT 代表沒(méi)有 MT 模塊的 E2VD;w/o LG 代表沒(méi)有 LG 模塊的 E2VD;w/o MT&LG 代表沒(méi)有 MT&LG 模塊的 E2VD

b: 結(jié)合親和力預(yù)測(cè)任務(wù)中描述的風(fēng)險(xiǎn)等級(jí)的 3 種突變類型

d: 不同損失在捕捉稀有有益突變方面的能力

首先,用模塊消融研究以探討局部-全局相互作用依賴融合 (LG) 模塊和多任務(wù)焦點(diǎn)學(xué)習(xí) (MT) 模塊對(duì)預(yù)測(cè)性能的貢獻(xiàn)。如上圖 a 所示,研究發(fā)現(xiàn),MT 模塊在挖掘病毒適應(yīng)性中的稀缺有益突變方面是有效的(召回率從 0 提升到 69.63%)。將 LG 模塊和 MT 模塊結(jié)合使用,可以進(jìn)一步提高模型性能,準(zhǔn)確率達(dá)到 91.11%,召回率達(dá)到 96.3%,相關(guān)系數(shù)達(dá)到 0.87。

團(tuán)隊(duì)提出的多任務(wù)焦點(diǎn)損失函數(shù) (Multi-task Focal Loss) 可顯著改善預(yù)測(cè)表現(xiàn)。為了評(píng)估多任務(wù)焦點(diǎn)損失在捕捉稀有有益突變方面的能力,研究人員選擇代表性的有益突變和有害突變組成測(cè)試集。

* 在有益突變上的預(yù)測(cè),如上圖 d 所示,E2VD 將稀少有益突變的預(yù)測(cè)精度從 13% 提升至 80%,實(shí)現(xiàn)了跨越式精度提升,從而精準(zhǔn)和高效挖掘?qū)τ诓《具M(jìn)化至關(guān)重要的稀少有益突變。

* 對(duì)于有害突變,多任務(wù)焦點(diǎn)損失和傳統(tǒng) BCE&MSE 表現(xiàn)相似,這是因?yàn)?BCE&MSE 無(wú)法幫助模型學(xué)習(xí)稀缺的有益突變,從而使得模型傾向于將所有突變預(yù)測(cè)為有害突變。

如下圖 b 所示,研究人員用主成分分析 (PCA) 對(duì)流感、寨卡和艾滋病病毒中 3 種類型的突變進(jìn)行降維可視化,結(jié)果發(fā)現(xiàn),在 LG 模塊處理后,不同突變的特征被清晰地區(qū)分開(kāi),邊界明確。這說(shuō)明,LG 通過(guò)捕獲和重建分子內(nèi)相互作用網(wǎng)絡(luò),可增強(qiáng) E2VD 對(duì)各種突變類型的敏感性,從而更好地理解病毒的進(jìn)化適應(yīng)性。


流感、寨卡和艾滋病病毒預(yù)測(cè)任務(wù)中 3 種突變類型的可視化分析
E2VD 泛化性能極佳,可跨病毒類型、跨毒株進(jìn)行預(yù)測(cè)

病毒在選擇壓力下不斷進(jìn)化,會(huì)導(dǎo)致多種毒株的出現(xiàn),例如最近備受關(guān)注的流感病毒就包括多種類型,且呈現(xiàn)季節(jié)性的變異。因此,模型的泛化能力對(duì)于應(yīng)對(duì)復(fù)雜的病毒進(jìn)化趨勢(shì)至關(guān)重要,研究人員提出「序?qū)Ρ壤?Ordinal Pair Proportion, OPP) 來(lái)評(píng)估模型在同種病毒不同毒株,不同類型病毒預(yù)測(cè)任務(wù)上的泛化能力。

* OPP 表示在所有突變對(duì)中正確預(yù)測(cè)突變對(duì)的比例,OPP 值越大,預(yù)測(cè)的適應(yīng)性景觀越不混亂,表明模型預(yù)測(cè)病毒變異驅(qū)動(dòng)因子的相對(duì)順序的能力更加理想

如下圖 b 所示,對(duì)于跨毒株的結(jié)合親和力預(yù)測(cè)任務(wù),研究人員評(píng)估了 6 種不同毒株以及所有毒株混合數(shù)據(jù) (All) 的 OPP,結(jié)果發(fā)現(xiàn),E2VD 在各類情況下都顯著超越其他方法。如下圖 c 所示,在表達(dá)水平預(yù)測(cè)任務(wù)上,E2VD 也在絕大多數(shù)毒株上優(yōu)于其他方法??傮w而言,E2VD 在分布外毒株上全面超越了最先進(jìn)的方法,表現(xiàn)出高度泛化性能。


* b、c:E2VD 預(yù)測(cè)病毒不同毒株的 OPP;d、e、f:E2VD 預(yù)測(cè)不同類型病毒的性能

如上圖 d、e、f 所示,在跨病毒類型預(yù)測(cè)上,研究人員發(fā)現(xiàn),E2VD 在新冠病毒、寨卡病毒、流感病毒、艾滋病病毒上展現(xiàn)出理想的泛化能力,全面超越其他方法,未來(lái)或可進(jìn)一步拓展至更多傳染性病毒。

AI 預(yù)測(cè)病毒進(jìn)化具備巨大潛力

上述研究從進(jìn)化論的角度重新探索病毒進(jìn)化預(yù)測(cè)問(wèn)題,構(gòu)建了適用于不同病毒類型、不同毒株的通用進(jìn)化預(yù)測(cè)框架 E2VD,該框架在多個(gè)病毒變異驅(qū)動(dòng)因子預(yù)測(cè)任務(wù)中表現(xiàn)出卓越的預(yù)測(cè)性能和泛化能力,使預(yù)測(cè)病毒進(jìn)化趨勢(shì)成為可能。進(jìn)一步地,E2VD 的靈活定制化組合也可以實(shí)現(xiàn)不同尺度的進(jìn)化趨勢(shì)預(yù)測(cè)。

* 首先,E2VD 能夠解釋大流行病中病毒進(jìn)化的路徑,幫助我們理解毒株流行的原因及其背后的分子機(jī)制。

* 其次,結(jié)合虛擬深度突變掃描模擬,E2VD 能夠預(yù)測(cè)可能帶來(lái)的高風(fēng)險(xiǎn)突變,達(dá)到 80% 的命中率。

* 最后,E2VD 還實(shí)現(xiàn)了大流行尺度的宏觀進(jìn)化軌跡預(yù)測(cè),重現(xiàn)病毒在真實(shí)世界中的進(jìn)化路徑,從而為病毒進(jìn)化機(jī)制的解讀提供理論性支撐。

未來(lái),團(tuán)隊(duì)計(jì)劃將 E2VD 與疫苗和蛋白藥物設(shè)計(jì)流程相結(jié)合,以提高設(shè)計(jì)的效率和可控性,這將對(duì)病毒防治和藥物設(shè)計(jì)產(chǎn)生極大意義。

值得一提的是,該研究的作者是隸屬北京大學(xué)信息工程學(xué)院的田永鴻教授、陳杰副教授及其指導(dǎo)的博士生聶志偉、碩士生劉旭東等,團(tuán)隊(duì)持續(xù)著眼于 AI for Life Science 領(lǐng)域的研究,其項(xiàng)目「領(lǐng)先于病毒的進(jìn)化——通過(guò)人工智能模擬預(yù)測(cè)未來(lái)高風(fēng)險(xiǎn)新冠病毒變異株」曾于 2022 年 11 月成功入圍 2022 年度「戈登貝爾新冠特別獎(jiǎng)」(戈登貝爾獎(jiǎng)是國(guó)際上高性能計(jì)算應(yīng)用領(lǐng)域的最高學(xué)術(shù)獎(jiǎng)項(xiàng))。

在病毒進(jìn)化預(yù)測(cè)領(lǐng)域,團(tuán)隊(duì)擁有深厚積累。2023 年 7 月,團(tuán)隊(duì)在 The International Journal of High Performance Computing Applications 上發(fā)表「Running ahead of evolution—AI-based simulation for predicting future high-risk SARS-CoV-2 variants」。具體而言,研究人員預(yù)訓(xùn)練一個(gè)大型蛋白質(zhì)語(yǔ)言模型,并構(gòu)建了基于結(jié)合親和力和抗體逃逸預(yù)測(cè)的高通量篩選方法。這是首個(gè)針對(duì) SARS-CoV-2 RBD 突變模擬的研究,模型成功識(shí)別了 5 個(gè)關(guān)切變異株 RBD 區(qū)域的突變,并在幾秒內(nèi)篩選出數(shù)百萬(wàn)個(gè)潛在變體,為疫情防控提供了一種「AI+HPC」(人工智能+高性能計(jì)算)范式的技術(shù)手段。

除此之外,團(tuán)隊(duì)發(fā)展了一系列面向生命科學(xué)的基礎(chǔ)模型。以對(duì)于酶工程至關(guān)重要的「酶-底物」相互作用預(yù)測(cè)任務(wù)為例,團(tuán)隊(duì)在 2024 年 12 月放出預(yù)印本文章,提出了一個(gè)多用途酶-底物相互作用預(yù)測(cè)的漸進(jìn)式條件深度學(xué)習(xí)框架 MESI。

具體而言,通過(guò)將酶-底物相互作用的建模解耦為兩階段學(xué)習(xí)過(guò)程,兩個(gè)條件網(wǎng)絡(luò)被設(shè)計(jì)分別引入酶反應(yīng)特異性和關(guān)鍵催化相互作用信息,從而促進(jìn)特征隱空間從蛋白質(zhì)和小分子的通用領(lǐng)域逐漸過(guò)渡到催化感知領(lǐng)域。在各種下游任務(wù)中,該模型在始終優(yōu)于最先進(jìn)的方法。此外,提出的條件網(wǎng)絡(luò)隱式捕獲了酶催化的基本模式,而額外的計(jì)算開(kāi)銷可以忽略不計(jì)。在這種條件感知機(jī)制的支持下,該模型可以在不需要任何結(jié)構(gòu)信息的情況下,以高效低成本的方式準(zhǔn)確識(shí)別活性位點(diǎn),挖掘參與關(guān)鍵催化相互作用的酶殘基和底物官能團(tuán)。

在人工智能的輔助下,團(tuán)隊(duì)將會(huì)進(jìn)一步推動(dòng) AI for life science 相關(guān)領(lǐng)域的深入研究,為病毒預(yù)測(cè)、蛋白質(zhì)類藥物設(shè)計(jì)、疫苗研發(fā)等開(kāi)辟更多可能性,期待他們的更多成果。

評(píng)論
飛馬騰空
大學(xué)士級(jí)
閱讀理解
2025-02-04