版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

入選NeurIPS 24!浙大團(tuán)隊(duì)提出全新去噪蛋白質(zhì)語言模型DePLM,突變效應(yīng)預(yù)測優(yōu)于SOTA模型

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

作為生物功能的主要載體,蛋白質(zhì)結(jié)構(gòu)和功能在數(shù)十億年的進(jìn)化中所展示出的多樣性,為藥物發(fā)現(xiàn)和材料科學(xué)等領(lǐng)域的進(jìn)步提供了重要機(jī)遇,然而,現(xiàn)有蛋白質(zhì)的固有特性(如熱穩(wěn)定性)在許多情況下往往無法滿足實(shí)際需求。因此,研究人員致力于通過優(yōu)化蛋白質(zhì)來增強(qiáng)其特性。

傳統(tǒng)的深度突變掃描 (DMS) 和定向進(jìn)化 (DE) 依賴于昂貴的濕實(shí)驗(yàn)技術(shù),與之相比,基于機(jī)器學(xué)習(xí)的方法能夠快速評估突變效果,對高效的蛋白質(zhì)優(yōu)化至關(guān)重要。**其中,一種應(yīng)用廣泛的研究途徑是利用進(jìn)化信息 (Evolution Information) 來檢驗(yàn)突變效果。**進(jìn)化信息可以通過氨基酸在蛋白質(zhì)序列中某一位置出現(xiàn)的可能性來推斷突變效果。為了計(jì)算將一種氨基酸突變?yōu)榱硪环N的相關(guān)概率,主流方法使用訓(xùn)練在數(shù)百萬蛋白質(zhì)序列上的蛋白質(zhì)語言模型 (PLMs),以自監(jiān)督的方式捕捉進(jìn)化信息。

然而,現(xiàn)有的方法通常有 2 個(gè)關(guān)鍵方面被忽視——首先,現(xiàn)有方法未能去除無關(guān)的進(jìn)化信息,進(jìn)化是為了滿足生存需求而同時(shí)優(yōu)化多個(gè)特性,這往往會(huì)掩蓋目標(biāo)特性的優(yōu)化;其次,目前主流的學(xué)習(xí)目標(biāo)包含數(shù)據(jù)集特定的信息,這些信息往往過度擬合于當(dāng)前的訓(xùn)練數(shù)據(jù),限制了模型對新蛋白質(zhì)的泛化能力。

**為了解決這些挑戰(zhàn),浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、浙江大學(xué)國際聯(lián)合學(xué)院、浙江大學(xué)杭州國際科創(chuàng)中心陳華鈞教授、張強(qiáng)博士等人,共同提出了一種針對蛋白質(zhì)優(yōu)化的全新去噪蛋白質(zhì)語言模型 (DePLM),**核心在于將蛋白質(zhì)語言模型捕捉到的進(jìn)化信息 EI 視為與特性相關(guān)和無關(guān)信息的混合體,其中無關(guān)信息類似于目標(biāo)特性的「噪音」,因此需要消除這些「噪音」。大量實(shí)驗(yàn)表明,本研究所提出的基于排序的去噪過程顯著提高了蛋白質(zhì)優(yōu)化性能,并同時(shí)保持了強(qiáng)大的泛化能力。

相關(guān)成果以「DePLM: Denoising Protein Language Models for Property Optimization」為題,入選了頂會(huì) NeurIPS 24。

研究亮點(diǎn):

* DePLM 能夠有效過濾無關(guān)信息,通過優(yōu)化 PLM 中包含的進(jìn)化信息來改善蛋白質(zhì)優(yōu)化

* 本研究設(shè)計(jì)了去噪擴(kuò)散框架中的基于排序的前向過程,將擴(kuò)散過程擴(kuò)展到突變可能性的排序空間,同時(shí)將學(xué)習(xí)目標(biāo)從最小化數(shù)值誤差轉(zhuǎn)變?yōu)樽畲蠡判蛳嚓P(guān)性,促進(jìn)數(shù)據(jù)集無關(guān)的學(xué)習(xí)并確保強(qiáng)大的泛化能力

* 大量實(shí)驗(yàn)結(jié)果表明,DePLM 不僅在突變效應(yīng)預(yù)測方面優(yōu)于當(dāng)前最先進(jìn)的模型,還展現(xiàn)出對新蛋白質(zhì)的強(qiáng)大泛化能力

論文地址:
https://neurips.cc/virtual/2024/poster/95517

關(guān)注公眾號,后臺(tái)回復(fù)「去噪蛋白質(zhì)語言模型」獲取完整 PDF

ProteinGym 蛋白質(zhì)突變數(shù)據(jù)集下載:
https://hyper.ai/datasets/32818

開源項(xiàng)目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:

https://github.com/hyperai/awesome-ai4s

數(shù)據(jù)集:廣泛的深度突變篩選實(shí)驗(yàn)集合

**ProteinGym 是一個(gè)廣泛的深度突變篩選 (DMS) 實(shí)驗(yàn)集合,包含 217 個(gè)數(shù)據(jù)集。**由于 PLM 的長度限制,研究人員排除了包含長度超過 1,024 的野生型蛋白質(zhì)的數(shù)據(jù)集,最終保留了 201 個(gè) DMS 數(shù)據(jù)集。ProteinGym 將 DMS 分類為 5 個(gè)粗略類別:66 個(gè)用于穩(wěn)定性,69 個(gè)用于適應(yīng)性,16 個(gè)用于表達(dá),12 個(gè)用于結(jié)合,38 個(gè)用于活性。
*** 性能比較實(shí)驗(yàn):**研究人員采用了隨機(jī)交叉驗(yàn)證方法,在該方法中,數(shù)據(jù)集中的每個(gè)突變會(huì)隨機(jī)分配到 5 個(gè)折疊中的一個(gè),然后通過對這 5 個(gè)折疊的結(jié)果進(jìn)行平均來評估模型的性能。

*** 泛化能力實(shí)驗(yàn):**給定一個(gè)測試數(shù)據(jù)集,研究人員隨機(jī)選擇多達(dá) 40 個(gè)與其優(yōu)化目標(biāo)(例如熱穩(wěn)定性)一致的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),需確保訓(xùn)練蛋白質(zhì)與測試蛋白質(zhì)之間的序列相似性低于 50%,以避免數(shù)據(jù)泄漏。

模型架構(gòu):基于排序空間的前向過程來擴(kuò)展擴(kuò)散模型

如前文所述,DePLM 的核心在于將蛋白質(zhì)語言模型 PLM 捕捉到的進(jìn)化信息 EI 視為與特性相關(guān)和無關(guān)信息的混合體,其中無關(guān)信息類似于目標(biāo)特性的「噪音」,并消除這些「噪音」。為實(shí)現(xiàn)這一目標(biāo),研究人員從去噪擴(kuò)散模型中獲得靈感,該模型通過精煉含噪輸入以生成期望的輸出。

**具體而言,研究人員設(shè)計(jì)了一個(gè)基于排序信息的前向過程來擴(kuò)展擴(kuò)散模型以去噪進(jìn)化信息,如下圖所示。**在下圖左側(cè),DePLM 使用從 PLM 中得出的進(jìn)化似然 (Evolution Likelihood) 作為輸入,并生成針對特定屬性的去噪似然 (Denoised Likelihood),用于預(yù)測突變的影響;在下圖中間和右側(cè),去噪模塊 (Denoising Module) 利用特征編碼器 (Feature Encoder) 生成蛋白質(zhì)的表征,考慮一級和三級結(jié)構(gòu),這些表征隨后通過去噪模塊用于過濾似然中的噪聲。

DePLM 架構(gòu)概覽

**去噪擴(kuò)散模型 (Denoising diffusion models) 包含 2 個(gè)主要過程:**正向的擴(kuò)散過程和需要學(xué)習(xí)的反向去噪過程。在正向擴(kuò)散過程中,少量噪聲逐步添加到真實(shí)值中;然后,反向去噪過程學(xué)習(xí)通過逐步消除積累的噪聲來恢復(fù)真實(shí)值。

然而,在將這些模型應(yīng)用于蛋白質(zhì)優(yōu)化中的突變概率進(jìn)行去噪時(shí),存在 2 個(gè)主要挑戰(zhàn)——首先,實(shí)際特性值與實(shí)驗(yàn)測量之間的關(guān)系通常表現(xiàn)出非線性,這源于實(shí)驗(yàn)方法的多樣性,因此,僅依賴于最小化預(yù)測值和觀測值之間的差異進(jìn)行去噪,可能會(huì)導(dǎo)致模型過擬合到特定數(shù)據(jù)集,從而降低模型的泛化能力;其次,與傳統(tǒng)的去噪擴(kuò)散模型不同,研究人員要求累積的噪聲收斂。

**為了解決這些挑戰(zhàn),研究人員提出了基于排序的去噪擴(kuò)散過程 (a rank-based denoising diffusion process),**重點(diǎn)在于最大化排序相關(guān)性,如下圖所示。在下圖左側(cè),DePLM 的訓(xùn)練涉及 2 個(gè)主要步驟:正向加噪過程 (a forward corruption process) 和反向去噪過程 (a learned reverse denoising process)。

在加噪步驟中,研究人員使用排序算法 (sorting algorithm) 生成軌跡,從屬性特異性似然 (Property-specific Likelihood) 的排序轉(zhuǎn)變?yōu)檫M(jìn)化似然 (Evolution Likelihood) 的排序,DePLM 被訓(xùn)練來模擬這一反向過程。在下圖右側(cè),研究人員展示了從進(jìn)化似然 (Evolution Likelihood) 向?qū)傩蕴禺愋运迫?(Property-specific Likelihood) 轉(zhuǎn)變過程中 Spearman 系數(shù)的變化。

DePLM 的訓(xùn)練過程

**最后,為了實(shí)現(xiàn)與數(shù)據(jù)集無關(guān)的學(xué)習(xí)和強(qiáng)大的模型泛化能力,**研究人員在特性值的排序空間中進(jìn)行擴(kuò)散過程,并將傳統(tǒng)的最小化數(shù)值誤差目標(biāo)替換為最大化排序相關(guān)性。

研究結(jié)果:DePLM 性能優(yōu)越且具備強(qiáng)大的泛化能力

性能評估:驗(yàn)證了將進(jìn)化信息與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合的優(yōu)勢

首先,為了評估 DePLM 在蛋白質(zhì)工程任務(wù)中的性能,研究人員將其與 9 個(gè)基準(zhǔn)進(jìn)行了比較,包括 4 個(gè)從零開始訓(xùn)練的蛋白質(zhì)序列編碼器 (CNN、ResNet、LSTM 和 Transformer),5 個(gè)自監(jiān)督模型 (OHE、ESM-1v 的微調(diào)版本、ESM-MSA、Tranception 以及 ProteinNPT)。

結(jié)果如下表所示,最佳結(jié)果和次優(yōu)結(jié)果在表中分別用粗體和下劃線標(biāo)出。整體來看,DePLM 的表現(xiàn)優(yōu)于基線模型,從而確認(rèn)了將進(jìn)化信息與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合在蛋白質(zhì)工程任務(wù)中的優(yōu)勢。
DePLM 與基線模型在蛋白質(zhì)工程任務(wù)中的表現(xiàn)

值得注意的是,ESM-MSA 和 Tranception 由于引入了多序列比對 (MSA),表現(xiàn)出比 ESM-1v 更強(qiáng)的進(jìn)化信息,通過比較它們的結(jié)果,研究人員證明了高質(zhì)量的進(jìn)化信息顯著改善了微調(diào)后的結(jié)果。然而,即使在這些改進(jìn)的情況下,它們的表現(xiàn)仍然未能達(dá)到 DePLM 的水平。研究人員還注意到,DePLM 的表現(xiàn)優(yōu)于 ProteinNPT,強(qiáng)調(diào)了所提出的去噪訓(xùn)練過程的有效性。

泛化能力評估:消除無關(guān)因素影響,提升性能

接著,為了進(jìn)一步評估 DePLM 的泛化能力,研究人員將其與 4 個(gè)自監(jiān)督基線 (ESM-1v、ESM-2 和 TranceptEVE)、2 個(gè)基于結(jié)構(gòu)的基線 (ESM-IF 和 ProteinMPNN) 以及 3 個(gè)監(jiān)督基線 (CNN、ESM-1v 和 ESM-2 的微調(diào)版本)進(jìn)行比較。

結(jié)果如下表所示,最佳結(jié)果和次優(yōu)結(jié)果在表中分別用粗體和下劃線標(biāo)出,可以觀察到,DePLM 始終優(yōu)于所有基線模型——這進(jìn)一步展示了僅依賴未過濾進(jìn)化信息的模型存在不足,其往往由于同時(shí)優(yōu)化多個(gè)目標(biāo)而稀釋了目標(biāo)屬性。通過消除無關(guān)因素的影響,DePLM 顯著提高了性能。
泛化能力評估

此外,為了最小化預(yù)測分?jǐn)?shù)與實(shí)驗(yàn)分?jǐn)?shù)之間的差異而訓(xùn)練的基線模型 ESM1v (FT) 和 ESM2 (FT) 的表現(xiàn)遠(yuǎn)遠(yuǎn)低于 DePLM。這一結(jié)果表明,**在排序空間中優(yōu)化模型降低了來自特定數(shù)據(jù)集的偏差,從而實(shí)現(xiàn)了更優(yōu)的泛化。**此外,研究人員還觀察到,蛋白質(zhì)結(jié)構(gòu)信息有助于穩(wěn)定性和結(jié)合性的提升,而進(jìn)化信息則增強(qiáng)了適應(yīng)性和活性屬性。

總而言之,大量實(shí)驗(yàn)結(jié)果表明,DePLM 不僅在突變效應(yīng)預(yù)測方面優(yōu)于當(dāng)前最先進(jìn)的模型,還展現(xiàn)出對新蛋白質(zhì)的強(qiáng)大泛化能力。

浙大團(tuán)隊(duì)持續(xù)深耕 PLMs,助力生物產(chǎn)業(yè)發(fā)展

蛋白質(zhì)大語言模型具有準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)、功能和相互作用的能力,代表了 AI 技術(shù)在生物學(xué)中的前沿應(yīng)用,其通過學(xué)習(xí)蛋白質(zhì)序列的模式和結(jié)構(gòu),能夠預(yù)測蛋白質(zhì)的功能和形態(tài),對于新藥開發(fā)、疾病治療和基礎(chǔ)生物學(xué)研究具有重大意義。

面對這一富有前景的新興領(lǐng)域,浙江大學(xué)團(tuán)隊(duì)近年來持續(xù)深耕,取得了多項(xiàng)創(chuàng)新科研成果。

2023 年 3 月,陳華鈞教授、張強(qiáng)博士和其所在的 AI 交叉中心研究團(tuán)隊(duì)開發(fā)了一種針對蛋白質(zhì)語言的預(yù)訓(xùn)練模型,該模型的相關(guān)研究以「 Multi-level Protein Structure Pre-training with Prompt Learning」 為題發(fā)表在 2023 年 ICLR 國際機(jī)器學(xué)習(xí)表征會(huì)議上。值得一提的是,ICLR 會(huì)議是深度學(xué)習(xí)領(lǐng)域最頂尖的會(huì)議之一,由兩位圖靈獎(jiǎng)得主 Yoshua Bengio 和 Yann LeCun 領(lǐng)銜創(chuàng)辦。

**在這項(xiàng)工作中,研究團(tuán)隊(duì)在國際上率先提出了面向蛋白質(zhì)的提示學(xué)習(xí)機(jī)制,并構(gòu)建了 PromptProtein 模型,**設(shè)計(jì)了 3 個(gè)預(yù)訓(xùn)練任務(wù),將蛋白質(zhì)的第一、三、四級結(jié)構(gòu)信息注入到模型中。為了靈活使用結(jié)構(gòu)信息,受到自然語言處理中的提示技術(shù)的啟發(fā),研究人員提出了提示符引導(dǎo)下的預(yù)訓(xùn)練和微調(diào)框架。在蛋白質(zhì)功能預(yù)測任務(wù)和蛋白質(zhì)工程任務(wù)上的實(shí)驗(yàn)結(jié)果表明,成果提出的方法比傳統(tǒng)模型具有更好的性能。

時(shí)間來到 2024 年,該團(tuán)隊(duì)的研究取得了進(jìn)一步進(jìn)展。為了解決 PLMs 在理解氨基酸序列方面表現(xiàn)出色,但無法理解人類語言的挑戰(zhàn),浙江大學(xué)陳華鈞、張強(qiáng)團(tuán)隊(duì)提出 InstructProtein 模型,利用知識指令對齊蛋白質(zhì)語言與人類語言,探索了在蛋白質(zhì)語言和人類語言間的雙向生成能力,有效彌補(bǔ)了兩種語言之間的差距,展示了將生物序列整合到大型語言模型的能力。

該研究以「InstructProtein: Aligning Human and Protein Language via Knowledge Instruction」為題,被 ACL 2024 主會(huì)錄用。大量雙向蛋白質(zhì)-文本生成任務(wù)的實(shí)驗(yàn)表明,InstructProtein 在性能上優(yōu)于現(xiàn)有的最先進(jìn) LLMs。

論文地址:

https://arxiv.org/abs/2310.03269

實(shí)際上,這些文章僅僅還只是團(tuán)隊(duì)正在開展工作的一個(gè)方面。據(jù)報(bào)道,在浙江大學(xué) AI 交叉中心研究人員更希望實(shí)現(xiàn)的是怎樣利用蛋白質(zhì)或分子語言大模型來驅(qū)動(dòng)像 iBioFoundry 和 iChemFoundry 這樣的科學(xué)實(shí)驗(yàn)機(jī)器人,將真實(shí)世界的傳感器信號、蛋白質(zhì)、人類語言相結(jié)合,建立語言和感知的鏈接。

未來,該團(tuán)隊(duì)期待將自己的研究成果進(jìn)一步產(chǎn)業(yè)化,為新藥研發(fā)、生命健康領(lǐng)域做更多有價(jià)值的探索和支撐。

參考資料:

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm