国产一区二区中文字幕,国产精品51麻豆cm传媒

作為生物功能的主要載體，蛋白質(zhì)結(jié)構(gòu)和功能在數(shù)十億年的進(jìn)化中所展示出的多樣性，為藥物發(fā)現(xiàn)和材料科學(xué)等領(lǐng)域的進(jìn)步提供了重要機(jī)遇，然而，現(xiàn)有蛋白質(zhì)的固有特性（如熱穩(wěn)定性）在許多情況下往往無法滿足實(shí)際需求。因此，研究人員致力于通過優(yōu)化蛋白質(zhì)來增強(qiáng)其特性。

傳統(tǒng)的深度突變掃描 (DMS) 和定向進(jìn)化 (DE) 依賴于昂貴的濕實(shí)驗(yàn)技術(shù)，與之相比，基于機(jī)器學(xué)習(xí)的方法能夠快速評估突變效果，對高效的蛋白質(zhì)優(yōu)化至關(guān)重要。**其中，一種應(yīng)用廣泛的研究途徑是利用進(jìn)化信息 (Evolution Information) 來檢驗(yàn)突變效果。**進(jìn)化信息可以通過氨基酸在蛋白質(zhì)序列中某一位置出現(xiàn)的可能性來推斷突變效果。為了計(jì)算將一種氨基酸突變?yōu)榱硪环N的相關(guān)概率，主流方法使用訓(xùn)練在數(shù)百萬蛋白質(zhì)序列上的蛋白質(zhì)語言模型 (PLMs)，以自監(jiān)督的方式捕捉進(jìn)化信息。

然而，現(xiàn)有的方法通常有 2 個(gè)關(guān)鍵方面被忽視——首先，現(xiàn)有方法未能去除無關(guān)的進(jìn)化信息，進(jìn)化是為了滿足生存需求而同時(shí)優(yōu)化多個(gè)特性，這往往會(huì)掩蓋目標(biāo)特性的優(yōu)化；其次，目前主流的學(xué)習(xí)目標(biāo)包含數(shù)據(jù)集特定的信息，這些信息往往過度擬合于當(dāng)前的訓(xùn)練數(shù)據(jù)，限制了模型對新蛋白質(zhì)的泛化能力。

**為了解決這些挑戰(zhàn)，浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、浙江大學(xué)國際聯(lián)合學(xué)院、浙江大學(xué)杭州國際科創(chuàng)中心陳華鈞教授、張強(qiáng)博士等人，共同提出了一種針對蛋白質(zhì)優(yōu)化的全新去噪蛋白質(zhì)語言模型 (DePLM)，**核心在于將蛋白質(zhì)語言模型捕捉到的進(jìn)化信息 EI 視為與特性相關(guān)和無關(guān)信息的混合體，其中無關(guān)信息類似于目標(biāo)特性的「噪音」，因此需要消除這些「噪音」。大量實(shí)驗(yàn)表明，本研究所提出的基于排序的去噪過程顯著提高了蛋白質(zhì)優(yōu)化性能，并同時(shí)保持了強(qiáng)大的泛化能力。

相關(guān)成果以「DePLM: Denoising Protein Language Models for Property Optimization」為題，入選了頂會(huì) NeurIPS 24。

研究亮點(diǎn)：

* DePLM 能夠有效過濾無關(guān)信息，通過優(yōu)化 PLM 中包含的進(jìn)化信息來改善蛋白質(zhì)優(yōu)化

* 本研究設(shè)計(jì)了去噪擴(kuò)散框架中的基于排序的前向過程，將擴(kuò)散過程擴(kuò)展到突變可能性的排序空間，同時(shí)將學(xué)習(xí)目標(biāo)從最小化數(shù)值誤差轉(zhuǎn)變?yōu)樽畲蠡判蛳嚓P(guān)性，促進(jìn)數(shù)據(jù)集無關(guān)的學(xué)習(xí)并確保強(qiáng)大的泛化能力

* 大量實(shí)驗(yàn)結(jié)果表明，DePLM 不僅在突變效應(yīng)預(yù)測方面優(yōu)于當(dāng)前最先進(jìn)的模型，還展現(xiàn)出對新蛋白質(zhì)的強(qiáng)大泛化能力

論文地址：
https://neurips.cc/virtual/2024/poster/95517

關(guān)注公眾號，后臺(tái)回復(fù)「去噪蛋白質(zhì)語言模型」獲取完整 PDF

ProteinGym 蛋白質(zhì)突變數(shù)據(jù)集下載：
https://hyper.ai/datasets/32818

開源項(xiàng)目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀，并提供海量數(shù)據(jù)集與工具：

https://github.com/hyperai/awesome-ai4s

數(shù)據(jù)集：廣泛的深度突變篩選實(shí)驗(yàn)集合

**ProteinGym 是一個(gè)廣泛的深度突變篩選 (DMS) 實(shí)驗(yàn)集合，包含 217 個(gè)數(shù)據(jù)集。**由于 PLM 的長度限制，研究人員排除了包含長度超過 1,024 的野生型蛋白質(zhì)的數(shù)據(jù)集，最終保留了 201 個(gè) DMS 數(shù)據(jù)集。ProteinGym 將 DMS 分類為 5 個(gè)粗略類別：66 個(gè)用于穩(wěn)定性，69 個(gè)用于適應(yīng)性，16 個(gè)用于表達(dá)，12 個(gè)用于結(jié)合，38 個(gè)用于活性。
*** 性能比較實(shí)驗(yàn)：**研究人員采用了隨機(jī)交叉驗(yàn)證方法，在該方法中，數(shù)據(jù)集中的每個(gè)突變會(huì)隨機(jī)分配到 5 個(gè)折疊中的一個(gè)，然后通過對這 5 個(gè)折疊的結(jié)果進(jìn)行平均來評估模型的性能。

*** 泛化能力實(shí)驗(yàn)：**給定一個(gè)測試數(shù)據(jù)集，研究人員隨機(jī)選擇多達(dá) 40 個(gè)與其優(yōu)化目標(biāo)（例如熱穩(wěn)定性）一致的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)，需確保訓(xùn)練蛋白質(zhì)與測試蛋白質(zhì)之間的序列相似性低于 50%，以避免數(shù)據(jù)泄漏。

模型架構(gòu)：基于排序空間的前向過程來擴(kuò)展擴(kuò)散模型

如前文所述，DePLM 的核心在于將蛋白質(zhì)語言模型 PLM 捕捉到的進(jìn)化信息 EI 視為與特性相關(guān)和無關(guān)信息的混合體，其中無關(guān)信息類似于目標(biāo)特性的「噪音」，并消除這些「噪音」。為實(shí)現(xiàn)這一目標(biāo)，研究人員從去噪擴(kuò)散模型中獲得靈感，該模型通過精煉含噪輸入以生成期望的輸出。

**具體而言，研究人員設(shè)計(jì)了一個(gè)基于排序信息的前向過程來擴(kuò)展擴(kuò)散模型以去噪進(jìn)化信息，如下圖所示。**在下圖左側(cè)，DePLM 使用從 PLM 中得出的進(jìn)化似然 (Evolution Likelihood) 作為輸入，并生成針對特定屬性的去噪似然 (Denoised Likelihood)，用于預(yù)測突變的影響；在下圖中間和右側(cè)，去噪模塊 (Denoising Module) 利用特征編碼器 (Feature Encoder) 生成蛋白質(zhì)的表征，考慮一級和三級結(jié)構(gòu)，這些表征隨后通過去噪模塊用于過濾似然中的噪聲。

DePLM 架構(gòu)概覽

**去噪擴(kuò)散模型 (Denoising diffusion models) 包含 2 個(gè)主要過程：**正向的擴(kuò)散過程和需要學(xué)習(xí)的反向去噪過程。在正向擴(kuò)散過程中，少量噪聲逐步添加到真實(shí)值中；然后，反向去噪過程學(xué)習(xí)通過逐步消除積累的噪聲來恢復(fù)真實(shí)值。

然而，在將這些模型應(yīng)用于蛋白質(zhì)優(yōu)化中的突變概率進(jìn)行去噪時(shí)，存在 2 個(gè)主要挑戰(zhàn)——首先，實(shí)際特性值與實(shí)驗(yàn)測量之間的關(guān)系通常表現(xiàn)出非線性，這源于實(shí)驗(yàn)方法的多樣性，因此，僅依賴于最小化預(yù)測值和觀測值之間的差異進(jìn)行去噪，可能會(huì)導(dǎo)致模型過擬合到特定數(shù)據(jù)集，從而降低模型的泛化能力；其次，與傳統(tǒng)的去噪擴(kuò)散模型不同，研究人員要求累積的噪聲收斂。

**為了解決這些挑戰(zhàn)，研究人員提出了基于排序的去噪擴(kuò)散過程 (a rank-based denoising diffusion process)，**重點(diǎn)在于最大化排序相關(guān)性，如下圖所示。在下圖左側(cè)，DePLM 的訓(xùn)練涉及 2 個(gè)主要步驟：正向加噪過程 (a forward corruption process) 和反向去噪過程 (a learned reverse denoising process)。

在加噪步驟中，研究人員使用排序算法 (sorting algorithm) 生成軌跡，從屬性特異性似然 (Property-specific Likelihood) 的排序轉(zhuǎn)變?yōu)檫M(jìn)化似然 (Evolution Likelihood) 的排序，DePLM 被訓(xùn)練來模擬這一反向過程。在下圖右側(cè)，研究人員展示了從進(jìn)化似然 (Evolution Likelihood) 向?qū)傩蕴禺愋运迫?(Property-specific Likelihood) 轉(zhuǎn)變過程中 Spearman 系數(shù)的變化。

DePLM 的訓(xùn)練過程

**最后，為了實(shí)現(xiàn)與數(shù)據(jù)集無關(guān)的學(xué)習(xí)和強(qiáng)大的模型泛化能力，**研究人員在特性值的排序空間中進(jìn)行擴(kuò)散過程，并將傳統(tǒng)的最小化數(shù)值誤差目標(biāo)替換為最大化排序相關(guān)性。

研究結(jié)果：DePLM 性能優(yōu)越且具備強(qiáng)大的泛化能力

性能評估：驗(yàn)證了將進(jìn)化信息與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合的優(yōu)勢

首先，為了評估 DePLM 在蛋白質(zhì)工程任務(wù)中的性能，研究人員將其與 9 個(gè)基準(zhǔn)進(jìn)行了比較，包括 4 個(gè)從零開始訓(xùn)練的蛋白質(zhì)序列編碼器 (CNN、ResNet、LSTM 和 Transformer)，5 個(gè)自監(jiān)督模型 (OHE、ESM-1v 的微調(diào)版本、ESM-MSA、Tranception 以及 ProteinNPT)。

結(jié)果如下表所示，最佳結(jié)果和次優(yōu)結(jié)果在表中分別用粗體和下劃線標(biāo)出。整體來看，DePLM 的表現(xiàn)優(yōu)于基線模型，從而確認(rèn)了將進(jìn)化信息與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合在蛋白質(zhì)工程任務(wù)中的優(yōu)勢。
DePLM 與基線模型在蛋白質(zhì)工程任務(wù)中的表現(xiàn)

值得注意的是，ESM-MSA 和 Tranception 由于引入了多序列比對 (MSA)，表現(xiàn)出比 ESM-1v 更強(qiáng)的進(jìn)化信息，通過比較它們的結(jié)果，研究人員證明了高質(zhì)量的進(jìn)化信息顯著改善了微調(diào)后的結(jié)果。然而，即使在這些改進(jìn)的情況下，它們的表現(xiàn)仍然未能達(dá)到 DePLM 的水平。研究人員還注意到，DePLM 的表現(xiàn)優(yōu)于 ProteinNPT，強(qiáng)調(diào)了所提出的去噪訓(xùn)練過程的有效性。

泛化能力評估：消除無關(guān)因素影響，提升性能

接著，為了進(jìn)一步評估 DePLM 的泛化能力，研究人員將其與 4 個(gè)自監(jiān)督基線 (ESM-1v、ESM-2 和 TranceptEVE)、2 個(gè)基于結(jié)構(gòu)的基線 (ESM-IF 和 ProteinMPNN) 以及 3 個(gè)監(jiān)督基線 (CNN、ESM-1v 和 ESM-2 的微調(diào)版本）進(jìn)行比較。

結(jié)果如下表所示，最佳結(jié)果和次優(yōu)結(jié)果在表中分別用粗體和下劃線標(biāo)出，可以觀察到，DePLM 始終優(yōu)于所有基線模型——這進(jìn)一步展示了僅依賴未過濾進(jìn)化信息的模型存在不足，其往往由于同時(shí)優(yōu)化多個(gè)目標(biāo)而稀釋了目標(biāo)屬性。通過消除無關(guān)因素的影響，DePLM 顯著提高了性能。
泛化能力評估

此外，為了最小化預(yù)測分?jǐn)?shù)與實(shí)驗(yàn)分?jǐn)?shù)之間的差異而訓(xùn)練的基線模型 ESM1v (FT) 和 ESM2 (FT) 的表現(xiàn)遠(yuǎn)遠(yuǎn)低于 DePLM。這一結(jié)果表明，**在排序空間中優(yōu)化模型降低了來自特定數(shù)據(jù)集的偏差，從而實(shí)現(xiàn)了更優(yōu)的泛化。**此外，研究人員還觀察到，蛋白質(zhì)結(jié)構(gòu)信息有助于穩(wěn)定性和結(jié)合性的提升，而進(jìn)化信息則增強(qiáng)了適應(yīng)性和活性屬性。

總而言之，大量實(shí)驗(yàn)結(jié)果表明，DePLM 不僅在突變效應(yīng)預(yù)測方面優(yōu)于當(dāng)前最先進(jìn)的模型，還展現(xiàn)出對新蛋白質(zhì)的強(qiáng)大泛化能力。

浙大團(tuán)隊(duì)持續(xù)深耕 PLMs，助力生物產(chǎn)業(yè)發(fā)展

蛋白質(zhì)大語言模型具有準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)、功能和相互作用的能力，代表了 AI 技術(shù)在生物學(xué)中的前沿應(yīng)用，其通過學(xué)習(xí)蛋白質(zhì)序列的模式和結(jié)構(gòu)，能夠預(yù)測蛋白質(zhì)的功能和形態(tài)，對于新藥開發(fā)、疾病治療和基礎(chǔ)生物學(xué)研究具有重大意義。

面對這一富有前景的新興領(lǐng)域，浙江大學(xué)團(tuán)隊(duì)近年來持續(xù)深耕，取得了多項(xiàng)創(chuàng)新科研成果。

2023 年 3 月，陳華鈞教授、張強(qiáng)博士和其所在的 AI 交叉中心研究團(tuán)隊(duì)開發(fā)了一種針對蛋白質(zhì)語言的預(yù)訓(xùn)練模型，該模型的相關(guān)研究以「 Multi-level Protein Structure Pre-training with Prompt Learning」為題發(fā)表在 2023 年 ICLR 國際機(jī)器學(xué)習(xí)表征會(huì)議上。值得一提的是，ICLR 會(huì)議是深度學(xué)習(xí)領(lǐng)域最頂尖的會(huì)議之一，由兩位圖靈獎(jiǎng)得主 Yoshua Bengio 和 Yann LeCun 領(lǐng)銜創(chuàng)辦。

**在這項(xiàng)工作中，研究團(tuán)隊(duì)在國際上率先提出了面向蛋白質(zhì)的提示學(xué)習(xí)機(jī)制，并構(gòu)建了 PromptProtein 模型，**設(shè)計(jì)了 3 個(gè)預(yù)訓(xùn)練任務(wù)，將蛋白質(zhì)的第一、三、四級結(jié)構(gòu)信息注入到模型中。為了靈活使用結(jié)構(gòu)信息，受到自然語言處理中的提示技術(shù)的啟發(fā)，研究人員提出了提示符引導(dǎo)下的預(yù)訓(xùn)練和微調(diào)框架。在蛋白質(zhì)功能預(yù)測任務(wù)和蛋白質(zhì)工程任務(wù)上的實(shí)驗(yàn)結(jié)果表明，成果提出的方法比傳統(tǒng)模型具有更好的性能。

時(shí)間來到 2024 年，該團(tuán)隊(duì)的研究取得了進(jìn)一步進(jìn)展。為了解決 PLMs 在理解氨基酸序列方面表現(xiàn)出色，但無法理解人類語言的挑戰(zhàn)，浙江大學(xué)陳華鈞、張強(qiáng)團(tuán)隊(duì)提出 InstructProtein 模型，利用知識指令對齊蛋白質(zhì)語言與人類語言，探索了在蛋白質(zhì)語言和人類語言間的雙向生成能力，有效彌補(bǔ)了兩種語言之間的差距，展示了將生物序列整合到大型語言模型的能力。

該研究以「InstructProtein: Aligning Human and Protein Language via Knowledge Instruction」為題，被 ACL 2024 主會(huì)錄用。大量雙向蛋白質(zhì)-文本生成任務(wù)的實(shí)驗(yàn)表明，InstructProtein 在性能上優(yōu)于現(xiàn)有的最先進(jìn) LLMs。

論文地址：

https://arxiv.org/abs/2310.03269

實(shí)際上，這些文章僅僅還只是團(tuán)隊(duì)正在開展工作的一個(gè)方面。據(jù)報(bào)道，在浙江大學(xué) AI 交叉中心研究人員更希望實(shí)現(xiàn)的是怎樣利用蛋白質(zhì)或分子語言大模型來驅(qū)動(dòng)像 iBioFoundry 和 iChemFoundry 這樣的科學(xué)實(shí)驗(yàn)機(jī)器人，將真實(shí)世界的傳感器信號、蛋白質(zhì)、人類語言相結(jié)合，建立語言和感知的鏈接。

未來，該團(tuán)隊(duì)期待將自己的研究成果進(jìn)一步產(chǎn)業(yè)化，為新藥研發(fā)、生命健康領(lǐng)域做更多有價(jià)值的探索和支撐。

參考資料：

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm

入選NeurIPS 24！浙大團(tuán)隊(duì)提出全新去噪蛋白質(zhì)語言模型DePLM，突變效應(yīng)預(yù)測優(yōu)于SOTA模型

數(shù)據(jù)集：廣泛的深度突變篩選實(shí)驗(yàn)集合

研究結(jié)果：DePLM 性能優(yōu)越且具備強(qiáng)大的泛化能力

浙大團(tuán)隊(duì)持續(xù)深耕 PLMs，助力生物產(chǎn)業(yè)發(fā)展

入選NeurIPS 24！浙大團(tuán)隊(duì)提出全新去噪蛋白質(zhì)語言模型DePLM，突變效應(yīng)預(yù)測優(yōu)于SOTA模型

浙大團(tuán)隊(duì)持續(xù)深耕 PLMs，助力生物產(chǎn)業(yè)發(fā)展