久久国产精品张柏芝,国产美女视频黄a视频全免费网站,女人被添全过程A一片

阿爾茨海默病、帕金森病、癲癇…..這些令人「聞名膽顫」的神經(jīng)退行性疾病是老年健康的隱形殺手，而這類疾病的發(fā)生多與蛋白質(zhì)-RNA 之間的異常結(jié)合相關(guān)。

在生物醫(yī)學領(lǐng)域，研究蛋白質(zhì)-RNA 結(jié)合至關(guān)重要，因為它在基因表達調(diào)控、RNA 加工與剪接、翻譯調(diào)控以及細胞應(yīng)激反應(yīng)等多個生物學過程中發(fā)揮著核心作用。理解蛋白質(zhì)-RNA 結(jié)合的機制是揭示復雜基因調(diào)控過程和解析疾病的遺傳基礎(chǔ)的關(guān)鍵，同時，蛋白質(zhì)-RNA 相互作用在 RNA 靶向治療中也具有重要應(yīng)用，為癌癥、遺傳性疾病及病毒性疾病的治療提供了新的方向。

近日，在國際人工智能頂會「第 39 屆人工智能年會」(The 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025) 公布的入選成果中，來自清華大學、倫敦大學學院、莫納什大學、北京郵電大學的聯(lián)合團隊提出的 CoPRA 模型引起了圈內(nèi)廣泛關(guān)注，并入選 Oral 環(huán)節(jié)。

這是首次嘗試通過復雜結(jié)構(gòu)架構(gòu)將蛋白質(zhì)語言模型 (PLM) 與 RNA 語言模型 (RLM) 結(jié)合，用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。為了測試 CoPRA 性能，研究人員從多個數(shù)據(jù)源整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集，并在 3 個數(shù)據(jù)集上評估了模型性能，結(jié)果顯示 CoPRA 在多個數(shù)據(jù)集上達到了最先進的性能。

相關(guān)成果以「CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction」為題，已發(fā)布預(yù)印本于 arXiv。

論文地址：
https://arxiv.org/abs/2409.03773

CoPRA 倉庫地址：

https://github.com/hanrthu/CoPRA

開源項目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀，并提供海量數(shù)據(jù)集與工具：
https://github.com/hyperai/awesome-ai4s

生物醫(yī)學界持續(xù)推進蛋白質(zhì)-RNA 相互作用研究

過去多年，生物醫(yī)學界的研究人員一直沒有停下過對于蛋白質(zhì)-RNA 相互作用的研究工作，并且取得了不少進展。

CLIP 實驗技術(shù)作為 RNA 研究最重要的技術(shù)之一，可以解析 RNA 結(jié)合蛋白 (RBP) 在整個轉(zhuǎn)錄組上的結(jié)合圖譜，是系統(tǒng)理解一個RBP 功能及其調(diào)控機制的基礎(chǔ)。但 CLIP 實驗費時費力，一次只能提供某一 RBP 在特定細胞環(huán)境下的 RNA 結(jié)合位點，而且對于實驗材料要求較高。然而，蛋白質(zhì)和 RNA 的結(jié)合隨著細胞環(huán)境的變化可能發(fā)生很大的改變，但研究蛋白質(zhì)對 RNA 的調(diào)控需要相同細胞環(huán)境的結(jié)合信息。

為了解決 RBP 在不同細胞環(huán)境下結(jié)合動態(tài)變化的問題，2021 年 2 月，清華大學結(jié)構(gòu)生物學高精尖創(chuàng)新中心張強鋒課題組在 Cell Research 雜志上，發(fā)表了題為「Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures」的研究成果。該工作使用 icSHAPE 實驗解析了 7 種常用細胞類型的 RNA 二級結(jié)構(gòu)圖譜，并開發(fā)人工智能算法，整合實驗獲得的細胞內(nèi) RNA 結(jié)構(gòu)以及對應(yīng)細胞環(huán)境的 RBP 結(jié)合信息，建立了基于細胞內(nèi) RNA 結(jié)構(gòu)信息預(yù)測細胞內(nèi) RBP 動態(tài)結(jié)合的新方法 PrismNet。

為預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力，業(yè)界也有多個計算方法被相繼提出，包括基于序列和基于結(jié)構(gòu)的方法?；谛蛄械姆椒ǚ謩e使用不同的序列編碼器處理蛋白質(zhì)和 RNA 序列，并隨后建模它們之間的相互作用。然而，由于結(jié)合親和力主要由結(jié)合界面的結(jié)構(gòu)決定，這些方法的性能通常受到限制。其他近期提出的方法專注于提取結(jié)合界面的結(jié)構(gòu)特征，如能量和接觸距離。基于這些提取的特征，研究人員發(fā)展出基于結(jié)構(gòu)的機器學習方法，可用于親和力預(yù)測。然而，由于數(shù)據(jù)集規(guī)模的限制，這些方法在新樣本上的泛化能力有限，且高度依賴于特征工程。

隨著人工智能技術(shù)的興起，不少蛋白質(zhì)語言模型 (PLMs) 和 RNA 語言模型 (RLMs) 已被開發(fā)，這些模型在各種下游任務(wù)中展現(xiàn)了出色的性能和泛化能力。同時，由于蛋白質(zhì)/RNA 的三維結(jié)構(gòu)對于理解其功能至關(guān)重要，將結(jié)構(gòu)信息融入語言模型也成為一種新趨勢。

比如，美國密蘇里大學、肯塔基大學與阿拉巴馬大學組成的團隊利用多視角對比學習技術(shù)將關(guān)鍵的蛋白質(zhì)結(jié)構(gòu)信息融入到蛋白質(zhì)語言模型中?；谶@個設(shè)想，該團隊開發(fā)了 S-PLM：一種具有蛋白質(zhì) 3D 結(jié)構(gòu)信息感知能力的蛋白語言模型。S-PLM 在多項蛋白質(zhì)預(yù)測任務(wù)中展現(xiàn)出卓越性能，使用輕量化調(diào)優(yōu)工具進行訓練后，S-PLM 在蛋白質(zhì)功能預(yù)測、酶反應(yīng)類別預(yù)測和二級結(jié)構(gòu)預(yù)測等任務(wù)中的性能達到或超過當前最先進的方法。相關(guān)研究以「S-PLM: Structure-aware Protein Language Model via Contrastive Learning between Sequence and Structure」為題發(fā)表于 bioRxiv。

不過，盡管當前業(yè)界的研究展示了結(jié)構(gòu)信息驅(qū)動的生物語言模型在交互任務(wù)中的巨大潛力，但將來自不同生物學領(lǐng)域的預(yù)訓練模型結(jié)合的工作仍然少見。而在清華大學、倫敦大學學院、莫納什大學、北京郵電大學聯(lián)合提出的 CoPRA 中，首次嘗試將蛋白質(zhì)和 RNA 語言模型與復雜結(jié)構(gòu)信息結(jié)合，用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。

設(shè)計輕量級 Co-Former 模型構(gòu)建 CoPRA

整體而言， CoPRA 模型的構(gòu)建過程如下圖所示：

圖：CoPRA 模型概述

首先，研究人員將蛋白質(zhì)和 RNA 序列分別輸入到 PLM 和 RLM 中，然后從兩個語言模型的輸出中選擇交互界面處的嵌入，作為后續(xù)跨模態(tài)學習的序列嵌入。同時，其也從交互界面提取結(jié)構(gòu)信息 (interface feature)，作為配對嵌入。

然后，研究人員設(shè)計了一個輕量級的 Co-Former 模型，將來自兩個語言模型的界面序列嵌入與復雜結(jié)構(gòu)信息結(jié)合，形成結(jié)構(gòu)-序列融合模塊 (structure-sequence fusion module)。具體而言，Co-Former 通過結(jié)構(gòu)引導的多頭自注意力和外積模塊融合 1D 和配對嵌入，并應(yīng)用任務(wù)相關(guān)的注意力掩碼。Co-Former 的輸出特殊節(jié)點和配對嵌入根據(jù)不同任務(wù)進行使用，包括兩個預(yù)訓練任務(wù) (Pretraining task) 和兩個下游親和力任務(wù) (Downstream task)。

研究人員還為 Co-Former 提出了一個雙范圍預(yù)訓練策略，以建模粗粒度的對比交互分類 (CPRI) 和精細粒度的界面距離預(yù)測 (MIDM)，以原子級精度進行學習。

為了評估 CoPRA 與其他模型的性能，研究人員需要解決統(tǒng)一標注標準數(shù)據(jù)集缺失的問題。于是，他們從 3 個公共數(shù)據(jù)集收集了樣本：PDBbind、PRBABv2 和 ProNAB，整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集 PRA310，并在 PRA310 和 PRA201 數(shù)據(jù)集上評估了其模型性預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力的能力。

*PRA201 數(shù)據(jù)集：PRA310 的子集，每個復合物僅包含一個蛋白鏈和一個 RNA 鏈，并且有更嚴格的長度限制

CoPRA 在預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力方面性能最佳

如下表所示，CoPRA 的從頭訓練版本在 PRA310 數(shù)據(jù)集上達到了最佳性能。此外，大多數(shù)使用 LM 嵌入作為輸入的方法表現(xiàn)優(yōu)于其他方法，表明結(jié)合預(yù)訓練單模態(tài) LMs 進行親和力預(yù)測的巨大潛力。

表：PRA310 和 PRA201 數(shù)據(jù)集上的 5 折交叉驗證的平均指標

隨后，研究人員使用其整理的無監(jiān)督數(shù)據(jù)集 PRI30k 對模型進行了預(yù)訓練，顯著提高了其在兩個數(shù)據(jù)集上的整體性能。在 PRA310 數(shù)據(jù)集上，CoPRA 的 RMSE 為 1.391，MAE 為 1.129，PCC 為 0.580，SCC 為 0.589，遠優(yōu)于第二好的模型 CoPRA (從頭訓練版本)。PredPRBA 和 DeepNAP 支持蛋白質(zhì)-RNA 對親和力預(yù)測，研究人員將這些方法在 PRA201 數(shù)據(jù)集上的表現(xiàn)進行了比較，結(jié)果顯示，盡管 PRA201 中至少有 100 個樣本出現(xiàn)在它們的訓練集中，但它們在 PRA201 上的性能明顯低于它們報告的結(jié)果，表明這些方法的泛化能力較差。

CoPRA 在預(yù)測突變對結(jié)合親和力影響方面更強，且泛化能力極佳

為了進一步評估模型對親和力的細粒度理解，研究人員將模型重定向為預(yù)測蛋白質(zhì)的單點突變對蛋白質(zhì)-RNA 復合物的影響。參考蛋白質(zhì)突變效應(yīng)預(yù)測的相關(guān)研究，研究人員在每個復合物級別上對指標進行平均，評估了 CoPRA 在 PRI30k 上進行預(yù)訓練并在 PRA310 上進行調(diào)優(yōu)后的 zero-shot 性能和微調(diào)性能。

如下表所示，在使用 mCSM 的交叉驗證集進行微調(diào)后，本研究提出的模型在所有 4 個指標上均超越了其他模型，RMSE 為 0.957，MAE 為 0.833，PCC 為 0.550，SCC 為 0.570。

表：在 mCSM 盲測集上的每個結(jié)構(gòu)的表現(xiàn)

盡管沒有看到任何突變復合物結(jié)構(gòu)，但這種優(yōu)越的性能來源于雙重預(yù)訓練目標，這一表現(xiàn)證明了 CoPRA 在不同親和力相關(guān)任務(wù)上的泛化能力。

多模態(tài)蛋白質(zhì)語言模型的突破性進展

上文介紹的研究思路本質(zhì)是將蛋白質(zhì)、RNA 等多種生物模態(tài)與復雜結(jié)構(gòu)信息相結(jié)合，也就是所謂的多模態(tài)學習 (MultiModal Learning)。簡單來講，多模態(tài)學習是在深度學習的框架下，將各種不同類型的數(shù)據(jù)整合在一個模型中進行建模。

過去幾年，隨著大語言模型的快速發(fā)展，研究人員開始嘗試將其應(yīng)用于蛋白質(zhì)科學領(lǐng)域，以準確理解和預(yù)測蛋白質(zhì)的功能、結(jié)構(gòu)和性質(zhì)。然而，此前的蛋白質(zhì)導向型大語言模型主要將氨基酸序列作為文本形式處理，未能充分利用蛋白質(zhì)的豐富結(jié)構(gòu)信息，如今，多模態(tài)學習的進展則為越來越多的相關(guān)研究提供了新思路。

比如，在藥物研發(fā)領(lǐng)域，準確有效地預(yù)測蛋白質(zhì)與配體的結(jié)合親和力對于藥物篩選和優(yōu)化至關(guān)重要。然而，此前的研究沒有考慮到分子表面信息在蛋白質(zhì)-配體相互作用中的重要作用。基于此，來自廈門大學的研究人員提出了一種新穎的多模態(tài)特征提取 (MFE) 框架，該框架首次結(jié)合了蛋白質(zhì)表面、3D 結(jié)構(gòu)和序列的信息，并使用交叉注意機制進行不同模態(tài)之間的特征對齊。實驗結(jié)果表明，該方法在預(yù)測蛋白質(zhì)-配體結(jié)合親和力方面取得了最先進的性能，相關(guān)研究以「Surface-based multimodal protein–ligand binding affinity prediction」為題，于 2024 年 6 月發(fā)布在 Bioinformatics 上。

2024 年 12 月，來自華東師范大學等機構(gòu)的研究團隊提出了一個創(chuàng)新性的解決方案 EvoLLama，這是一個將蛋白質(zhì)結(jié)構(gòu)編碼器、序列編碼器和大語言模型進行多模態(tài)融合的框架。在零樣本設(shè)置下，EvoLLama 展現(xiàn)出了強大的泛化能力，相比其他微調(diào)基線模型提升 1%-8% 的性能，超越當前最先進的監(jiān)督微調(diào)模型平均 6% 的性能。相關(guān)研究成果以「EvoLlama: Enhancing LLMs’ Understanding of Proteins via Multimodal Structure and Sequence Representations」為題已發(fā)布預(yù)印本于 arXiv。

當然，多模態(tài)學習只是可供選擇的研究思路之一，未來，通過更多機器學習手段研究蛋白質(zhì)的表面，生物學家可以更深入地了解其如何與其他生物分子相互作用，從而為新藥研發(fā)提供助益。

清華/倫敦大學學院等首創(chuàng)蛋白質(zhì)-RNA語言模型融合方案，結(jié)合親和力預(yù)測刷新SOTA

生物醫(yī)學界持續(xù)推進蛋白質(zhì)-RNA 相互作用研究

設(shè)計輕量級 Co-Former 模型構(gòu)建 CoPRA

多模態(tài)蛋白質(zhì)語言模型的突破性進展

清華/倫敦大學學院等首創(chuàng)蛋白質(zhì)-RNA語言模型融合方案，結(jié)合親和力預(yù)測刷新SOTA