阿爾茨海默病、帕金森病、癲癇…..這些令人「聞名膽顫」的神經(jīng)退行性疾病是老年健康的隱形殺手,而這類疾病的發(fā)生多與蛋白質(zhì)-RNA 之間的異常結(jié)合相關(guān)。
在生物醫(yī)學領(lǐng)域,研究蛋白質(zhì)-RNA 結(jié)合至關(guān)重要,因為它在基因表達調(diào)控、RNA 加工與剪接、翻譯調(diào)控以及細胞應(yīng)激反應(yīng)等多個生物學過程中發(fā)揮著核心作用。理解蛋白質(zhì)-RNA 結(jié)合的機制是揭示復雜基因調(diào)控過程和解析疾病的遺傳基礎(chǔ)的關(guān)鍵,同時,蛋白質(zhì)-RNA 相互作用在 RNA 靶向治療中也具有重要應(yīng)用,為癌癥、遺傳性疾病及病毒性疾病的治療提供了新的方向。
近日,在國際人工智能頂會「第 39 屆人工智能年會」(The 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025) 公布的入選成果中,來自清華大學、倫敦大學學院、莫納什大學、北京郵電大學的聯(lián)合團隊提出的 CoPRA 模型引起了圈內(nèi)廣泛關(guān)注,并入選 Oral 環(huán)節(jié)。
這是首次嘗試通過復雜結(jié)構(gòu)架構(gòu)將蛋白質(zhì)語言模型 (PLM) 與 RNA 語言模型 (RLM) 結(jié)合,用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。為了測試 CoPRA 性能,研究人員從多個數(shù)據(jù)源整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集,并在 3 個數(shù)據(jù)集上評估了模型性能,結(jié)果顯示 CoPRA 在多個數(shù)據(jù)集上達到了最先進的性能。
相關(guān)成果以「CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction」為題,已發(fā)布預(yù)印本于 arXiv。
論文地址:
https://arxiv.org/abs/2409.03773
CoPRA 倉庫地址:
https://github.com/hanrthu/CoPRA
開源項目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
https://github.com/hyperai/awesome-ai4s
生物醫(yī)學界持續(xù)推進蛋白質(zhì)-RNA 相互作用研究
過去多年,生物醫(yī)學界的研究人員一直沒有停下過對于蛋白質(zhì)-RNA 相互作用的研究工作,并且取得了不少進展。
CLIP 實驗技術(shù)作為 RNA 研究最重要的技術(shù)之一,可以解析 RNA 結(jié)合蛋白 (RBP) 在整個轉(zhuǎn)錄組上的結(jié)合圖譜,是系統(tǒng)理解一個RBP 功能及其調(diào)控機制的基礎(chǔ)。但 CLIP 實驗費時費力,一次只能提供某一 RBP 在特定細胞環(huán)境下的 RNA 結(jié)合位點,而且對于實驗材料要求較高。然而,蛋白質(zhì)和 RNA 的結(jié)合隨著細胞環(huán)境的變化可能發(fā)生很大的改變,但研究蛋白質(zhì)對 RNA 的調(diào)控需要相同細胞環(huán)境的結(jié)合信息。
為了解決 RBP 在不同細胞環(huán)境下結(jié)合動態(tài)變化的問題,2021 年 2 月,清華大學結(jié)構(gòu)生物學高精尖創(chuàng)新中心張強鋒課題組在 Cell Research 雜志上,發(fā)表了題為「Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures」的研究成果。該工作使用 icSHAPE 實驗解析了 7 種常用細胞類型的 RNA 二級結(jié)構(gòu)圖譜,并開發(fā)人工智能算法,整合實驗獲得的細胞內(nèi) RNA 結(jié)構(gòu)以及對應(yīng)細胞環(huán)境的 RBP 結(jié)合信息,建立了基于細胞內(nèi) RNA 結(jié)構(gòu)信息預(yù)測細胞內(nèi) RBP 動態(tài)結(jié)合的新方法 PrismNet。
為預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力,業(yè)界也有多個計算方法被相繼提出,包括基于序列和基于結(jié)構(gòu)的方法?;谛蛄械姆椒ǚ謩e使用不同的序列編碼器處理蛋白質(zhì)和 RNA 序列,并隨后建模它們之間的相互作用。然而,由于結(jié)合親和力主要由結(jié)合界面的結(jié)構(gòu)決定,這些方法的性能通常受到限制。其他近期提出的方法專注于提取結(jié)合界面的結(jié)構(gòu)特征,如能量和接觸距離。基于這些提取的特征,研究人員發(fā)展出基于結(jié)構(gòu)的機器學習方法,可用于親和力預(yù)測。然而,由于數(shù)據(jù)集規(guī)模的限制,這些方法在新樣本上的泛化能力有限,且高度依賴于特征工程。
隨著人工智能技術(shù)的興起,不少蛋白質(zhì)語言模型 (PLMs) 和 RNA 語言模型 (RLMs) 已被開發(fā),這些模型在各種下游任務(wù)中展現(xiàn)了出色的性能和泛化能力。同時,由于蛋白質(zhì)/RNA 的三維結(jié)構(gòu)對于理解其功能至關(guān)重要,將結(jié)構(gòu)信息融入語言模型也成為一種新趨勢。
比如,美國密蘇里大學、肯塔基大學與阿拉巴馬大學組成的團隊利用多視角對比學習技術(shù)將關(guān)鍵的蛋白質(zhì)結(jié)構(gòu)信息融入到蛋白質(zhì)語言模型中?;谶@個設(shè)想,該團隊開發(fā)了 S-PLM:一種具有蛋白質(zhì) 3D 結(jié)構(gòu)信息感知能力的蛋白語言模型。S-PLM 在多項蛋白質(zhì)預(yù)測任務(wù)中展現(xiàn)出卓越性能,使用輕量化調(diào)優(yōu)工具進行訓練后,S-PLM 在蛋白質(zhì)功能預(yù)測、酶反應(yīng)類別預(yù)測和二級結(jié)構(gòu)預(yù)測等任務(wù)中的性能達到或超過當前最先進的方法。相關(guān)研究以「S-PLM: Structure-aware Protein Language Model via Contrastive Learning between Sequence and Structure」為題發(fā)表于 bioRxiv。
不過,盡管當前業(yè)界的研究展示了結(jié)構(gòu)信息驅(qū)動的生物語言模型在交互任務(wù)中的巨大潛力,但將來自不同生物學領(lǐng)域的預(yù)訓練模型結(jié)合的工作仍然少見。而在清華大學、倫敦大學學院、莫納什大學、北京郵電大學聯(lián)合提出的 CoPRA 中,首次嘗試將蛋白質(zhì)和 RNA 語言模型與復雜結(jié)構(gòu)信息結(jié)合,用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。
設(shè)計輕量級 Co-Former 模型構(gòu)建 CoPRA
整體而言, CoPRA 模型的構(gòu)建過程如下圖所示:
圖:CoPRA 模型概述
首先,研究人員將蛋白質(zhì)和 RNA 序列分別輸入到 PLM 和 RLM 中,然后從兩個語言模型的輸出中選擇交互界面處的嵌入,作為后續(xù)跨模態(tài)學習的序列嵌入。同時,其也從交互界面提取結(jié)構(gòu)信息 (interface feature),作為配對嵌入。
然后,研究人員設(shè)計了一個輕量級的 Co-Former 模型,將來自兩個語言模型的界面序列嵌入與復雜結(jié)構(gòu)信息結(jié)合,形成結(jié)構(gòu)-序列融合模塊 (structure-sequence fusion module)。具體而言,Co-Former 通過結(jié)構(gòu)引導的多頭自注意力和外積模塊融合 1D 和配對嵌入,并應(yīng)用任務(wù)相關(guān)的注意力掩碼。Co-Former 的輸出特殊節(jié)點和配對嵌入根據(jù)不同任務(wù)進行使用,包括兩個預(yù)訓練任務(wù) (Pretraining task) 和兩個下游親和力任務(wù) (Downstream task)。
研究人員還為 Co-Former 提出了一個雙范圍預(yù)訓練策略,以建模粗粒度的對比交互分類 (CPRI) 和精細粒度的界面距離預(yù)測 (MIDM),以原子級精度進行學習。
為了評估 CoPRA 與其他模型的性能,研究人員需要解決統(tǒng)一標注標準數(shù)據(jù)集缺失的問題。于是,他們從 3 個公共數(shù)據(jù)集收集了樣本:PDBbind、PRBABv2 和 ProNAB,整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集 PRA310,并在 PRA310 和 PRA201 數(shù)據(jù)集上評估了其模型性預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力的能力。
*PRA201 數(shù)據(jù)集:PRA310 的子集,每個復合物僅包含一個蛋白鏈和一個 RNA 鏈,并且有更嚴格的長度限制
CoPRA 在預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力方面性能最佳
如下表所示,CoPRA 的從頭訓練版本在 PRA310 數(shù)據(jù)集上達到了最佳性能。此外,大多數(shù)使用 LM 嵌入作為輸入的方法表現(xiàn)優(yōu)于其他方法,表明結(jié)合預(yù)訓練單模態(tài) LMs 進行親和力預(yù)測的巨大潛力。
表:PRA310 和 PRA201 數(shù)據(jù)集上的 5 折交叉驗證的平均指標
隨后,研究人員使用其整理的無監(jiān)督數(shù)據(jù)集 PRI30k 對模型進行了預(yù)訓練,顯著提高了其在兩個數(shù)據(jù)集上的整體性能。在 PRA310 數(shù)據(jù)集上,CoPRA 的 RMSE 為 1.391,MAE 為 1.129,PCC 為 0.580,SCC 為 0.589,遠優(yōu)于第二好的模型 CoPRA (從頭訓練版本)。PredPRBA 和 DeepNAP 支持蛋白質(zhì)-RNA 對親和力預(yù)測,研究人員將這些方法在 PRA201 數(shù)據(jù)集上的表現(xiàn)進行了比較,結(jié)果顯示,盡管 PRA201 中至少有 100 個樣本出現(xiàn)在它們的訓練集中,但它們在 PRA201 上的性能明顯低于它們報告的結(jié)果,表明這些方法的泛化能力較差。
CoPRA 在預(yù)測突變對結(jié)合親和力影響方面更強,且泛化能力極佳
為了進一步評估模型對親和力的細粒度理解,研究人員將模型重定向為預(yù)測蛋白質(zhì)的單點突變對蛋白質(zhì)-RNA 復合物的影響。參考蛋白質(zhì)突變效應(yīng)預(yù)測的相關(guān)研究,研究人員在每個復合物級別上對指標進行平均,評估了 CoPRA 在 PRI30k 上進行預(yù)訓練并在 PRA310 上進行調(diào)優(yōu)后的 zero-shot 性能和微調(diào)性能。
如下表所示,在使用 mCSM 的交叉驗證集進行微調(diào)后,本研究提出的模型在所有 4 個指標上均超越了其他模型,RMSE 為 0.957,MAE 為 0.833,PCC 為 0.550,SCC 為 0.570。
表:在 mCSM 盲測集上的每個結(jié)構(gòu)的表現(xiàn)
盡管沒有看到任何突變復合物結(jié)構(gòu),但這種優(yōu)越的性能來源于雙重預(yù)訓練目標,這一表現(xiàn)證明了 CoPRA 在不同親和力相關(guān)任務(wù)上的泛化能力。
多模態(tài)蛋白質(zhì)語言模型的突破性進展
上文介紹的研究思路本質(zhì)是將蛋白質(zhì)、RNA 等多種生物模態(tài)與復雜結(jié)構(gòu)信息相結(jié)合,也就是所謂的多模態(tài)學習 (MultiModal Learning)。簡單來講,多模態(tài)學習是在深度學習的框架下,將各種不同類型的數(shù)據(jù)整合在一個模型中進行建模。
過去幾年,隨著大語言模型的快速發(fā)展,研究人員開始嘗試將其應(yīng)用于蛋白質(zhì)科學領(lǐng)域,以準確理解和預(yù)測蛋白質(zhì)的功能、結(jié)構(gòu)和性質(zhì)。然而,此前的蛋白質(zhì)導向型大語言模型主要將氨基酸序列作為文本形式處理,未能充分利用蛋白質(zhì)的豐富結(jié)構(gòu)信息,如今,多模態(tài)學習的進展則為越來越多的相關(guān)研究提供了新思路。
比如,在藥物研發(fā)領(lǐng)域,準確有效地預(yù)測蛋白質(zhì)與配體的結(jié)合親和力對于藥物篩選和優(yōu)化至關(guān)重要。然而,此前的研究沒有考慮到分子表面信息在蛋白質(zhì)-配體相互作用中的重要作用。基于此,來自廈門大學的研究人員提出了一種新穎的多模態(tài)特征提取 (MFE) 框架,該框架首次結(jié)合了蛋白質(zhì)表面、3D 結(jié)構(gòu)和序列的信息,并使用交叉注意機制進行不同模態(tài)之間的特征對齊。實驗結(jié)果表明,該方法在預(yù)測蛋白質(zhì)-配體結(jié)合親和力方面取得了最先進的性能,相關(guān)研究以「Surface-based multimodal protein–ligand binding affinity prediction」為題,于 2024 年 6 月發(fā)布在 Bioinformatics 上。
2024 年 12 月,來自華東師范大學等機構(gòu)的研究團隊提出了一個創(chuàng)新性的解決方案 EvoLLama,這是一個將蛋白質(zhì)結(jié)構(gòu)編碼器、序列編碼器和大語言模型進行多模態(tài)融合的框架。在零樣本設(shè)置下,EvoLLama 展現(xiàn)出了強大的泛化能力,相比其他微調(diào)基線模型提升 1%-8% 的性能,超越當前最先進的監(jiān)督微調(diào)模型平均 6% 的性能。相關(guān)研究成果以「EvoLlama: Enhancing LLMs’ Understanding of Proteins via Multimodal Structure and Sequence Representations」為題已發(fā)布預(yù)印本于 arXiv。
當然,多模態(tài)學習只是可供選擇的研究思路之一,未來,通過更多機器學習手段研究蛋白質(zhì)的表面,生物學家可以更深入地了解其如何與其他生物分子相互作用,從而為新藥研發(fā)提供助益。