蛋白質的功能很大程度上取決于其 3D 結構。19 世紀中期,科學界普遍認為蛋白質結構是固定的、剛性的,類似「鎖與鑰匙」模型 (lock-and-key model),即蛋白質與配體的結合是由固定的三維結構決定的。然而,當 Daniel Koshland 提出酶與底物結合時會發(fā)生構象變化的觀點后,傳統(tǒng)思維開始受到挑戰(zhàn)。
1980 年代,分子動力學模擬 (Molecular Dynamics, MD) 興起,首次從計算角度揭示了蛋白質的運動軌跡,自此,蛋白質動態(tài)結構的功能性作用受到越來越多的重視。對于生物技術研究人員和科學家而言,理解蛋白質「運動」的動態(tài)特征對理解生命過程、研發(fā)新型藥物都具有重要的意義。
舉例而言,G 蛋白偶聯(lián)受體 (GPCR) 是許多藥物的主要靶點,占目前 FDA 批準藥物的 30% 以上。然而,GPCR 不是剛性結構,而是具有高度的動態(tài)性,不同的構象狀態(tài)會影響藥物結合模式。如果僅基于靜態(tài)晶體結構設計藥物,可能會錯過關鍵的結合位點,導致藥物親和力和選擇性不足。動態(tài)結構預測可以幫助識別 GPCR 在生理環(huán)境下的多種構象,從而優(yōu)化小分子藥物的設計,提高靶向治療的成功率。
在此背景下,來自復旦大學、上海科學智能研究院的朱思語及漆遠教授團隊,聯(lián)合南京大學姚遙教授,提出了一種創(chuàng)新性的 4D 擴散模型 AlphaFolding,結合分子動力學模擬數據,以學習動態(tài)蛋白質結構。這是首個基于擴散模型的方法,能夠同時預測多個時間步長的蛋白質運動軌跡。
在基準數據集上的驗證結果表明,該新模型在預測包含最多 256 個氨基酸、跨度達 32 個時間步長的動態(tài) 3D 結構方面表現出高精度,能夠有效捕捉穩(wěn)定狀態(tài)下的局部柔性以及顯著的構象變化。
相關成果以「4D Diffusion for Dynamic Protein Structure Prediction with Reference and Motion Guidance」為題,已入選國際頂會 AAAI 2025,預印本已發(fā)布于 arXiv。
蛋白質動態(tài)結構預測研究尚存空白
AlphaFolding 模型可以被視作結構生物學研究的重要進展。所謂結構生物學,是以蛋白質等生物大分子的結構、運動和相互作用的研究為基礎來闡明生命現象的科學, 現已發(fā)展成為分子生物學的主流。
近年來,深度學習技術的進步,加上 Protein Data Bank (PDB) 實驗蛋白質結構數據的指數級增長,使得蛋白質結構預測領域取得了不少重要突破。其中,最知名的莫過于 AlphaFold2,其使用最新的人工智能算法對蛋白質結構實現了接近實驗精度的精準預測,相關成果被 Science 評為 2020 年十大科學突破之一。
無獨有偶,2021 年 7 月,華盛頓大學生物學家 David Baker 團隊研發(fā)的 RoseTTAFold 構建了一種「三軌 (three-track)」神經網絡,能在十幾分鐘之內解析給定序列蛋白質的三維結構。
此外,大規(guī)模數據存儲庫的可用性促進了蛋白質構象采樣研究的發(fā)展。例如,微軟研究院開發(fā)出一種名為 Distributional Graphformer (DiG) 的深度學習框架,旨在預測分子結構在平衡態(tài)下的分布。傳統(tǒng)的分子動力學模擬和增強采樣方法雖然能夠獲得分子的平衡分布,但這些方法計算成本高且耗時,難以應用于復雜的實際應用場景。而 DiG 則是通過深度學習技術,能夠快速生成真實多樣的構象。
盡管蛋白質結構及其構象預測都取得了重大突破,但動態(tài)結構的研究仍然相對滯后。以 AlphaFold2 為例,其能夠準確預測蛋白質的三維結構,但只能預測蛋白質在一個瞬間的靜態(tài)結構,尚無法實現動態(tài)變化的預測。
2024 年 5 月,DeepMind 發(fā)布了升級后的 AlphaFold3,它能夠以前所未有的「原子精度」預測出所有生物分子的結構和相互作用,包括蛋白質、核酸和更小分子的 3D 結構,并揭示它們如何組合在一起,但是其對生物分子的動態(tài) 3D 結構預測依然存在很大的局限性。
因此,本研究新提出的創(chuàng)新性 4D 擴散模型其實是為了彌補這一研究空白,重點關注蛋白質結構的動態(tài)特性,為更深入理解蛋白質功能提供新的思路。研究人員充分利用高質量的分子動力學模擬 (MD) 數據,生成包含完整側鏈表示的動態(tài)蛋白質結構,適用于由數百個氨基酸組成的復雜蛋白質。這將擴展 MD 模擬的適用范圍,使其能夠預測更大、更復雜的蛋白質系統(tǒng)的動態(tài)行為,提升對蛋白質動態(tài)特性的理解。
在預測多個時間步長的蛋白質運動軌跡方面表現出高精度
靜態(tài)蛋白質模型相對容易構建,那么動態(tài)的蛋白質模型該如何表示呢?為了解決這一問題,研究人員采用 AlphaFold2 的基于坐標框架 (frame-based) 蛋白質結構表示方法,并將其擴展至時間維度,以描述隨時間變化的結構變換。
在靜態(tài)蛋白質建模中,蛋白質由一系列氨基酸殘基 (amino acid residues) 組成,每個殘基由 backbone 框架進行參數化。而在本研究中,研究人員將動態(tài)蛋白質定義為包含 N 個氨基酸殘基,且其 backbone 框架在 S 個時間步 (time steps) 內發(fā)生變換的系統(tǒng)。這些框架通過特殊歐幾里得變換 (Special Euclidean Transformations) 進行變換,以保持局部框架到全局參考框架的方向。
蛋白質中的所有額外原子坐標根據與二面角 (torsion angles) 的依賴關系組織為剛性原子組 (rigid groups),以確?;瘜W結構完整性。在每個剛性組內,所有原子相對位置和方向保持不變。結合變換參數 (transformation parameters),模型可以在時間維度上從理想化的實驗坐標重建所有原子位置。
在此基礎上,下圖展示了整個研究模型構建的方法:該擴散模型以參考結構和對應的殘基序列 (amino acid residues sequence) 作為輸入,并生成一系列去噪后的 3D 蛋白質結構 (denoised 3D structure) 作為輸出。
研究方法概述
研究人員使用 3D 結構嵌入器 (3D structure embedder) 和 GeoFormer 分別對 3D 蛋白質結構和殘基序列進行嵌入。不變點注意力 (Invariant Point Attention, IPA) 通過結合殘基的顯式框架信息來更新節(jié)點特征。
參考網絡 (Reference Network) 和運動對齊模塊 (Motion Alignment module) 基于參考 3D 蛋白質結構捕捉 3D 蛋白質動力學序列。整個生成模型被構造為基于分數的擴散模型 (score-based diffusion model),其中節(jié)點和邊的特征嵌入分別通過 EdgeUpdate 和 BackboneUpdate 模塊進行更新。
構建模型后,研究人員將所提出的框架與當前短程到長程 (Short-term-to-long-term, S2L) 任務中的 DFF 和 Flow-Matching 進行了對比實驗,所使用的數據集包括 ATLAS 和快速折疊蛋白 (Fast-Folding Proteins)。
結果如下表所示:在 ATLAS 數據集上的 S2L 任務,研究提出的方法 將 R32 誤差從 4.60 降低至 2.12,顯著提高了長期預測的準確性;在 Fast-Folding 數據集上的 S2L 任務,研究提出的方法將 R32 誤差從 5.48 降低至 4.39,同樣表現出良好的長期預測能力。同時,研究提出的模型在 O2O 任務上的表現與 S2L 任務相當,這表明其優(yōu)秀的泛化能力。
DFF、FM 與本研究提出的方法在 ATLAS 蛋白質數據集上的 Cα-RMSE 比較
DFF、FM 與本研究提出的方法在 Fast-Folding 蛋白質數據集上的 Cα-RMSE 比較
此外,該方法能夠處理包含較長模擬時間的蛋白質,這些蛋白在每個軌跡步長上的動力學變化更大。實驗結果進一步驗證了該方法在建模蛋白動力學方面的有效性 (efficacy in modeling protein kinetics)。
更進一步,研究人員還通過可視化模型生成前兩個 TIC (時間一致性成分) 的動態(tài)蛋白質分布,并與真實數據進行比較。如下圖所示,新模型有效地預測了蛋白質的動力學行為,與真實分布高度一致。
不同蛋白質在前兩個 TIC 組件上的樣本分布
* 點的顏色越深,出現頻率越高,藍色曲線表示從 MD 數據估計的核密度分布
下圖則展示了在選定時間步上的逆擴散過程,突出了蛋白質結構在去噪過程中逐漸變得更加一致的過程??梢钥吹?,所提出的方法有效地捕捉了蛋白質的動力學,生成了合理的軌跡。
從初始噪聲 (左) 經過逆擴散過程逐步形成蛋白質結構 (右) 的可視化展示
* 粉色和黃色區(qū)域分別標注了 α 螺旋和 β 折疊
蛋白質結構的動態(tài)特性將受到更多關注
蛋白質在細胞環(huán)境中并非靜態(tài)存在,而是處于復雜的動態(tài)變化之中。傳統(tǒng)的靜態(tài)結構預測方法雖然在揭示蛋白質折疊和相互作用方面取得了重要進展,但無法全面捕捉蛋白質的動態(tài)行為。因此,動態(tài)蛋白質結構預測成為結構生物學和計算生物學的前沿挑戰(zhàn)之一,近年來,也有越來越多的研究人員投身于這一方向。
2022 年 12 月,西湖大學李子青團隊與廈門大學、德睿智藥合作,研發(fā)了能夠刻畫蛋白質構象變化與親和力預測的 AI 模型 ProtMD。這是第一個嘗試解析蛋白質動態(tài)構象的 AI 方法,給定藥物分子和靶點蛋白,ProtMD 預測藥物分子與生物體內靶點蛋白質結合后蛋白質結構的變化過程,推斷藥物與靶標蛋白結合的穩(wěn)定性,預測藥物功能,從而提升 AI 藥物設計的精度和效率,加速臨床前藥物研發(fā)。
相關研究成果以「Pre-Training of Equivariant Graph Matching Networks with Conformation Flexibility for Drug Binding」為題,發(fā)表在 Advanced Science。
2024 年 8 月,康涅狄格大學的一項新研究揭示了一種先進的計算模型和工具,能夠準確預測蛋白質的動態(tài)特征及其結晶傾向,相關研究成果以「Protein dynamics inform protein structure: An interdisciplinary investigation of protein crystallization propensity」為題發(fā)表在材料科學領域期刊 Matter 上。研究的重點在于蛋白質的自然運動和波動,即其搖擺特性,如何影響其功能屬性,尤其是蛋白質形成高質量晶體的能力。
2024 年 10 月,上海交通大學鄭雙佳課題組聯(lián)合星藥科技、中山大學藥學院以及美國萊斯大學,提出了為蛋白質動態(tài)對接 (dynamic docking) 設計的幾何深度生成模型 DynamicBind,可以有效地將蛋白質構象從最初的 AlphaFold 預測狀態(tài)調整到類似全息 (holo-like) 狀態(tài),為后 AlphaFold 時代的藥物研發(fā)提供了一種基于深度學習的、考慮蛋白動態(tài)變化的新研究范式。
相關研究以「DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model」為題,發(fā)表在 Nature Communications 上。
總而言之,動態(tài)蛋白質結構預測不僅能夠幫助理解生命過程,還能在藥物開發(fā)、疾病機理研究和工業(yè)生物技術等領域發(fā)揮重要作用。從 GPCR 藥物設計、蛋白-蛋白相互作用,到酶催化和蛋白質聚集病理學研究,動態(tài)結構預測將不斷推動生命科學的前沿發(fā)展。