版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

劍橋大學(xué)團(tuán)隊(duì)提出AlphaFold-Metainference,精準(zhǔn)預(yù)測(cè)無序蛋白質(zhì)結(jié)構(gòu)集合

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

自 2018 年底 AlphaFold 橫空出世以來,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域在 AI 的加持下可謂是發(fā)生了翻天覆地的變化。如今,AlphaFold 不僅在預(yù)測(cè)精度方面令人刮目相看,更是在最新的迭代中將預(yù)測(cè)范圍逐步拓寬。也難怪中科院院士施一公曾在媒體面前毫不吝嗇對(duì)其評(píng)價(jià)道,「依我之見,這是人工智能對(duì)科學(xué)領(lǐng)域最大的一次貢獻(xiàn),也是人類在 21 世紀(jì)取得的最重要的科學(xué)突破之一,是人類在認(rèn)識(shí)自然界的科學(xué)探索征程中一個(gè)非常了不起的歷史性成就」。

盡管 AlphaFold 引領(lǐng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)革命如此迅速,也仍有一些懸而未決的問題攔路在前。其中,針對(duì)無序蛋白質(zhì)的研究在生命科學(xué)領(lǐng)域中一直是個(gè)難題。這些蛋白質(zhì)在細(xì)胞信號(hào)傳導(dǎo)、調(diào)控過程以及多種疾病中發(fā)揮著關(guān)鍵作用,**但由于它們?cè)诮Y(jié)構(gòu)上具有特殊的異質(zhì)性和動(dòng)態(tài)性,無法用單一結(jié)構(gòu)表示,**因此其研究并未像有序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)一樣進(jìn)展顯著。而 AlphaFold 的成功卻為科學(xué)家指明新的解題思路。

近日,來自劍橋大學(xué)的研究團(tuán)隊(duì)近期發(fā)表了一項(xiàng)新研究,提出了一種名為 AlphaFold-Metainference 的方法。**該方法利用了 AlphaFold 預(yù)測(cè)的對(duì)齊誤差 (predicted aligned error, PAE) 圖與分子動(dòng)力學(xué) (molecular dynamics, MD) 模擬中的距離變化矩陣之間的相關(guān)性,從而構(gòu)建無序蛋白質(zhì)和含無序區(qū)域蛋白質(zhì)的結(jié)構(gòu)集合 (structural ensembles),**為基于深度學(xué)習(xí)方法的無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了新思路,同時(shí)也進(jìn)一步拓寬了 AlphaFold 的適用范圍。

目前,相關(guān)研究成果以「AlphaFold prediction of structural ensembles of disordered proteins」發(fā)表在國(guó)際學(xué)術(shù)期刊 Nature Communications 上。

研究亮點(diǎn):
* 突破預(yù)測(cè)局限,實(shí)現(xiàn)高精度預(yù)測(cè)。研究證實(shí)了 AlphaFold 即便未在無序蛋白數(shù)據(jù)上訓(xùn)練,也能準(zhǔn)確預(yù)測(cè)其殘基間距離。

* 創(chuàng)新預(yù)測(cè)方法,構(gòu)建結(jié)構(gòu)集合。該方法利用了 AlphaFold 預(yù)測(cè)的距離作為結(jié)構(gòu)約束,結(jié)合元推理框架和分子動(dòng)力學(xué)模擬構(gòu)建無序蛋白及含有無序區(qū)域蛋白的結(jié)構(gòu)集合。

* 深化深度學(xué)習(xí)方法,拓展應(yīng)用邊界。該方法在處理高度無序和部分無序蛋白時(shí)表現(xiàn)出色,生成的結(jié)構(gòu)集合與實(shí)驗(yàn)數(shù)據(jù)一致性顯著優(yōu)于單個(gè) AlphaFold 結(jié)構(gòu),有效解決了無序蛋白結(jié)構(gòu)預(yù)測(cè)難題。

論文地址:

https://www.nature.com/articles/s41467-025-56572-9

開源項(xiàng)目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:

https://github.com/hyperai/awes

數(shù)據(jù)集:多源數(shù)據(jù)嚴(yán)謹(jǐn)驗(yàn)證

在深度學(xué)習(xí)模型的訓(xùn)練方面,由于無序蛋白質(zhì)的結(jié)構(gòu)集合體在數(shù)量和準(zhǔn)確度方面都很低,但是可以基于有序蛋白的可用信息對(duì)無序蛋白質(zhì)進(jìn)行預(yù)測(cè),因此研究人員采用了蛋白質(zhì)數(shù)據(jù)庫(kù) (Protein Data Bank, PDB) 中大量的高分辨率折疊蛋白質(zhì)結(jié)構(gòu)訓(xùn)練深度學(xué)習(xí)模型。

在實(shí)驗(yàn)數(shù)據(jù)對(duì)比方面,由于獲取無序蛋白質(zhì)的殘基間距離的試驗(yàn)信息具有挑戰(zhàn)性,同時(shí)加上數(shù)據(jù)標(biāo)簽本身可能會(huì)影響構(gòu)象集合的性質(zhì)。**為此研究人員采用了小角 X 射線散射 (small-angle X-ray scattering, SAXS) 數(shù)據(jù)和核磁共振 (nuclear magnetic resonance, NMR) 擴(kuò)散測(cè)量,**為研究提供了無標(biāo)簽的無序蛋白殘基間距離分布信息,用于對(duì)比和驗(yàn)證預(yù)測(cè)結(jié)果。

另外,在進(jìn)一步的驗(yàn)證中,**研究人員還分析了通過全原子分子動(dòng)力學(xué) (all-atom molecular dynamics) 模擬獲得的結(jié)構(gòu)集合數(shù)據(jù) Aβ 和 α-synuclein,并且使用 CALVADOS-2 (C2) 進(jìn)行粗粒度模擬,**從而進(jìn)一步驗(yàn)證了 AlphaFold 預(yù)測(cè)距離的準(zhǔn)確性。

模型架構(gòu):創(chuàng)新融合元推理方法

本研究所闡述的 AlphaFold-Metainference 方法,是用于生成代表無序蛋白質(zhì)和含無序區(qū)域蛋白質(zhì)天然狀態(tài)的結(jié)構(gòu)集合。

該方法的核心基于一項(xiàng)觀察,即 AlphaFold 預(yù)測(cè)的殘基間距離即使對(duì)于無序蛋白質(zhì)也是相對(duì)準(zhǔn)確的,因此可以在元推理框架內(nèi)的分子動(dòng)力學(xué)模擬中用作結(jié)構(gòu)約束。簡(jiǎn)單來說,為了生成結(jié)構(gòu)集合,AlphaFold-Metainference 使用了預(yù)測(cè)的距離作為分子動(dòng)力學(xué)模擬中的結(jié)構(gòu)約束,將 AlphaFold 距離圖 (distograms) 轉(zhuǎn)換為結(jié)構(gòu)集合。

首先是 AlphaFold 預(yù)測(cè)距離。研究人員借助 AlphaFold 的距離圖預(yù)測(cè)殘基間平均距離,并通過特定公式計(jì)算預(yù)測(cè)距離和標(biāo)準(zhǔn)偏差。然后,基于 MMseqs2 進(jìn)行多序列對(duì)比,使用默認(rèn)設(shè)置的 AlphaFold 1.1.1 模型進(jìn)行預(yù)測(cè),期間不使用結(jié)構(gòu)模板。AlphaFold 輸出殘基間距離分布到 64 個(gè)等寬的 bin 中,范圍從 2.15625 到 21.84375 ?,最后一個(gè) bin 還包括了超過 21.84375 ? 的距離。

然后是結(jié)合元推理 (Metainference) 方法,所謂元推理就是一種貝葉斯推理方法,它能夠根據(jù)最大熵原理,通過結(jié)合先驗(yàn)信息和實(shí)驗(yàn)數(shù)據(jù)來確定結(jié)構(gòu)集合。在該階段,**研究人員將 AlphaFold 預(yù)測(cè)的距離圖作為偽實(shí)驗(yàn)數(shù)據(jù),運(yùn)用貝葉斯元推理方法,**將結(jié)構(gòu)異質(zhì)性和系統(tǒng)誤差分開,如力場(chǎng)或前向模型不準(zhǔn)確、數(shù)據(jù)中的隨機(jī)誤差以及由于系綜樣本量有限產(chǎn)生的誤差等,從而確定結(jié)構(gòu)集合。

在分子動(dòng)力學(xué)模擬中,依據(jù)元推理能量函數(shù)進(jìn)行計(jì)算,通過多副本模擬和吉布斯采樣確定誤差參數(shù),**最后再使用 CALVADOS-2 力場(chǎng)實(shí)施粗?;M,**實(shí)現(xiàn) AlphaFold-Metainference。

最后是距離約束選擇,該階段依據(jù)距離概率和預(yù)測(cè)對(duì)齊誤差篩選 AlphaFold 預(yù)測(cè)的距離,**結(jié)合蛋白質(zhì)親水性和預(yù)測(cè)局部距離差測(cè)試 (predicted local distance difference test, pLDDT) 分?jǐn)?shù)確定選擇標(biāo)準(zhǔn)。**值得注意的是,實(shí)驗(yàn)利用 pLDDT 分?jǐn)?shù)選取結(jié)構(gòu)化區(qū)域的殘基距離并非排除其作為距離約束,以優(yōu)化結(jié)構(gòu)集合的生成。

所有分子動(dòng)力學(xué)模擬都從 AlphaFold 預(yù)測(cè)的結(jié)構(gòu)開始,在 NVT 系綜下進(jìn)行,每個(gè)模擬設(shè)置 6 個(gè)副本,每個(gè)副本運(yùn)行 100 萬步,從能量最小化步驟得到的不同初始位置開始模擬。**模擬采用 Langevin 積分器,**時(shí)間步長(zhǎng)為 5 fs,摩擦系數(shù)為 0.01 ps?1,使用基于 Cα 的模型及 CALVADOS-2 參數(shù)和函數(shù)形式。

其中,針對(duì)高度無序和部分無序蛋白質(zhì),使用了 PULCHRA 將粗粒化集合中的所有結(jié)構(gòu)轉(zhuǎn)換為全原子表示,再利用 GROMACS 進(jìn)行能量最小化,以獲得更精確的結(jié)構(gòu)。

總而言之,研究人員所展示的結(jié)果闡明了如何使用最初為預(yù)測(cè)折疊蛋白質(zhì)天然狀態(tài)而開發(fā)的深度學(xué)習(xí)方法來生成代表無序蛋白質(zhì)天然狀態(tài)的結(jié)構(gòu)集合。該方法大大擴(kuò)展了基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)范圍,為無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了一個(gè)新思路。

實(shí)驗(yàn)結(jié)果:全面驗(yàn)證其合理性

在 AlphaFold 預(yù)測(cè)準(zhǔn)確性方面

研究人員對(duì)比了一組 11 種既有 SAXS 測(cè)量數(shù)據(jù)又有 NMR 擴(kuò)散測(cè)量數(shù)據(jù)的蛋白質(zhì),AlphaFold 預(yù)測(cè)的距離分布與 SAXS 衍生的距離分布之間具有良好的一致性。并且研究人員還添加了一種折疊蛋白質(zhì)作為對(duì)照,如下圖所示。

SAXS 獲得的殘基間距離分布,與 AlphaFold 預(yù)測(cè)的高度無序蛋白質(zhì)的殘基間距離分布的比較

值得一提的是,由于 AlphaFold 預(yù)測(cè)的距離最遠(yuǎn)可達(dá)約 22 ?,因此 AlphaFold 預(yù)測(cè)的距離分布并未覆蓋整個(gè) SAXA 衍生的分布。結(jié)果顯示,添加的對(duì)照組的 DKL 值為 0.037,與 11 種高度無序蛋白質(zhì)的 DKL 值(DKL 范圍為 0.008-0.096)相當(dāng),這進(jìn)一步表明了 AlphaFold 對(duì)于無序和有序蛋白質(zhì)的殘基間距離的預(yù)測(cè)具有相當(dāng)?shù)臏?zhǔn)確性。

值得一提的是,由于 AlphaFold 預(yù)測(cè)的距離最遠(yuǎn)可達(dá)約 22 ?,因此 AlphaFold 預(yù)測(cè)的距離分布并未覆蓋整個(gè) SAXA 衍生的分布。結(jié)果顯示,添加的對(duì)照組的 DKL 值為 0.037,與 11 種高度無序蛋白質(zhì)的 DKL 值(DKL 范圍為 0.008-0.096)相當(dāng),這進(jìn)一步表明了 AlphaFold 對(duì)于無序和有序蛋白質(zhì)的殘基間距離的預(yù)測(cè)具有相當(dāng)?shù)臏?zhǔn)確性。

另外,AlphaFold 預(yù)測(cè)的距離與從 Aβ 和 α-synuclein 的 MD 集合以及從 CALVADOS-2 集合中反算出來的距離同樣具有良好的一致性。

在高度無序結(jié)構(gòu)集合驗(yàn)證方面

利用小角 X 射線散射測(cè)量可以計(jì)算出成對(duì)距離分布。研究人員比較了實(shí)驗(yàn)所得的距離分布與從 AlphaFold-Metainference 模擬確定的結(jié)構(gòu)集合中獲得距離分布,比較對(duì)象仍為上述所提到的 11 種高度無序蛋白質(zhì)。

同時(shí)為了進(jìn)一步比較,研究人員還展示了使用 CALVADOS-2 獲得的距離分布,以及直接從單個(gè) AlphaFold 結(jié)構(gòu)中生成的 AlphaFold 派生距離分布。為了提供定量比較,研究人員發(fā)現(xiàn)與單個(gè) AlphaFold 派生結(jié)構(gòu)相比,AlphaFold-Metainference 與 CALVADOS-2 提供的結(jié)構(gòu)集合與 SAXS 數(shù)據(jù)更為一致。

研究人員進(jìn)一步使用 NMR 化學(xué)位移來比較結(jié)構(gòu)集合,這些化學(xué)位移通過 CamShift 在每個(gè)時(shí)間步長(zhǎng)進(jìn)行反算獲得。**結(jié)果顯示,部分情況下 AlphaFold-Metainference 的預(yù)測(cè)更加準(zhǔn)確。**如下圖所示。

來自 SAXS 數(shù)據(jù)和通過分子模擬獲得的結(jié)構(gòu)集合中高度無序蛋白質(zhì)成對(duì)距離分布的比較

* SAXS 獲得的實(shí)驗(yàn)成對(duì)距離的分布表示為黑線

* AlphaFold 單一結(jié)構(gòu)預(yù)測(cè)表示為紫線

* AlphaFold-Metainference 結(jié)構(gòu)集合預(yù)測(cè)表示為綠線

* CALVADOS-2獲得的成對(duì)距離分布表示為橙線

在部分無序結(jié)構(gòu)集合驗(yàn)證方面

研究人員準(zhǔn)備了一組包括 6 個(gè)既有有序結(jié)構(gòu)域又有無序結(jié)構(gòu)域的蛋白質(zhì),這些蛋白質(zhì)具有不同的序列長(zhǎng)度,且可以獲得 SAXS 數(shù)據(jù)進(jìn)行驗(yàn)證。

首先是 TDP-43,這是一種多功能 RNA 結(jié)合蛋白,具有模塊化結(jié)構(gòu),可參與多種細(xì)胞過程,包括轉(zhuǎn)錄、前 mRNA 剪接和 mRNA 穩(wěn)定性調(diào)節(jié),其與肌萎縮側(cè)索硬化癥及其他神經(jīng)退行性疾病有關(guān)。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)應(yīng)用研究人員過濾標(biāo)準(zhǔn)來選擇 AlphaFold 預(yù)測(cè)的距離,并隨后應(yīng)用帶有這些距離約束的 AlphaFold-Metainference 時(shí),**所獲得的結(jié)構(gòu)集合與 SAXS 數(shù)據(jù)一致性顯著更好,**DKL 值僅為 0.018,**優(yōu)于直接使用 AlphaFold 預(yù)測(cè)的結(jié)構(gòu)與 SAXS 數(shù)據(jù)時(shí) 0.582 的 DKL 值。**如下圖所示。

使用 AlphaFold-Metainference 預(yù)測(cè)的 TDP-43 的結(jié)構(gòu)集合

隨后研究人員繼續(xù)分析了 ataxin-3 和人類朊蛋白。對(duì)于前者,取得了與上述 TDP-43 相似的結(jié)果,直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中使用 AlphaFold 得到的預(yù)測(cè)結(jié)構(gòu)與 SAXS 數(shù)據(jù)的一致性較差,DKL 值為 0.653,而當(dāng)應(yīng)用過濾標(biāo)準(zhǔn)來選擇 AlphaFold-Metainference 模擬的 AlphaFold 預(yù)測(cè)距離時(shí),**獲得了與 SAXS 數(shù)據(jù)一致性更好的結(jié)構(gòu)集合,**DKL 值僅為 0.020。如下圖所示。

使用 AlphaFold-Metainference 預(yù)測(cè)的 ataxin-3 結(jié)構(gòu)集合對(duì)于后者,直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中使用 AlphaFold 得到的預(yù)測(cè)結(jié)構(gòu)與 SAXS 數(shù)據(jù)的一致性較差,DKL 值為 0.1,**而當(dāng)應(yīng)用過濾標(biāo)準(zhǔn)時(shí),則獲得了與 SAXS 數(shù)據(jù)一致性更好的結(jié)構(gòu)集合,**DKL 值僅為 0.053。如下圖所示。


使用 AlphaFold-Metainference 預(yù)測(cè)的人朊病毒蛋白的結(jié)構(gòu)集合

另外,研究人員還針對(duì)其他 3 種蛋白質(zhì) CbpD、H16 和 PC 進(jìn)行了研究,結(jié)果表明,**在所有情況下,實(shí)驗(yàn)和反向計(jì)算的殘基間距離分布之間的一致性非常好,**并且相對(duì)于直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中獲取的 AlphaFold 單個(gè)結(jié)構(gòu)有很大的改善,如下圖 D 所示。

最后,在與 CALVADOS-2 方法的比較中,AlphaFold-Metainference 在 6 種蛋白質(zhì)的其中 4 個(gè)(ataxin-3、CbpD、H16 和 PC),性能都更優(yōu)秀,其余 2 種(TDP-43 和人類朊病毒蛋白)產(chǎn)生了相當(dāng)?shù)慕Y(jié)構(gòu)集合。如下圖所示。

部分無序蛋白質(zhì)的 SAXS 衍生和 AlphaFold 預(yù)測(cè)的成對(duì)距離分布的比較

基于深度學(xué)習(xí)的無序蛋白預(yù)測(cè)進(jìn)展

在過去的幾年里,AlphaFold 主要被應(yīng)用于預(yù)測(cè)折疊蛋白質(zhì)的靜態(tài)結(jié)構(gòu),也讓其多為科研界所詬病,而本次研究無疑證實(shí)了其在無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面中同樣具有潛在應(yīng)用優(yōu)勢(shì),同時(shí)也為無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了新的研究方向。

事實(shí)上,隨著 AI 與生命科學(xué)的緊密融合,**針對(duì)于無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的探討早已是層出不窮,**利用 AI 揭示生命之謎也成了現(xiàn)代生命科學(xué)領(lǐng)域中主流的手段。

比如此前曾發(fā)布在 Current Opinion in Structural Biology 上的一篇文章探討了基于深度學(xué)習(xí)在內(nèi)在無序蛋白 (Intrinsically disordered proteins , IDPs) 研究中的應(yīng)用進(jìn)展,并且闡述了其在無序蛋白預(yù)測(cè)、構(gòu)象集合表征等方面的推動(dòng)作用。

相關(guān)研究以「Deep learning for intrinsically disordered proteins:From improved predictions to deciphering conformational ensembles」為題發(fā)表。

* 論文地址:

https://www.sciencedirect.com/science/article/pii/S0959440X24001775

無獨(dú)有偶,來自丹麥哥本哈根大學(xué)的研究團(tuán)隊(duì)以「Conformational ensembles of the human intrinsically disordered proteome」為題,在 Nature 上發(fā)布了一篇關(guān)于無序蛋白質(zhì)研究的文章,其中討論了利用多種深度學(xué)習(xí)方法預(yù)測(cè) IDP 的無序區(qū)域、構(gòu)象集合及相關(guān)屬性,包括的深度學(xué)習(xí)方法如上文提到的 AlphaFold,以及蛋白質(zhì)語(yǔ)言模型、生成對(duì)抗網(wǎng)絡(luò)等。

*論文地址:

https://www.nature.com/articles/s41586-023-07004-5

毫無疑問,AI 的快速發(fā)展正在加速我們?nèi)チ私馍恼嬷B。曾經(jīng)英國(guó)科學(xué)家約翰·肯德魯用 X 射線晶體學(xué)探索第一個(gè)蛋白質(zhì)結(jié)構(gòu),花費(fèi)了整整 12 年時(shí)間,如今 AlphaFold 只需要短短幾年就能破解數(shù)以億計(jì)個(gè)蛋白質(zhì)的折疊之謎,而未來,誰(shuí)又能斷言我們不能掌握無序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)呢?