版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

西湖大學利用 Transformer 分析百億多肽的自組裝特性,破解自組裝法則

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

多肽是兩個以上氨基酸通過肽鍵組成的生物活性物質(zhì),可以通過折疊、螺旋形成更高級的蛋白質(zhì)結(jié)構(gòu)。多肽不僅與多個生理活動相關(guān)聯(lián),還可以自組裝成納米粒子,參與到生物檢測、藥物遞送、組織工程中。

然而,多肽的序列組成過于多樣,僅 10 個氨基酸就可以組成超過百億種多肽。因此,人們很難對其自組裝特性進行全面系統(tǒng)的研究,進而優(yōu)化自組裝多肽的設(shè)計。

為此,西湖大學的李文彬課題組利用基于 Transformer 的回歸網(wǎng)絡(luò),對百億種多肽的自組裝特性進行了預測,并分析得到了不同位置氨基酸對自組裝特性的影響,為自組裝多肽的研究提供了強力的新工具。

多肽是兩個以上氨基酸通過肽鍵組成的生物活性物質(zhì)。多肽合成便利、可生物降解、生物相容性強,且具有豐富的化學多樣性,可以組成具有熒光、半導體導電性或是磁性的納米物質(zhì)。正因為此,多肽得到了科研界的廣泛關(guān)注。

然而,也正是因為多肽的多樣性,人們暫缺乏預測其自組裝傾向 (AP, Aggregation Propensity) 的方法,很難將其轉(zhuǎn)變?yōu)橛行蚪Y(jié)構(gòu)。目前只有極少的多肽能夠自組裝,形成滿足需求的超分子結(jié)構(gòu),并投入到工業(yè)應用中。

圖 1:不同自組裝探針對 hCA、抗生物素和胰蛋白酶的特異性熒光

過去數(shù)十年間,自組裝多肽主要是通過生物實驗發(fā)現(xiàn)的。然而,實驗往往需要很長的周期,而且存在一定的傾向性,不利于對大量多肽進行全面的系統(tǒng)研究。

近年來,計算篩選 (Computational Screening) 被廣泛用于自組裝多肽的設(shè)計中。2015 年,F(xiàn)rederix 等人利用粗粒度分子動力學 (CGMD) 分析了三肽的 AP。然而,隨著氨基酸數(shù)量的增加,多肽序列數(shù)量會指數(shù)級增長,使 CGMD 的成本大幅增加。

因此,有研究者結(jié)合 AI 和 CGMD ,以降低傳統(tǒng)方法的分析成本。然而,AI-CGMD 需要大量的訓練數(shù)據(jù)。據(jù)推測,十肽 (decapeptide) 的序列超過百億種,需要 320 萬個多肽序列數(shù)據(jù)?;谏鲜鲈颍壳吧袩o對 5 個以上氨基酸組成多肽 (pentapeptide) 的 AP 預測。

為解決這些問題,西湖大學的李文彬課題組利用基于 Transformer 的回歸網(wǎng)絡(luò) (TRN),結(jié)合 CGMD,對百億種多肽的自組裝特性進行了預測,得到了五肽和十肽的 AP,并得到了不同位置的氨基酸對多肽 AP 的影響。這一成果已發(fā)表于「Advanced Science」。


相關(guān)成果已發(fā)表于「Advanced Science」

實驗過程

訓練集:拉丁超立方采樣

首先,利用拉丁超立方采樣篩選出 8,000 個多肽序列。篩選出的多肽序列通過 CGMD 模型分析得到其 AP。

模型構(gòu)建:編碼與解碼

研究人員基于 TRN 構(gòu)建了 AP 預測模型。模型包括 Transformer 編碼器和多層感知機 (MLP) 解碼器。Transformer 編碼器由輸入嵌入層 (Input Embedding)、位置編碼器 (Positional Encoding) 和編碼塊 (Encording Block) 組成。

輸入嵌入層用于將多肽的組成單元(即氨基酸)映射到 512 維的連續(xù)空間中,位置編碼器會輸出氨基酸的位置信息。編碼塊包括自注意網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)。

Transformer 編碼器最終輸出一個隱藏層表示的多肽序列。這一序列經(jīng)過 MLP 降維 5 次后,被壓縮為一維向量。MLP 解碼器的最后一層會輸出多肽的 AP。

圖 2:TRN 模型的工作流

a:α-螺旋和 β-折疊的原子模型及 α-螺旋的 CG 模型;

b:通過 CGMD 輸出訓練數(shù)據(jù)的流程;

c:TRN 模型示意圖。

實驗結(jié)果

模型預測:提升 54.5%

研究人員對比了 TRN 模型和其他非深度學習模型(支持向量機 SVM、隨機森林 RF、臨近算法 NN、貝葉斯回歸 BR 和線性回歸 LR)的 AP 預測表現(xiàn)。

在僅有 8,000 個訓練數(shù)據(jù)時,模型的決定系數(shù) R2 就超過了 0.85,較 SVM 提升了 11.8%,較 RF 提升了 54.5%

圖 3:TRN 模型和其他非深度學習模型的性能對比
隨著訓練數(shù)據(jù)的增加,TRN 模型的表現(xiàn)隨著增加。當訓練數(shù)據(jù)達到 54,000 時,TRN 模型的平均絕對誤差 (MAE) 為 0.05,R2 為 0.92。

圖 4:訓練數(shù)據(jù)對 TRN 模型性能的影響

上述結(jié)果說明,相比非深度學習模型,TRN 模型可以用較少的訓練數(shù)據(jù)達到較高的預測率。同時,隨著訓練數(shù)據(jù)的增加,TRN 模型的表現(xiàn)隨之提升。

親水性:APHC 修正

據(jù)報道,除 AP 外,多肽的親水性 (log P) 也會對多肽的自組裝產(chǎn)生影響。

當 AP 自低向高增長時,log P 的中位數(shù)隨之降低,說明親水性強的多肽聚集能力較差。然而,log P 位于 0.25-0.75 之間的多肽 AP 跨度很大,分布在 0-1 之間,說明二者的聯(lián)系并不密切,還有其他因素會影響多肽的 AP。

圖 5:AP 與 log P 的關(guān)系

a:320 萬種五肽的 AP 與 log P 的相關(guān)性;

b:AP 在不同區(qū)間的分布;

c:log P 在不同 AP 區(qū)間的分布。

為找出 AP 和 log P 對多肽自組裝的影響,研究人員利用 log P 對 AP 進行了修正,得到了 APHC。修正后的 APHC 能夠分辨出多肽自組裝和沉淀,篩選出可以形成水凝膠的多肽。

圖 6:APHC 與 log P 的關(guān)系

a:320 萬種五肽的 APHC 與 log P 的相關(guān)性;

b:APHC 在不同區(qū)間的分布;

c:log P 在不同 APHC 區(qū)間的分布。

自組裝法則:不同位置的氨基酸影響

在分析了五肽中不同位置的 20 種氨基酸對 APHC 的影響后,研究人員總結(jié)得到了不同氨基酸及其分布對多肽自組裝特性的影響,并將其分成了 5 組。

第一組氨基酸包括苯丙氨酸 (F)、酪氨酸 (Y) 和色氨酸 (W)。這組氨基酸中存在 π-π 堆疊且疏水性強,對多肽自組裝貢獻最大。其中 W 的疏水性最強,對 APHC 的影響最大,這與 WWWWW 的觀察結(jié)果一致。

圖 7:不同 AP 區(qū)間中,20 種氨基酸在不同位置的分布比例

F、Y、W 在 3-5 號位,尤其是 3 號位時,對多肽自組裝貢獻最強??赡苁且驗樵?3 號位上,氨基酸的自由度較高,更易通過 π-π 作用驅(qū)動多肽自組裝。

圖 8:π-π 堆疊示意圖

然而,這些芳香類氨基酸在 5 號位時,是強質(zhì)子接受體,會與其他多肽相互作用,拉大苯環(huán)的距離,削弱分子內(nèi)的 π-π 作用。

第二組氨基酸包括異亮氨酸 (I)、亮氨酸 (L)、纈氨酸 (V) 和半胱氨酸 (C)。由于這些氨基酸的側(cè)鏈和水之間相互排除,疏水性強,對多肽自組裝貢獻較強。這組氨基酸常分布在多肽的兩端,尤其是自組裝多肽的 N 端。

圖 9:氨基酸的疏水作用

第三組氨基酸包括組氨酸 (H)、絲氨酸 (S) 和蘇氨酸 (T)。這組氨基酸有極化側(cè)鏈,可以通過氫鍵提升多肽的自組裝能力。然而,氫鍵的作用相比于 π-π 堆疊較弱,因此在高 APHC 的多肽中,第三組氨基酸含量較少。

T 和 S 傾向于占據(jù)多肽的兩端,尤其是 N 端,這有利于氫鍵的形成。而 H 會遠離多肽的兩端。

圖 10:極性側(cè)鏈對多肽結(jié)構(gòu)的影響

第四組氨基酸包括蛋氨酸 (M) 和脯氨酸 (P)。M 和 P 在不同 AHPC 的多肽中分布基本一致,僅對多肽的特定指標有微弱的影響。

第五組氨基酸不利于多肽的自組裝,包括帶負電的天冬氨酸 (D) 和谷氨酸 (E)、帶正電的賴氨酸 (K) 和精氨酸 (R)、強極性的天冬酰胺 (N) 和谷氨酰胺 (Q)、無側(cè)鏈的丙氨酸 (A) 和甘氨酸 (G)。

然而,C 端的 D 和 E、N 端的 R 和 K 可以形成帶雙電荷的頭基,通過異性電荷相互吸引、形成鹽橋促進多肽的自組裝。N 和 Q 由于極性太強,會促進多肽的溶解。而 A 和 G 缺乏明顯的相互作用,不利于多肽自組裝。

圖 11:庫侖作用對多肽結(jié)構(gòu)的影響

實驗驗證:與 CGMD 和 TEM 結(jié)果基本一致

為確認 TRN 模型的預測結(jié)果,研究人員用 CGMD 對五種多肽的自組裝特性進行了驗證。CGMD 的計算結(jié)果與 TRN 模型的預測結(jié)果基本一致。

同時,NRMMR、DMGID、NRMMRDMGID 和 NRMMR + DMGID 的自組裝特性還得到了實驗的驗證。透射電子顯微鏡 (TEM) 的結(jié)果與 CGMD 的結(jié)果基本一致。

圖 12:CGMD (a) 和 TEM (b) 觀察到的多肽自組裝結(jié)果

上述結(jié)果說明,TRN 模型可以準確預測五肽、十肽和混合五肽的自組裝特性,為自組裝多肽的研究提供了強力的新工具。

自組裝多肽:生物醫(yī)藥新方向

雖然人們對多肽的自組裝特性研究還不夠深入,但自組裝多肽已經(jīng)廣泛用于組織工程、藥物遞送和生物傳感當中。此外,細胞的收縮和舒張、內(nèi)吞囊泡的移動、細菌和病毒的跨膜傳輸都離不開多肽的自組裝,阿爾茲海默癥、帕金森氏病和II型糖尿病等疾病也與蛋白質(zhì)的錯誤折疊有關(guān)。

圖 13:自組裝多肽用于抗腫瘤藥物的遞送

隨著 AI 的發(fā)展,科研人員對于大批量數(shù)據(jù)的處理能力不斷增強。生物研究從傳統(tǒng)的實驗研究,走向計算研究,再走向 AI 研究的同時,研究的規(guī)模也從以往的幾十上百種可能,逐漸邁向了百億種。在 AI 的幫助下,人類正在推進生物研究的邊界,相信未來人們能對生物有更精細更全面的研究,讓 AI + 生物普惠大眾。

評論
岷縣科普之花
庶吉士級
在 AI 的幫助下,人類正在推進生物研究的邊界,相信未來人們能對生物有更精細更全面的研究,讓 AI 生物普惠大眾。
2023-10-20
????
貢士級
2023-10-23
呂遠卓
少師級
2023-10-20