版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

專家解讀化學(xué)諾獎:如果沒有今年的化學(xué)獎,可能就沒有物理學(xué)獎

返樸
原創(chuàng)
溯源守拙·問學(xué)求新。《返樸》,科學(xué)家領(lǐng)航的好科普。
收藏

嘉賓:馬劍鵬 (國際著名計算生物學(xué)家、復(fù)旦大學(xué)復(fù)雜體系多尺度研究院首任院長)

整理:深究科學(xué)

蛋白質(zhì)結(jié)構(gòu)預(yù)測的歷史回顧

蛋白設(shè)計也好,蛋白質(zhì)結(jié)構(gòu)預(yù)測也好,它歸根到底跟一個問題有關(guān)系,就是叫蛋白質(zhì)折疊。

我先來簡單解釋一下什么叫蛋白質(zhì)折疊。我們知道,蛋白質(zhì)首先是有空間結(jié)構(gòu)的,而且有很多蛋白的空間結(jié)構(gòu)是唯一的。蛋白質(zhì)的氨基酸序列,是由遺傳密碼來決定的。遺傳密碼是一維的,所以它這里有個問題,就是如何由一維的蛋白質(zhì)序列記住這個三維的結(jié)構(gòu),這就是所謂的蛋白質(zhì)折疊問題。

那么,為什么這個問題那么重要?有人說這個問題是太陽底下最難的一個科學(xué)問題之一,也是上個世紀(jì)末生物學(xué)里面所謂的一個“皇冠上的珍珠”。誰能解決這個問題,就肯定能獲得諾貝爾獎,所以很多人都在為之努力。

這里有個關(guān)鍵,組成蛋白質(zhì)的氨基酸主要有20種,氨基酸殘基是線性連接的。大家可以從科普的角度上想象,它是一個氨基酸的鏈,就像一串珠子,一串念佛珠。如果這個珠子一共有20種不同的顏色,所謂的20種不同氨基酸的系列,把這串珠子往水里一放,它會很快折疊成每次折都一樣的三維結(jié)構(gòu)。

問題是,如果這個鏈的折疊過程是一個窮舉的過程,要把這條鏈從展開的構(gòu)型折疊成最后一個三維唯一的結(jié)構(gòu),這需要的時間可能會比宇宙的壽命還長。但事實上,蛋白質(zhì)鏈在細(xì)胞里面被合成的一瞬間就很快就折起來了,折的速度遠(yuǎn)遠(yuǎn)比1秒鐘要快。

這就來了一個問題,它怎么折的?因為它沒有腦子,就是水里面有一些物理作用之類的這么折起來。蛋白折疊會非???,所以這里顯了一個悖論,到底是怎么折疊起來的?這就是著名的蛋白質(zhì)折疊問題和著名的利文索爾悖論(Levinthal's paradox)。

從上個世紀(jì)中葉到現(xiàn)在,無數(shù)的前輩一直在孜孜不倦地研究這個問題,包括我們研究院的榮譽(yù)院長、2013年諾貝爾化學(xué)獎得主邁克爾·萊維特(Michael Levitt)教授等人。隨著時間的歷史推移,這個問題慢慢地就分化成了兩個問題:一個是蛋白質(zhì)為什么會這樣,或者它是怎么折疊的;另一個問題相對比較實用一點,蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。

關(guān)于第一個問題到現(xiàn)在還沒有完全回答好,而第二個問題就是給你一個蛋白質(zhì)的序列,告訴它最后的折疊結(jié)構(gòu)就行,只關(guān)心終點,不關(guān)心怎么來的途徑。關(guān)于途徑這個事情是個基礎(chǔ)科學(xué)問題,也是個物理學(xué)問題,很多人還在搞這個東西。

但后面這個問題,隨著時間的推移,一開始做物理的人更起勁在回答,由于實用性的結(jié)構(gòu)預(yù)測是非常困難的,所以幾十年來有人孜孜不倦地在做,進(jìn)步不是很大,但是有那么些人在做,包括今年獲得化學(xué)獎得主David Baker,他這么多年一直在這個行當(dāng)里面,是一個領(lǐng)軍人物,做得比較好,但是他在很長時間內(nèi)預(yù)測精度也只有40%。

這個精度是指一個非常著名的國際比賽——關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP)的比賽。我們團(tuán)隊也參加這個比賽,做了很多努力。邁克爾·萊維特50年前創(chuàng)的這么一個行當(dāng),就是因為他一直是做計算的,他企圖用計算機(jī)來預(yù)測這個問題,但精度一塌糊涂。由于這個問題非常重要,所以大家一直在做,但我說的精度一塌糊涂,就是說當(dāng)年用計算機(jī)來預(yù)測出來的蛋白結(jié)構(gòu),就算達(dá)到40%的精度,也不足以讓生物學(xué)家或者做實驗的工作者覺得這是有用的。

然而,突然有一年,大概四五年前吧,出了個Alphafold。這個Alphafold第一次把這個精度從40%提高到60%,已經(jīng)讓人很震驚了。再過了兩年,到CASP14的時候(2020年),它一下子達(dá)到了88%,88%這個數(shù)字很重要,因為實驗的測定精度也只有90%,所以你接近88就接近90了。大家覺得這個問題幾乎解決了,全世界都為之震驚。

這里要強(qiáng)調(diào)一點,像邁克爾包括我就做這個行當(dāng)?shù)?,大家孜孜不倦地在做,但我們都清楚,一路走來,這個問題計算機(jī)預(yù)測是不可能在我們有生之年得到解決的,當(dāng)年我們這些人是這樣走過來,沒想到兩下子,Alphafold 1、Alphafold 2一下就到了80%多,現(xiàn)在又有Alphafold 3了。

這個就是歷史,非常簡約的歷史。

AI變革蛋白結(jié)構(gòu)預(yù)測、蛋白設(shè)計

現(xiàn)在來講講這個Alphafold是怎么突然間兩步就到位,幾乎做成了結(jié)構(gòu)預(yù)測,就是AI框架,在Alphafold 1出來以前,包括David Baker都是在用計算的。我現(xiàn)在講的全都是用計算機(jī)預(yù)測蛋白質(zhì)結(jié)構(gòu)。

絕大部分人都不是用AI,也有一些人在用AI,但AI在這方面的展示結(jié)果并不好,都是用一些其他的物理方法,包括Baker,尤其是Baker。Baker以前不是用AI,我也不是,邁克爾也不是,但就是因為這個deep learning(深度學(xué)習(xí))方法的介入,導(dǎo)致這個精度有了突飛猛進(jìn)的進(jìn)步。那么,這就要說到AI技術(shù),這是兩條不同的路徑。

今年諾貝爾物理學(xué)獎給了AI領(lǐng)域,而化學(xué)獎則給了在蛋白質(zhì)預(yù)測上有突出貢獻(xiàn)的AI技術(shù)。在不久以前,大家都記得AI曾經(jīng)打敗過國際象棋,當(dāng)時大家覺得不得了,國際象棋已經(jīng)被AI打敗了,但是后來什么事情沒有發(fā)生,因為你要打敗國際象棋,拿個計算機(jī)就可以窮舉,你要把世界上所有的棋譜都學(xué)進(jìn)去了,因為一個高手下棋不是要多想幾步嗎?計算機(jī)肯定比你想的快,它把所有的路都走完了,那把你打敗也不奇怪。

deepmind公司的這幫人,尤其是今年諾貝爾獎的第二個得主哈薩比斯,他是一個計算機(jī)工作者,他就去找了一個科學(xué)問題,不僅找了個科學(xué)問題,還找了個太陽底下最難的科學(xué)問題,就是蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。這個問題不是個新問題,它早就在那里存在的,Baker包括我們一直在做。他就撿起了這個問題,把這個問題朝前推了一大步,于是就有了Alphafold 1和Alphafold 2。

這下全世界整個變過來了,科學(xué)家也開始注意,原來AI這么厲害。這就是為什么現(xiàn)在有一個非常熱門的詞,叫AI for Science。以前從來沒聽說過,AI for Science里面,AI不是什么新詞,AI很多年了,Science更是有悠久的歷史。為什么現(xiàn)在才想起來叫AI for Science?原來這兩個東西關(guān)聯(lián)性不是太大,就是說AI本身是一個算法,或者是個工程技術(shù),傳統(tǒng)的做AI的人都是做視覺、人臉識別、無人機(jī)操控、自動駕駛之類工程問題上的應(yīng)用,它的難度跟蛋白質(zhì)折疊是根本沒法比的。蛋白質(zhì)的確是非常非常難,所以我說,大家都認(rèn)為它是太陽底下最難的一個科學(xué)問題。

那么,居然在這么難的問題上朝前跨了一大步,所以現(xiàn)在它直接的效果就是導(dǎo)致AI for Science的出現(xiàn),而且現(xiàn)在我們已經(jīng)是人生無處不AI。原因很簡單,就是大家全世界無論是做Science的人,還是其他領(lǐng)域的人,都注意到現(xiàn)在的這個deep learning這個東西,居然把這么難的一個科學(xué)問題也可以往前推這么一大步,那稍微簡單點的(科學(xué)問題)就更容易了,所以這廣泛的就應(yīng)用開了。

今年物理學(xué)獎和化學(xué)獎的相互成就

今年諾貝爾化學(xué)獎,其實分兩撥人。第一個就是Baker,后來是哈薩比斯和賈伯,哈薩比斯和賈伯是一個團(tuán)隊的,他們就是做Alphafold的那兩個人。Baker跟Alphafold理論上沒有關(guān)系,這不是他發(fā)展的,但他后來包括現(xiàn)在也在用。那為什么得這個獎?

自從用計算機(jī)可以用來預(yù)測蛋白質(zhì)結(jié)構(gòu),所謂預(yù)測蛋白質(zhì),無非就是蛋白質(zhì)結(jié)構(gòu)建模,只不過是這個模型不是用實驗數(shù)據(jù)來檢測的,是用計算機(jī)來建的。有了這個能力以后,這個行當(dāng)里面就可以大致分為兩大問題:一個就是大家孜孜不倦地在追求的蛋白質(zhì)折疊問題,我給你一個序列,你把它對應(yīng)的結(jié)構(gòu)給我弄準(zhǔn),這就是折疊問題,那也是Alphafold最大的貢獻(xiàn)之一,它可以把蛋白折疊弄得比別人好得多得多。Baker也是做這個問題出身,Alphafold 2那兩個人也是在這個時候有巨大的貢獻(xiàn)。

諾獎委員會專門點了下蛋白設(shè)計,它的區(qū)別在于,這兩個問題的關(guān)聯(lián)度是極大,但也不完全是一回事。這兩個東西的本質(zhì)要求是必須得有一個蛋白質(zhì)序列,把它的結(jié)構(gòu)查一查。但是以前,我們連自然界已知的蛋白質(zhì)序列給你,也未必搞得準(zhǔn)。不是40%,對吧?后來88%了嘛,那你何來談設(shè)計?

它區(qū)別就是純粹的折疊,那就是把一個已知的序列,你把它結(jié)構(gòu)弄準(zhǔn)了就行了。但是設(shè)計顯然是指你要設(shè)計一個自然界不存在的蛋白序列,至少是經(jīng)過修改過的序列,那就說設(shè)計更難,但設(shè)計的底層邏輯肯定也是折疊,你不會折疊,你設(shè)計什么?但是會折疊不等于說你一定會設(shè)計。

在這兩個方向上面的做世界上做折疊其實是非常多,Baker當(dāng)然是個領(lǐng)軍人物,后來就被Alphafold給取代了。但是Baker在Alphafold出來以后,他也踉蹌了幾步,因為他的折疊精度一下子被Alphafold給碾壓了。但是他又很快崛起了,他最近幾年主要是在設(shè)計上。所以諾獎里面就講了很清楚,也就強(qiáng)調(diào)了蛋白設(shè)計這個事。

我一直講,蛋白質(zhì)的折疊是個基礎(chǔ)科學(xué)問題,但蛋白質(zhì)設(shè)計是一個藝術(shù),就是你到底設(shè)計什么,這個選項是非常多的。那么這個時候,我要不得不強(qiáng)調(diào)一下,為什么把這個給Baker在這個獎里面。諾獎里面說David Baker主要以設(shè)計為主,其實他也是做折疊出來的,在Alphafold以前,他在折疊方面是做得最好。但是做設(shè)計,他在全世界幾乎就是一個望塵莫及的存在,很多團(tuán)隊都企圖做設(shè)計,但是做不過Baker。

做折疊還是有很多人,而且還有幾個人不見得比Baker做得差,可能Baker做得比較早。但是設(shè)計是怎么也做不過他,這里面當(dāng)然有很多的原因,但是我認(rèn)為有個很主要的原因,就是Baker的團(tuán)隊除了很有錢,可以招到很多優(yōu)秀的人才以外,他會做實驗。Baker本人是做實驗出身的,其實他后來改行做計算蛋白結(jié)構(gòu)預(yù)測,這就充分說明了在蛋白質(zhì)建模,尤其在設(shè)計這個行當(dāng)里面,必須要干濕結(jié)合,不僅要有預(yù)測,設(shè)計也是先有預(yù)測,然后你要用濕實驗去驗證,就是設(shè)計出來的東西是很難繼續(xù)用計算的方法來判別設(shè)計得對還是錯,以及它的合理性。其實有一部分可以使用計算的,但是不可能100%的準(zhǔn),最后還是要通過濕實驗來驗證。

當(dāng)然,做設(shè)計的人也可以去找一個實驗團(tuán)隊跟你合作,但是合作一般比較難。這個Baker組的強(qiáng)項就在于此,他們本團(tuán)隊就有很強(qiáng)大的這個實驗工作能力,所以說他的蛋白設(shè)計什么時就“噴”地一下出來了,這就是個關(guān)鍵問題。所以諾獎這三個人里面,Baker就是這個方面的貢獻(xiàn)。其實他一方面是前面我也講過折疊也做得不錯,但是我剛才講了,如果這個獎是給蛋白質(zhì)結(jié)構(gòu)預(yù)測的話,不應(yīng)該光給Baker,肯定還有別的人。但是要強(qiáng)調(diào)設(shè)計的話,那它確實是獨樹一幟的。

那后面兩個人是顯然獲獎的,那是Alphafold的發(fā)明人,因為他們把精度給猛推了一把。Alphafold這個方法主要是基于deep learning,deep mind公司做出來的,或者現(xiàn)在他們公司分出來就叫Isomorphic Labs。它是很了不起的,它的成功帶動了一系列的應(yīng)用。但我必須要強(qiáng)調(diào)一下,就是說其實Alphafold到今天為止,至少Alphafold的成功,它對AI這個領(lǐng)域的貢獻(xiàn)或者它的影響力,就是它的作用,其實遠(yuǎn)遠(yuǎn)大于對蛋白質(zhì)本身的影響。

因就是說Alphafold,包括現(xiàn)在Alphafold 3也是,它雖然很強(qiáng)大,但蛋白質(zhì)結(jié)構(gòu)預(yù)測也好,蛋白質(zhì)建模這個問題并沒有被解決,它只是往前推了一大步。但是它的偉大之處在于不僅把這個這個問題往前推了一大步,雖然它沒有完全解決,它向全世界展示,你看,我在這么難的問題上也能往前爬一大步,那其他問題就更容易了。所以才導(dǎo)致了整個AI被全世界徹底接受,而且每個人都在用AI。

這也是為什么今年的物理學(xué)家給了AI這個獎項,他們?nèi)フ一亓怂麄冊嫉?、這個最早的創(chuàng)始人。但是應(yīng)該說,如果沒有化學(xué)獎這幾個人的成功,雖然化學(xué)獎發(fā)在物理獎后面,今年的物理獎是不會給AI的。

那未來AI應(yīng)該做什么?那其中有一個使命,其實它更重要的使命多了,就是要來解決它兩端能不能統(tǒng)一起來,就是數(shù)據(jù)驅(qū)動和邏輯驅(qū)動這兩樣?xùn)|西。其實你看它這個獎,尤其是物理學(xué)獎,它如果離開統(tǒng)計力學(xué)沒有那么遠(yuǎn)的話,這兩者統(tǒng)一起來是有可能的。這也是AI界的一個前沿問題。

Alphafold預(yù)測蛋白側(cè)鏈有短板

AF就是AlphaFold的成功,它對AI行當(dāng)?shù)臎_擊要比對蛋白質(zhì)(結(jié)構(gòu)預(yù)測)本身要大。怎么來理解?首先一點,我剛才說我們做蛋白質(zhì)結(jié)構(gòu)的側(cè)鏈,側(cè)鏈結(jié)構(gòu)預(yù)測當(dāng)中的一個分支就是蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)本來就有主鏈和側(cè)鏈,我們花了很大的力氣,現(xiàn)在還在做這個事情來分析。

就是AlphaFold 2也好,AlphaFold 3也好,它吐出來的結(jié)果,不是說它80%或者怎么的,這個精度很高,它到底走到哪,到底還有什么問題?其實,這是個非常非常聚焦的一個問題,或者是專業(yè)問題。它其實主要的誤差就在側(cè)鏈上。

我這么說的話,是有數(shù)據(jù)的。我并不是否認(rèn)AlphaFold的貢獻(xiàn),它的貢獻(xiàn)無窮大,但是它并沒有解決這個問題,我覺得這個就是其中的一個原因,因為它的側(cè)鏈不夠準(zhǔn)。所謂的側(cè)鏈不夠準(zhǔn),嚴(yán)格來講,應(yīng)該是這么說,就是說如果要是從藥物設(shè)計的角度講,藥物設(shè)計、藥物分子,大部分都是跟側(cè)鏈相互作用的。要是從那個角度講,純粹的,注意純粹地用AlphaFold來預(yù)測結(jié)構(gòu)是不夠的,絕大部分情況下是不夠的。

但是這不等于說AI在新藥創(chuàng)新上就無能為力了,相反它很有用。也就跟剛才講的一樣,如果你來折疊,我說這個折疊是憑空折疊,就從序列開始,把這個把結(jié)果搭起來,都能搭得那么好,雖然不是100%,主鏈側(cè)還有很大的誤差,那其他的問題,比方說小分子篩選,或者腫瘤診斷、制藥,它有很多的環(huán)節(jié),幾乎每個環(huán)節(jié)上都可以來用,就這么來。你不能把AI賦能新藥創(chuàng)新,就等價為是AlphaFold的這個預(yù)測,那就是兩碼事情。

計算生物學(xué)未來的發(fā)展?jié)摿?/strong>

因為藥大部分都是跟蛋白相互作用。有些小分子藥,是跟蛋白作用,或者是蛋白質(zhì)藥,那就是跟另外的蛋白質(zhì)相互作用,或者是核酸藥,核酸最后也要跟蛋白質(zhì)相互作用。當(dāng)然核酸也有可能跟核酸相互作用,這個是毋庸置疑的。但這個結(jié)構(gòu)設(shè)計問題,其實是非常好,就是說Alphafold 3,最近在朝著這個方向上邁出了一個非常好的方向,但這個問題還遠(yuǎn)沒有得到解決。怎么回事?就是說Alphafold 1好,Alphafold 2也好,David Baker也好,雖然今年諾獎的主題就是蛋白質(zhì)結(jié)構(gòu)的預(yù)測,對不對?

為什么AI、deep learning這套東西在蛋白質(zhì)結(jié)構(gòu)理論上取得了巨大成功?原因很簡單,因為蛋白質(zhì)結(jié)構(gòu)已經(jīng)有幾十年的發(fā)展史,就是很多代的科學(xué)家做實驗,他們累計了很多的數(shù)據(jù)。有個Datebase(數(shù)據(jù)庫)叫PDB,protein database bank。正因為他們幾十年的累積,提供了很多蛋白質(zhì)結(jié)構(gòu)的信息,才有可能讓AI去學(xué)一把。所以這個蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)就建得比較好,這是數(shù)據(jù)驅(qū)動(data driven)的科學(xué)問題。

但世界上還有別的東西,還有生物材料,或者其他的各種東西,它就沒有那么多的結(jié)構(gòu)信息讓AI去學(xué)。這個時候怎么辦?AI還能起作用嗎?這個問題AI就是做不到。你看Alphafold 2,不要說其他的生物材料,哪怕是蛋白質(zhì)和核酸相互作用,或者蛋白質(zhì)和小分子作用它也做不好。

這個方向朝前邁了不小的一步,但沒有解決這個問題,不過這個方向是好的。所以,未來我相信,凡是生物學(xué),哪怕包括化學(xué),都會受到它巨大的影響。

今年2個諾獎給AI,下一步如何開辟未開墾的領(lǐng)域

某一個領(lǐng)域得了諾貝爾獎,這肯定是好事。為什么?這個領(lǐng)域受到了諾貝爾獎的肯定。我給你舉個例子,今是2024年,它是給了AI。2013年,邁克爾·萊維特和我的博士生導(dǎo)師馬丁·卡普拉斯,他們獲得諾貝爾獎的時候,我們這個領(lǐng)域當(dāng)然是非常振奮的。

在這個以前,計算生物學(xué),尤其是像搞我們這種蛋白質(zhì)結(jié)構(gòu)計算的人,是不受待見的。什么意思?就是做實驗的人是不把我們當(dāng)回事,認(rèn)為你這個東西沒用,你們自己一群做理論的人,自己在那自娛自樂。確實是這么回事,是一個輔助性的學(xué)科。但他們2013年諾獎的成功,已經(jīng)把計算生物學(xué)這個重要性顯著地抬出來、抬上去了,但是還不夠。

那現(xiàn)在Alphafold的成功,起初還沒有獲諾貝爾獎。就是前幾年,它一下子讓計算生物學(xué)從一個不太受人待見的、一個所謂的輔助性學(xué)科,而且它也比較難,因為它是個交叉學(xué)科,傳統(tǒng)的學(xué)者、傳統(tǒng)學(xué)生物的人做不了,傳統(tǒng)學(xué)物理、數(shù)學(xué)的人又不懂生物,這確實是比較難。Alphafold的成功已經(jīng)讓計算生物學(xué)從一個所謂的輔助性學(xué)科變成了一個引領(lǐng)性科學(xué),那現(xiàn)在諾獎已給(計算生物學(xué)領(lǐng)域),無論從AI算法本身,今年物理獎的肯定,又再加個化學(xué)獎,即在Science上的應(yīng)用,那后面前途是無法估量。

當(dāng)然了,你還可以反過來問這個問題:這個問題諾獎都給了,你還應(yīng)該干什么?那不就沒有創(chuàng)新了?這個也是一個很有哲學(xué)意義的問題。就是說,首先他被授予了諾獎,說明這個問題很重要,而且大家會大發(fā)展起來。但是那些領(lǐng)頭羊們、要搞探險創(chuàng)新的人確實應(yīng)該去想想,下一步未開墾的東西是什么?因為諾貝爾獎就不會給兩次。

審核:梁前進(jìn) 北京師范大學(xué)生命科學(xué)學(xué)院 教授

出品:中國科協(xié)科普部

監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

內(nèi)容資源由項目單位提供

評論
科普dgy12345
進(jìn)士級
已讀
2024-10-21
西吉縣第七中學(xué)馬慧娟
少傅級
蛋白設(shè)計也好,蛋白質(zhì)結(jié)構(gòu)預(yù)測也好,它歸根到底跟一個問題有關(guān)系,就是叫蛋白質(zhì)折疊。我先來簡單解釋一下什么叫蛋白質(zhì)折疊。我們知道,蛋白質(zhì)首先是有空間結(jié)構(gòu)的,而且有很多蛋白的空間結(jié)構(gòu)是唯一的。蛋白質(zhì)的氨基酸序列,是由遺傳密碼來決定的。遺傳密碼是一維的,所以它這里有個問題,就是如何由一維的蛋白質(zhì)序列記住這個三維的結(jié)構(gòu),這就是所謂的蛋白質(zhì)折疊問題
2024-10-18
敖特更達(dá)賴
庶吉士級
科普知識包羅萬象大家好好學(xué)
2024-10-17