版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

困擾數(shù)學(xué)家一個(gè)多世紀(jì)的難題,AI從生物學(xué)中找到線索

返樸
原創(chuàng)
溯源守拙·問(wèn)學(xué)求新。《返樸》,科學(xué)家領(lǐng)航的好科普。
收藏

紐結(jié)理論長(zhǎng)期困擾著數(shù)學(xué)家,但隨著人工智能的進(jìn)步,有研究者在生物學(xué)中找到了突破口,因?yàn)榧~結(jié)結(jié)構(gòu)存在于許多重要的生物分子中,例如蛋白質(zhì)、DNA等。對(duì)于難以識(shí)別歸類的復(fù)雜紐結(jié)結(jié)構(gòu),AI給出了令人驚訝的結(jié)果。

撰文 | Davide Michieletto(愛(ài)丁堡大學(xué)物理與天文學(xué)院)

編譯 | 陳蘊(yùn)靈

任何一個(gè)有經(jīng)驗(yàn)的水手都明白,一個(gè)正確的繩結(jié)意味著生命的保障,無(wú)論是升起風(fēng)帆還是固定錨鏈,繩子的作用取決于它的繩結(jié)。同樣的道理也適用于維持人類生命體征的分子,例如最常見(jiàn)的蛋白質(zhì)分子。

蛋白質(zhì)是由氨基酸組成的大分子化合物,是構(gòu)成生物體的基本物質(zhì)之一。氨基酸通過(guò)肽鍵連接形成肽鏈,進(jìn)而通過(guò)螺旋、折疊等方式形成復(fù)雜的空間結(jié)構(gòu),使分子能夠相互耦合。長(zhǎng)期以來(lái),人們認(rèn)為,盡管蛋白質(zhì)可能高度纏繞,但在正常條件下它們不能形成紐結(jié),因?yàn)檫@會(huì)阻礙蛋白質(zhì)的折疊[譯者注1]。

然而,在上世紀(jì)70年代,科學(xué)家發(fā)現(xiàn)了許多在拓?fù)湟饬x上形成紐結(jié)結(jié)構(gòu)的蛋白質(zhì)(Knotted protein,也稱打結(jié)蛋白),它們的天然結(jié)構(gòu)呈現(xiàn)為開(kāi)放的紐結(jié)(即,兩端不連接)。盡管幾何意義上,蛋白質(zhì)(甚至DNA)可以看作一條(或幾條)不閉合的曲線,但它們?nèi)匀荒軌蛐纬杉~結(jié),從而影響其功能。事實(shí)上,在蛋白質(zhì)數(shù)據(jù)庫(kù)中,大約1%的蛋白質(zhì)包含紐結(jié)結(jié)構(gòu)。與繩子或者線不同,每一個(gè)紐結(jié)蛋白質(zhì)都具有一個(gè)特有的紐結(jié)(見(jiàn)圖1)。紐結(jié)蛋白質(zhì)中最大的一類是SPOUT酶(它們組成了七類不同結(jié)構(gòu)的甲基轉(zhuǎn)移酶中的第二大類)。除了一種例外,其余所有SPOUT酶都形成了“三葉結(jié)”——三個(gè)環(huán)相互重疊的結(jié)構(gòu)。

這一發(fā)現(xiàn)引發(fā)了一系列問(wèn)題,比如:蛋白質(zhì)分子的紐結(jié)結(jié)構(gòu)是如何形成的,它們折疊的機(jī)制是什么,這些紐結(jié)又有什么作用,等等。有些證據(jù)表明,紐結(jié)蛋白質(zhì)在極端溫度下仍可以保持活性。但對(duì)于分子結(jié)構(gòu)中紐結(jié)的普遍性及其對(duì)生物的影響,科學(xué)家們依然束手無(wú)策。當(dāng)我們?cè)噲D將對(duì)紐結(jié)的理解用于生物學(xué)和軟物質(zhì)問(wèn)題上時(shí),我們遇到了一個(gè)困擾科學(xué)家一個(gè)多世紀(jì)的數(shù)學(xué)問(wèn)題。

曲折的歷史:錯(cuò)誤的渦旋原子理論

現(xiàn)代紐結(jié)理論的起源通??梢宰匪莸?50多年前的一項(xiàng)著名實(shí)驗(yàn)——煙圈實(shí)驗(yàn)。1867年,彼得·格思里·泰特(Peter Guthrie Tait)邀請(qǐng)他的朋友——物理學(xué)家威廉·湯姆森(William Thomson,后來(lái)的開(kāi)爾文勛爵),從格拉斯哥前往愛(ài)丁堡觀看他演示制造成對(duì)的煙圈。令開(kāi)爾文驚訝的是,這些煙圈異常穩(wěn)定,能在房間里移動(dòng),甚至像橡膠一樣相互彈開(kāi)。煙圈事實(shí)上是一種“渦環(huán)”(vortex ring),其中氣溶膠和顆粒物在同心小圓中旋轉(zhuǎn),這種運(yùn)動(dòng)賦予了煙圈穩(wěn)定性。

當(dāng)時(shí),科學(xué)家們普遍認(rèn)為宇宙中充滿了一種被稱為“以太”的物質(zhì),引力和電磁輻射以這種物質(zhì)為媒介進(jìn)行傳播。開(kāi)爾文推測(cè),原子可能是以太中的穩(wěn)定渦旋,類似于煙圈。他進(jìn)一步認(rèn)為,以太渦旋形成的紐結(jié)決定了不同的化學(xué)元素。泰特對(duì)開(kāi)爾文的猜想產(chǎn)生了濃厚興趣。在接下來(lái)的25年里,泰特與英國(guó)國(guó)教牧師托馬斯·柯克曼(Thomas Kirkman)、美國(guó)數(shù)學(xué)家查爾斯·利特爾(Charles Little)以及詹姆斯·克拉克·麥克斯韋(James Clerk Maxwell)合作,制作了一張包含251個(gè)紐結(jié)的表格,其中最多有10個(gè)交叉點(diǎn)(見(jiàn)圖2)。

隨著科學(xué)家對(duì)原子結(jié)構(gòu)的深入了解,渦旋原子模型逐漸被拋棄。1913年,亨利·莫塞萊(Henry Moseley)的研究最終推翻了這一理論,他證明化學(xué)元素的不同不是由它們的拓?fù)浣Y(jié)構(gòu)決定的,而是由原子核中質(zhì)子數(shù)決定。盡管現(xiàn)在看來(lái)渦旋原子理論是錯(cuò)誤的,但紐結(jié)理論仍作為數(shù)學(xué)的一個(gè)分支延續(xù)至今[譯者注2]。

圖 2:彼得·格思里·泰特和其他早期的紐結(jié)理論家花費(fèi)多年時(shí)間編制了一份全面的紐結(jié)列表。上圖摘自他們的結(jié)表,列出了最多9個(gè)交叉點(diǎn)的紐結(jié)——即“九階紐結(jié)”[譯者注3]。圖片來(lái)源:University of St Andrews Library, ID sfQC3-T2-Vol-1-6.

識(shí)別紐結(jié):尋找拓?fù)洳蛔兞?/strong>

對(duì)于泰特及其同僚來(lái)說(shuō),為紐結(jié)分類是一項(xiàng)極為艱苦的工作。每當(dāng)出現(xiàn)一個(gè)新的紐結(jié)時(shí),他們都必須通過(guò)繪圖和幾何直觀來(lái)檢查其是否獨(dú)特。泰特本人曾寫(xiě)道:“雖然我將許多形式截然不同但等價(jià)的結(jié)歸為一組,但我不能絕對(duì)地確定這些分組本質(zhì)上是否完全不同。”確實(shí),1974年肯尼斯·佩爾科(Kenneth Perko)發(fā)現(xiàn),泰特等人所列舉的紐結(jié)表中有兩個(gè)紐結(jié)實(shí)際上是等價(jià)的——它們現(xiàn)在被稱為“佩爾科對(duì)”[2]。

如果想要更有說(shuō)服力,我的學(xué)生喬爾杰·米哈伊洛維奇(Djordje Mihajlovic)開(kāi)發(fā)了一款名為“識(shí)別紐結(jié)”(Spot a Knot)的在線游戲,這款游戲的目標(biāo)是從圖片中找出等價(jià)的紐結(jié)(見(jiàn)圖3)。即便研究紐結(jié)多年,我自己還是經(jīng)常出錯(cuò)。要想在紐結(jié)表中占有一席之地,一個(gè)紐結(jié)必須具有獨(dú)特的拓?fù)浣Y(jié)構(gòu),也就是說(shuō),除非將其拆開(kāi),否則它不能光滑形變成其他已知的結(jié)。拓?fù)鋵W(xué)研究的是一個(gè)空間在光滑形變后的不變量。對(duì)拓?fù)鋵W(xué)家而言,一個(gè)馬克杯等價(jià)于一個(gè)甜甜圈,因?yàn)槎呖梢曰ハ嘈巫儾⑶也粫?huì)丟失內(nèi)在的洞。但正如佩爾科對(duì)和米哈伊洛維奇的游戲所展示的那樣,證明兩個(gè)紐結(jié)不同并非易事。

圖 3:愛(ài)丁堡大學(xué)的博士生喬爾杰·米哈伊洛維奇開(kāi)發(fā)了一款名為“識(shí)別紐結(jié)”的在線游戲。讀者不妨嘗試思考一下:在上圖中,第一行的紐結(jié)等價(jià)于第二行的哪個(gè)呢?圖片來(lái)源:Djordje Mihajlovic

在紐結(jié)理論中,用來(lái)刻畫(huà)紐結(jié)性質(zhì)的量稱為“不變量”。紐結(jié)理論學(xué)家的終極夢(mèng)想是找到一個(gè)不變量,能夠根據(jù)拓?fù)浣Y(jié)構(gòu)用其對(duì)紐結(jié)進(jìn)行分類(就像質(zhì)子數(shù)一樣,可以唯一確定一種化學(xué)元素)。這種“完全不變量”將賦予每一個(gè)紐結(jié)唯一的值,并且在光滑形變后保持不變。第一個(gè)紐結(jié)不變量是1928年由詹姆斯·亞歷山大(James W. Alexander)提出的,稱為亞歷山大多項(xiàng)式(Alexander polynomial)。自那時(shí)起,數(shù)學(xué)家們提出了許多其他不變量,但對(duì)于每一個(gè)方法,人們都發(fā)現(xiàn)有無(wú)法進(jìn)行唯一分類的案例。

一種構(gòu)造拓?fù)洳蛔兞康姆椒ㄊ沁@樣的:“沿著紐結(jié)走一遍,將每個(gè)交叉點(diǎn)編號(hào)為1, 2, 3, …, 2n(每個(gè)交叉點(diǎn)會(huì)遍歷兩次)。如果編號(hào)是偶數(shù)而且是從上方越過(guò)形成的交叉點(diǎn),則將其符號(hào)標(biāo)為負(fù)數(shù)(見(jiàn)圖4)。最后,每個(gè)交叉點(diǎn)會(huì)被標(biāo)記為一對(duì)整數(shù),一個(gè)是偶數(shù),一個(gè)是奇數(shù)。這一系列偶數(shù)就是該紐結(jié)的編碼?!边@個(gè)方法被稱為Dowker–Thistlethwaite編碼(簡(jiǎn)稱DT編碼),于1983年首次提出[3]。雖然DT編碼可以分類許多簡(jiǎn)單的結(jié),但與其他方法一樣,它本身并不是拓?fù)洳蛔兞?/strong>[譯者注4]。

圖 4:Dowker–Thistlethwaite記法是一種于1983年提出的紐結(jié)不變量。這種方法通過(guò)兩次遍歷紐結(jié),為每個(gè)交叉點(diǎn)分配一個(gè)整數(shù),最終的整數(shù)序列即表示為該紐結(jié)。圖片來(lái)源:wikipedia

紐結(jié)不變量:代數(shù)與幾何方法

亞歷山大多項(xiàng)式屬于所謂的“代數(shù)不變量”。它通過(guò)構(gòu)造一個(gè)矩陣(其行數(shù)和列數(shù)與結(jié)的交叉點(diǎn)數(shù)量相同)并計(jì)算其行列式來(lái)確定。這類代數(shù)不變量是從結(jié)的二維投影中構(gòu)造出來(lái)的,有點(diǎn)像紐結(jié)的影子,不過(guò)我們可以辨別每次交叉時(shí)哪個(gè)部分在上面。然而,像我這樣的軟物質(zhì)物理學(xué)家希望對(duì)蛋白質(zhì)和DNA等分子中的紐結(jié)進(jìn)行分類,它們是三維的,并且不斷受到熱能的干擾,將這些分子簡(jiǎn)化為二維投影會(huì)抹去一些對(duì)其功能至關(guān)重要的空間特征。

一種有說(shuō)服力的替代方法是使用“幾何不變量”。這類不變量通過(guò)在三維空間中遍歷紐結(jié)并通過(guò)計(jì)算某些幾何屬性(例如曲率)來(lái)確定。其中一種我非常喜歡的方式是計(jì)算絞擰數(shù)[譯者注5](writhe,或稱纏繞數(shù)),同樣是由泰特提出的。絞擰數(shù)可以通過(guò)在二維投影中數(shù)“上方”和“下方”的交叉點(diǎn),并用兩者相減來(lái)計(jì)算(見(jiàn)圖5b)。

圖 5:刻畫(huà)紐結(jié)的一種方法是計(jì)算絞擰數(shù),它量化了紐結(jié)的扭曲程度。(a) 每次紐結(jié)出現(xiàn)交叉時(shí),交叉點(diǎn)可以被定義為上交叉(左圖)或下交叉(右圖)。絞擰數(shù)通過(guò)用上交叉點(diǎn)數(shù)量減去下交叉點(diǎn)數(shù)量來(lái)計(jì)算。(b) 絞擰數(shù)的計(jì)算示例:對(duì)于五葉結(jié)(左),它的絞擰數(shù)為+5;對(duì)于八字結(jié)(右),它的絞擰數(shù)為0。(c) 絞擰數(shù)還可以作為幾何量在三維分子(如蛋白質(zhì))上進(jìn)行計(jì)算。幾何絞擰數(shù)可以作為整體量或局部量(在相鄰的短鏈段之間)來(lái)計(jì)算。局部絞擰數(shù)值越大表明這些鏈段彼此纏繞得越緊。達(dá)維德·米基耶萊托及其同事證明,基于局部絞擰數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)能夠高精度地刻畫(huà)紐結(jié)的拓?fù)浣Y(jié)構(gòu)。)圖片來(lái)源:(a)參考文獻(xiàn)[4]; (b) Djordje Mihajlovic; (c) 參考文獻(xiàn)[5]

絞擰數(shù)不僅是代數(shù)量,也可以作為幾何量來(lái)計(jì)算。想象在一個(gè)三維紐結(jié)(如蛋白質(zhì))上行走,每走一步計(jì)算你看到的交叉點(diǎn)的絞擰數(shù)。最后,將這些數(shù)值的平均值求出,就得到這個(gè)紐結(jié)的全局絞擰數(shù)。不幸的是,絞擰數(shù)并不是完全不變量。實(shí)際上,和代數(shù)不變量一樣,沒(méi)有任何幾何不變量被證明能夠?qū)λ屑~結(jié)進(jìn)行唯一分類。

2021年,Google DeepMind的AI程序AlphaFold基本解決了困擾科學(xué)家?guī)资甑囊粋€(gè)問(wèn)題——如何從氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)[6]。蛋白質(zhì)的功能取決于其三維結(jié)構(gòu),因此AlphaFold成為研發(fā)藥物和疾病研究的強(qiáng)大工具。

這使得我們不禁自問(wèn):人工智能是否能為紐結(jié)不變量問(wèn)題提供類似的解決方案?

人工智能與絞擰數(shù)

一些研究者已經(jīng)開(kāi)始使用人工智能來(lái)探討紐結(jié)的分類問(wèn)題。最新的一些研究成果包括:2020年香港城市大學(xué)的Olafs Vandans團(tuán)隊(duì)[8]和2023年帕多瓦大學(xué)的Anna Braghetto團(tuán)隊(duì)的工作[9]。這些研究將不同的紐結(jié)視為一連串珠子,并通過(guò)給定的笛卡爾坐標(biāo)、(后者中是)向量、珠子間的距離和角度等數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而識(shí)別紐結(jié)的類型。這些研究取得了高精度的分類結(jié)果,但僅限于五個(gè)最簡(jiǎn)單的紐結(jié)。

我們希望將此方法推廣到更復(fù)雜的拓?fù)浣Y(jié)構(gòu),同時(shí)簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)模型,并使用更小的訓(xùn)練數(shù)據(jù)集。為此,我們從大自然中獲得靈感。在我們的身體中,DNA分子的紐結(jié)可以由所謂的“拓?fù)洚悩?gòu)酶”(Topoisomerase)解開(kāi)。盡管這些酶的體積只是DNA分子的千分之一,但它們可以切割并重新連接DNA鏈,從而有效地解開(kāi)紐結(jié)。我們假設(shè)拓?fù)洚悩?gòu)酶能夠感知某種局部幾何性質(zhì),使它們能夠找到DNA分子中最緊密纏繞的部分。我們嘗試使用密度、曲率等多種量來(lái)實(shí)現(xiàn)這一目標(biāo)。最終,我們的結(jié)果又回到了起點(diǎn)——泰特和他的幾何絞擰數(shù)。

除了計(jì)算整個(gè)紐結(jié)的絞擰數(shù)外,我們還可以計(jì)算局部絞擰數(shù),這個(gè)量可以刻畫(huà)某一鏈段的纏繞程度(見(jiàn)圖5c)。我們發(fā)現(xiàn)計(jì)算局部絞擰數(shù)是一種定位長(zhǎng)環(huán)狀分子中紐結(jié)部分的有效方法[10]?;谶@一結(jié)果,我們決定將局部絞擰數(shù)的數(shù)據(jù)提供給AI,這樣它將有更大的勝算來(lái)識(shí)別復(fù)雜紐結(jié)。

這套理論成型后,我們開(kāi)始構(gòu)建神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試。首先,我們通過(guò)模擬五個(gè)最簡(jiǎn)單的紐結(jié)的熱運(yùn)動(dòng)生成訓(xùn)練數(shù)據(jù)集,提取數(shù)萬(wàn)個(gè)構(gòu)型(見(jiàn)圖6a)。隨后,我們訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)使用紐結(jié)的笛卡爾坐標(biāo),另一個(gè)使用局部絞擰數(shù)。在兩種情況下,我們都對(duì)AI進(jìn)行了監(jiān)督,使用我們訓(xùn)練數(shù)據(jù)集的一個(gè)子集來(lái)告訴神經(jīng)網(wǎng)絡(luò)每個(gè)紐結(jié)的類型。我們要求神經(jīng)網(wǎng)絡(luò)對(duì)它們之前從未見(jiàn)過(guò)的簡(jiǎn)單結(jié)進(jìn)行分類,以檢驗(yàn)我們的方法。

當(dāng)AI在簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)上使用笛卡爾坐標(biāo)進(jìn)行訓(xùn)練時(shí),正確率只有80%,這與Vandans和Braghetto的成果類似。盡管這可能比我們大多數(shù)人在“識(shí)別紐結(jié)”游戲中的得分要高,但仍與我們的預(yù)期相差甚遠(yuǎn)。然而,當(dāng)神經(jīng)網(wǎng)絡(luò)使用局部絞擰數(shù)進(jìn)行訓(xùn)練時(shí),結(jié)果令人震驚:它的正確率超過(guò)了99.9%。

更具挑戰(zhàn)性的任務(wù):局部絞擰數(shù)識(shí)別復(fù)雜紐結(jié)

盡管我對(duì)這一結(jié)果感到驚訝,但識(shí)別五個(gè)簡(jiǎn)單紐結(jié)的任務(wù)實(shí)際上相對(duì)平凡,我們完全可以通過(guò)現(xiàn)有的不變量完成(甚至極為敏銳的“識(shí)別紐結(jié)”玩家也可以完成)。因此,我們決定給神經(jīng)網(wǎng)絡(luò)一個(gè)更棘手的挑戰(zhàn)。這一次,我們精心挑選三個(gè)紐結(jié):康威(Conway)結(jié)、木下-寺坂紐結(jié)(Kinoshita–Terasaka,以下簡(jiǎn)稱KT結(jié)),以及最簡(jiǎn)單的“平凡結(jié)”(unknot)。前兩個(gè)紐結(jié)都有11個(gè)交叉點(diǎn),并且是彼此的變形,因?yàn)樗鼈兂嗽谝粋€(gè)區(qū)域“翻轉(zhuǎn)”外是完全相同的。它們共享許多的紐結(jié)不變量,同時(shí)也與平凡結(jié)共享一些不變量。我們發(fā)現(xiàn),對(duì)于使用笛卡爾坐標(biāo)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),康威結(jié)和KT結(jié)是無(wú)法區(qū)分的,但使用局部絞擰數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)能夠以99.9%的準(zhǔn)確率識(shí)別它們。

圖 6:紐結(jié)的完全不變量在光滑形變下保持不變。不同的拓?fù)浣Y(jié)構(gòu)具有不同的完全不變量。(a)中的兩幅圖像展示的是同一個(gè)結(jié)嗎??jī)H憑人類的直覺(jué)往往難以區(qū)分。事實(shí)上,這兩幅圖顯示的是兩種略微不同的結(jié)——康威結(jié)和KT結(jié)。由于很難區(qū)分這兩個(gè)結(jié),它們可以用來(lái)測(cè)試神經(jīng)網(wǎng)絡(luò)是否可以識(shí)別紐結(jié)。(b)展示了兩種結(jié)的不同構(gòu)型——51結(jié)(也稱五葉結(jié),上圖)和72結(jié)(下圖)。在達(dá)維德·米基耶萊托及其同事的神經(jīng)網(wǎng)絡(luò)研究中,五葉結(jié)是第一個(gè)訓(xùn)練數(shù)據(jù)集的一部分,而72結(jié)則包含在更大的數(shù)據(jù)集中。圖片來(lái)源:(a)參考文獻(xiàn)[5];(b) Davide Michieletto

我們的終極測(cè)試是將這種訓(xùn)練應(yīng)用于更大范圍的紐結(jié)。我們對(duì)250種結(jié)進(jìn)行了模擬,這些結(jié)最多有10個(gè)交叉點(diǎn)(見(jiàn)圖6b)。當(dāng)神經(jīng)網(wǎng)絡(luò)使用笛卡爾坐標(biāo)進(jìn)行訓(xùn)練時(shí),正確率只有20%。相比之下,我們使用局部絞擰數(shù)進(jìn)行訓(xùn)練,AI可以在幾秒內(nèi)以95%的準(zhǔn)確率分類所有250個(gè)結(jié),這遠(yuǎn)超任何已知的算法或單一拓?fù)洳蛔兞縖5]。

最后的驗(yàn)證——瓦西里耶夫不變量

在對(duì)紐結(jié)理論一無(wú)所知的情況下,神經(jīng)網(wǎng)絡(luò)通過(guò)自學(xué),具備了一種長(zhǎng)期跳脫于人類直覺(jué)之外的能力。實(shí)際上,人們?nèi)栽谂Υ蜷_(kāi)“黑箱”,理解神經(jīng)網(wǎng)絡(luò)究竟探索到了什么。我們發(fā)現(xiàn),為了區(qū)分五個(gè)最簡(jiǎn)單的結(jié),神經(jīng)網(wǎng)絡(luò)會(huì)將結(jié)上的每一對(duì)點(diǎn)的絞擰數(shù)相乘。值得注意的是,這個(gè)量等價(jià)于一個(gè)已存在的不變量,稱為“二階瓦西里耶夫(Vassiliev)不變量”。瓦西里耶夫不變量是通過(guò)將局部絞擰數(shù)矩陣的二元組、三元組、四元組……直到n元組相乘來(lái)計(jì)算的。順便提一下,二階瓦西里耶夫不變量也是康威多項(xiàng)式的二次項(xiàng)系數(shù),這是一種我們之前提到的代數(shù)不變量。一個(gè)仍未被驗(yàn)證的猜想認(rèn)為,能夠通過(guò)積分計(jì)算的瓦西里耶夫不變量完備集可能就是長(zhǎng)期尋求的完全不變量。

我們很高興地發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)能夠通過(guò)計(jì)算更高階的瓦西里耶夫不變量來(lái)適應(yīng)更復(fù)雜的結(jié)。例如,為了唯一分類五個(gè)簡(jiǎn)單結(jié),神經(jīng)網(wǎng)絡(luò)僅需計(jì)算二階瓦西里耶夫不變量。但在250個(gè)結(jié)的數(shù)據(jù)集中,它可能會(huì)計(jì)算三階或四階的瓦西里耶夫不變量。

幾何不變量和代數(shù)不變量是通過(guò)非常不同的數(shù)學(xué)方法計(jì)算的。AI能夠發(fā)現(xiàn)它們之間的聯(lián)系非常令人興奮,這也使我們更接近完全不變量。

紐結(jié)的確很重要

在短短三年內(nèi),AlphaFold生成了數(shù)百萬(wàn)種蛋白質(zhì),其中大部分尚未被完全研究。2023年,由華沙大學(xué)的喬安娜·蘇爾科夫斯卡(Joanna Sulkowska)領(lǐng)導(dǎo)的一組研究人員預(yù)測(cè),通過(guò)AlphaFold生成的蛋白質(zhì)中有多達(dá)2%是紐結(jié)蛋白質(zhì),其中最復(fù)雜的結(jié)有六個(gè)交叉點(diǎn)[11]。2022年,約翰內(nèi)斯·古滕貝格大學(xué)的彼得·維爾瑙(Peter Virnau)在AlphaFold2數(shù)據(jù)集中發(fā)現(xiàn)了一種具有七個(gè)交叉點(diǎn)的紐結(jié)蛋白質(zhì)[12]。這種蛋白質(zhì)從未在實(shí)驗(yàn)中觀察到,因此我們不無(wú)理由相信可能還有更復(fù)雜的紐結(jié)蛋白質(zhì)存在。

紐結(jié)不僅存在于生物學(xué)中。有研究發(fā)現(xiàn),紐結(jié)的拓?fù)浣Y(jié)構(gòu)會(huì)影響冰和水凝膠的熱力學(xué)和材料屬性,這意味著未來(lái)我們可能會(huì)利用拓?fù)湫再|(zhì)設(shè)計(jì)新材料。我們需?要更有效的方法來(lái)識(shí)別分子和材料中的紐結(jié)結(jié)構(gòu),希望我們的發(fā)現(xiàn)能為這一探索提供指導(dǎo)。

在2004年,加拿大的三位研究人員利用他們大學(xué)的計(jì)算集群將泰特最初編制的結(jié)表擴(kuò)展至19個(gè)交叉點(diǎn)的交錯(cuò)紐結(jié),構(gòu)造出超過(guò)六十億種獨(dú)特的紐結(jié)結(jié)構(gòu)[7]。泰特花了25年創(chuàng)建他自己的紐結(jié)列表,他可能會(huì)驚訝于一百年后,一臺(tái)機(jī)器竟然能在短短幾天內(nèi)將他的工作擴(kuò)展超過(guò)五個(gè)數(shù)量級(jí)。紐結(jié)理論中目前最大的未解之謎仍然是尋找完全不變量。現(xiàn)在,既然有了AI的助力,下一步的進(jìn)展可能讓我們感到驚訝。

譯者注

[1]蛋白質(zhì)可憑借相互作用在特定環(huán)境下自我組裝,這個(gè)過(guò)程被稱為蛋白質(zhì)折疊。蛋白質(zhì)折疊問(wèn)題是分子生物學(xué)領(lǐng)域尚未解決的一個(gè)重大課題。

[2]數(shù)學(xué)上,我們定義一個(gè)紐結(jié)為空間中的一個(gè)閉合曲線,并且該曲線在任何地方不會(huì)出現(xiàn)自相交。

[3]此處原文The above image is extracted from their table of knots up to seven crossings – “the first seven orders of knottiness”,表述有誤。從圖中不難看出,泰特等人列出的結(jié)表中包含了最多9個(gè)交叉點(diǎn)。圖2實(shí)際上列出了非平凡紐結(jié)的前七種情況,即交叉點(diǎn)的個(gè)數(shù)大于等于3且小于等于9。(注意,交叉點(diǎn)小于等于2的紐結(jié)可以光滑形變?yōu)槠椒步Y(jié)。)

[4]本段原文有矛盾,“A recipe for such a topological invariant could be something like this……”,“it isn’t a complete invariant”。DT編碼只是用來(lái)構(gòu)造拓?fù)洳蛔兞康囊环N方法,它本身并不是一個(gè)不變量。DT編碼提供了一個(gè)直接的符號(hào)化表示,使得紐結(jié)可以轉(zhuǎn)換成一串?dāng)?shù)字,便于分析和計(jì)算。人們可以進(jìn)一步推導(dǎo)出亞歷山大多項(xiàng)式等重要的紐結(jié)不變量。另外,使用DT編碼,目前還無(wú)法構(gòu)造出真正的完全不變量。

[5] 此處原文有誤,“One such invariant that I am fond of is the ‘writhe’”。和DT編碼一樣,絞擰數(shù)本身并不是拓?fù)洳蛔兞?,但可以用?lái)構(gòu)造拓?fù)洳蛔兞?。不同的是,絞擰數(shù)用于描述紐結(jié)二維投影圖的幾何特性(而非單一的代數(shù)性質(zhì),具體見(jiàn)下文)。例如絞擰數(shù)可以用來(lái)構(gòu)造紐結(jié)的自交數(shù),在區(qū)分鏡像紐結(jié)、描述紐結(jié)幾何特性和某些物理系統(tǒng)(如DNA鏈)的研究中有重要應(yīng)用。同樣,使用絞擰數(shù),目前還無(wú)法構(gòu)造出真正的完全不變量。

參考文獻(xiàn)

[1]Dabrowski-Tumanski, Pawel, and Joanna I. Sulkowska. "To tie or not to tie? That is the question." Polymers 9.9 (2017): 454.

[2]Perko, Kenneth A. "On the classification of knots." Proceedings of the American Mathematical Society 45.2 (1974): 262-266.

[3]Dowker, Clifford H., and Morwen B. Thistlethwaite. "Classification of knot projections." Topology and its Applications 16.1 (1983): 19-31.

[4]Ippoliti, Emiliano. "On the heuristic power of mathematical representations." Synthese 200.5 (2022): 407.

[5]Sleiman, Joseph Lahoud, et al. "Geometric learning of knot topology." Soft Matter 20.1 (2024): 71-78.

[6]Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.

[7]Vandans, Olafs, et al. "Identifying knot types of polymer conformations by machine learning." Physical Review E 101.2 (2020): 022502.

[8]Braghetto, Anna, et al. "Machine learning understands knotted polymers." Macromolecules 56.7 (2023): 2899-2909.

[9]Sleiman, Joseph L., et al. "Geometric Predictors of Knotted and Linked Arcs." ACS Polymers Au 2.5 (2022): 341-350.

[10]Perlinska, Agata P., et al. "AlphaFold predicts novel human proteins with knots." Protein Science 32.5 (2023): e4631.

[11]Brems, Maarten A., et al. "AlphaFold predicts the most complex protein knot and composite protein knots." Protein Science 31.8 (2022): e4380.

[12]Rankin, Flint, Schermann. "Enumerating the prime alternating knots, Part I." Journal of Knot Theory and Its Ramifications 13.01 (2004): 57-100.

本文基于知識(shí)共享許可協(xié)議(CC BY-NC)譯自Davide Michieletto, Spot the knot: using AI to untangle the topology of molecules.

特 別 提 示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào),回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權(quán)說(shuō)明:歡迎個(gè)人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
沖沖
大學(xué)士級(jí)
這些進(jìn)展表明,AI不僅能夠處理大量數(shù)據(jù),還能夠在數(shù)學(xué)和生物學(xué)等領(lǐng)域提供新的見(jiàn)解和解決方案,推動(dòng)科學(xué)的發(fā)展!
2024-10-21
臭皮匠心
學(xué)士級(jí)
總的來(lái)說(shuō),AI在生物學(xué)中的突破不僅解決了長(zhǎng)期存在的科學(xué)難題,也為數(shù)學(xué)家們提供了新的研究方向。這種跨學(xué)科的合作模式預(yù)示著未來(lái)科學(xué)研究的新趨勢(shì),即通過(guò)結(jié)合不同領(lǐng)域的知識(shí)和技術(shù),共同攻克復(fù)雜的科學(xué)問(wèn)題。相信隨著AI技術(shù)的不斷發(fā)展和完善,更多類似的突破將會(huì)出現(xiàn),推動(dòng)人類對(duì)自然界的認(rèn)識(shí)不斷深化。
2024-10-21
臭皮匠心
學(xué)士級(jí)
AI在生物學(xué)中的應(yīng)用不僅解決了長(zhǎng)期存在的科學(xué)難題,還為數(shù)學(xué)領(lǐng)域提供了新的研究思路。通過(guò)借鑒生物學(xué)問(wèn)題的解決方法,數(shù)學(xué)家們或許能夠在紐結(jié)理論等長(zhǎng)期未解的問(wèn)題上取得進(jìn)展。這一跨學(xué)科的合作展示了AI作為一種強(qiáng)大的工具,有能力推動(dòng)各個(gè)科學(xué)領(lǐng)域的邊界,開(kāi)啟新的研究方向。我們可以期待更多類似的跨學(xué)科合作,共同推動(dòng)科學(xué)的進(jìn)步。
2024-10-21