版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

300萬張圖片,1.5萬個(gè)斑馬魚胚胎,科學(xué)家實(shí)現(xiàn)AI胚胎識別

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

300 萬張圖片+1.5 萬個(gè)斑馬魚胚胎的數(shù)據(jù)集,系統(tǒng)生物學(xué)家 Patrick Müller 成功實(shí)現(xiàn)基于 AI 的胚胎識別。

作者|加零

編輯|三羊

在動(dòng)物發(fā)育過程中,胚胎隨著時(shí)間的推移會發(fā)生復(fù)雜的形態(tài)變化,研究者們希望能夠客觀地量化發(fā)育時(shí)間和速度,并提供標(biāo)準(zhǔn)化的方法以分析早期胚胎所處階段,更好地認(rèn)知進(jìn)化與發(fā)育流程。

之前,學(xué)者們對于胚胎發(fā)育階段和胚胎發(fā)育形態(tài)轉(zhuǎn)化的認(rèn)知來源于顯微觀察。但胚胎發(fā)育的階段轉(zhuǎn)化并不是理想化、穩(wěn)定化的,存在非常多的影響因素,以至于研究人員很難觀察到某一特定發(fā)育狀態(tài)。觀察胚胎形態(tài)推定所處的發(fā)育時(shí)間和發(fā)育階段這一過程,目前仍是偏向主觀的。

為了客觀建立發(fā)育時(shí)間與發(fā)育速度的關(guān)系,系統(tǒng)生物學(xué)家 Patrick Müller 領(lǐng)導(dǎo)康斯坦茨大學(xué)研究人員,開發(fā)了一套基于孿生網(wǎng)絡(luò)的深度學(xué)習(xí)方法,通過圖像對比,它能夠自動(dòng)捕捉胚胎發(fā)育過程,并在沒有人為干預(yù)的情況下識別胚胎發(fā)育特征階段點(diǎn)。目前,相關(guān)成果已發(fā)表于「Nature Methods」。

論文發(fā)表于「Nature Methods」

獲取論文:

https://www.nature.com/articles/s41592-023-02083-8

01 實(shí)驗(yàn)過程

數(shù)據(jù)集:整合大量胚胎圖像

利用高通量成像 Pipeline 和基于 ResNet101 的圖像分割,研究者們構(gòu)建了一個(gè)包含 300 萬張圖片和 1.5 萬個(gè)斑馬魚胚胎的數(shù)據(jù)集,以產(chǎn)生單個(gè)胚胎的發(fā)育軌跡。每個(gè)胚胎被單獨(dú)跟蹤,輸入模型時(shí)以不同顏色的邊界框劃分。開展每個(gè)實(shí)驗(yàn)時(shí)創(chuàng)建一個(gè)單獨(dú)的 JSON 文件,其中包含屬于各個(gè)類別的胚胎信息。

圖像處理圖示

模型架構(gòu):孿生網(wǎng)絡(luò)模型

孿生網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)相同結(jié)構(gòu)的并行神經(jīng)網(wǎng)絡(luò)構(gòu)成,可以同時(shí)接收兩個(gè)圖片作為輸入,并且兩個(gè)神經(jīng)網(wǎng)絡(luò)之間權(quán)值共享,通過基于特征嵌入的相似度計(jì)算,對圖像進(jìn)行比較。

以下是孿生網(wǎng)絡(luò)的結(jié)構(gòu)圖示:

孿生網(wǎng)絡(luò)結(jié)構(gòu)

構(gòu)成孿生網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:

基于 ResNet50 的神經(jīng)網(wǎng)絡(luò)

主干網(wǎng)絡(luò):基于 ImageNet 數(shù)據(jù)集,帶有預(yù)訓(xùn)練權(quán)重的 ResNet50 架構(gòu)作為主干網(wǎng)絡(luò);

嵌入模型頭部 (model head):主干網(wǎng)絡(luò)的輸出被壓平傳遞至嵌入模型頭部,其由三個(gè)密集層組成,每層之間有批量歸一化層,產(chǎn)生一個(gè) size 為 (1, 256) 的輸出/嵌入;

遷移學(xué)習(xí):除了卷積塊5和模型頭層之外,ResNet50 骨干網(wǎng)絡(luò)的所有層都被凍結(jié)。將 ResNet50 生成的特征嵌入結(jié)合在一個(gè)距離層中,計(jì)算訓(xùn)練過程中不同輸入的網(wǎng)絡(luò)生成嵌入之間的歐幾里得度量。

算法訓(xùn)練:三聯(lián)體損失訓(xùn)練

算法訓(xùn)練過程如下:

構(gòu)建圖像三聯(lián)體:圖像三聯(lián)體由三張胚胎圖像組成,分別為錨定圖像 (anchor image),處于隨機(jī)發(fā)育階段 t1 的胚胎圖像;正向圖像 (positive image),類似發(fā)育階段 t1 的圖像(輸入神經(jīng)網(wǎng)絡(luò) 1)或者經(jīng)過圖像增強(qiáng)處理的錨定圖像(輸入神經(jīng)網(wǎng)絡(luò) 2);負(fù)向圖像 (negative image),發(fā)育階段 t2 ≠ t1 的胚胎圖像。

圖像三聯(lián)體圖示

三聯(lián)體損失訓(xùn)練:將構(gòu)建完成的圖像三聯(lián)體傳遞給孿生網(wǎng)絡(luò),基于下方公式計(jì)算三聯(lián)體損失 (Triplet loss),以最小化錨定圖像和正向圖像的相似性,并最大化錨定圖像和負(fù)向圖像的相似性。

三聯(lián)體損失計(jì)算公式

A 表示錨定圖像,P 表示正向圖像,N 表示負(fù)向圖像

迭代訓(xùn)練:神經(jīng)網(wǎng)絡(luò) 1 使用了 30 萬個(gè)斑馬魚胚胎圖像三聯(lián)體進(jìn)行了 10 個(gè) epoch 的訓(xùn)練;神經(jīng)網(wǎng)絡(luò) 2 使用了 100 萬個(gè)圖像三聯(lián)體進(jìn)行了 2 個(gè) epoch 的訓(xùn)練,并對錨定圖像進(jìn)行了增強(qiáng)處理,使用 NVIDIA GeForce RTX3070 (ASUS) 進(jìn)行 GPU 加速訓(xùn)練。

分任務(wù)訓(xùn)練:對圖像相似性、胚胎分期、發(fā)育速度和溫度、藥物誘導(dǎo)導(dǎo)致的胚胎發(fā)育變化分別進(jìn)行了對應(yīng)訓(xùn)練。

02 實(shí)驗(yàn)結(jié)果

結(jié)果 1:利用相似性圖對胚胎自動(dòng)分期

將測試圖像與一組胚胎圖像比較,計(jì)算它們之間的余弦相似度,獲得相似性評分以分類胚胎圖像。

測試胚胎與參考圖像的相似性圖

比較測試圖像與時(shí)間序列的發(fā)育胚胎圖像,得到相似性隨時(shí)間變化的曲線,從中提取出兩個(gè)主要特征:

· 曲線的峰值指示了測試圖像胚胎位于哪個(gè)發(fā)育階段。

· 曲線的非峰值區(qū)域包含了額外信息,如峰寬度和與遠(yuǎn)程胚胎階段的相似性,反映了不同時(shí)間點(diǎn)的形態(tài)相似性。

胚胎年齡預(yù)測示意圖

孿生網(wǎng)絡(luò)可以對一個(gè)胚胎的一組時(shí)間序列圖像進(jìn)行識別預(yù)測,構(gòu)建基于預(yù)測發(fā)育階段的軌跡,實(shí)現(xiàn)準(zhǔn)確的胚胎分期。

結(jié)果 2:探究發(fā)育速度與溫度的函數(shù)關(guān)系

以前,量化胚胎發(fā)育的溫度依賴性需要手動(dòng)或半自動(dòng)注釋發(fā)育時(shí)間,這大大限制了可以在合理的時(shí)間跨度內(nèi)分析的實(shí)驗(yàn)數(shù)量。

利用構(gòu)建的孿生網(wǎng)絡(luò)自動(dòng)分析發(fā)育速度的溫度依賴性變化,實(shí)驗(yàn)方案為:23.5 ℃ 和 35.5 ℃ 之間的斑馬魚胚胎和 18 ℃ 到 36 ℃ 的青魚胚胎,每個(gè)溫度條件下分析 100 至 200 個(gè)斑馬魚胚胎或 20 至 100 個(gè)青魚胚胎。

實(shí)驗(yàn)結(jié)果如圖所示:

不同溫度下斑馬魚和青魚胚胎發(fā)育分析圖

a,d:斑馬魚和青魚的年齡估計(jì)示意圖;

b,e:斑馬魚和青魚在不同溫度的發(fā)育情況;

c,f:斑馬魚和青魚在不同溫度下估計(jì)生長率的自然對數(shù)。

· 溫度變化對兩種胚胎的發(fā)育速率產(chǎn)生了顯著影響。較低溫度下,胚胎發(fā)育速率較慢,而較高溫度則導(dǎo)致發(fā)育速率顯著加快。面對 10℃ 的溫度變化時(shí),發(fā)育速率大致變化了兩倍。

· 使用孿生網(wǎng)絡(luò)量化分析溫度依賴的發(fā)育速率,利用 Arrhenius 方程擬合數(shù)據(jù)。在物種特定的溫度范圍內(nèi),線性擬合的斜率給出斑馬魚和米達(dá)卡的表觀活化能分別為 65 kJ/mol 和 77 kJ/mol。這些表觀活化能與其他變溫動(dòng)物(如青蛙、果蠅或酵母)相似,明顯不同于恒溫動(dòng)物(如小鼠或人類)。

· 與理想化猜測不同,在較高溫度區(qū)域,兩種胚胎的發(fā)育速率均不再加速,而是趨于穩(wěn)定。在較低溫度區(qū)域:斑馬魚的發(fā)育線性減緩,溫度低于 23℃ 胚胎停止發(fā)育;青魚胚胎則表現(xiàn)出非線性發(fā)育的特征,長時(shí)間停滯在發(fā)育的原始囊階段。

結(jié)果 3:量化胚胎進(jìn)化過程中的自然變異性

研究發(fā)現(xiàn),盡管胚胎受到基因變異、外部干擾以及基因表達(dá)中的噪音和隨機(jī)性影響導(dǎo)致生長速率和發(fā)育階段的偏差,但總會完成進(jìn)化過程。

胚胎的進(jìn)化差異圖示

利用孿生網(wǎng)絡(luò)評估同齡胚胎中個(gè)體表型的差異,實(shí)驗(yàn)結(jié)果如圖所示:

胚胎發(fā)育圖

左圖表示不同時(shí)間后預(yù)測的胚胎發(fā)育階段百分比,0 分鐘(綠色)、400 分鐘(藍(lán)色)、800 分鐘(紫色);

右圖表示胚胎的平均相似值隨時(shí)間下降。

在早期胚胎發(fā)育階段,預(yù)測的胚胎發(fā)育階段具有較窄的分布,而隨著分段期的開始,預(yù)測的胚胎發(fā)育階段的分布寬度增加。這表明,在胚胎發(fā)育過程中,個(gè)體之間的差異逐漸增加,但平均相似性值卻隨著時(shí)間降低。

在 300 多萬多張斑馬魚胚胎圖像數(shù)據(jù)中,約有 1% 的胚胎發(fā)育異常,常見原因是自發(fā)性崩解或背腹極性缺陷。使用孿生網(wǎng)絡(luò),研究人員能夠在早期階段就檢測出發(fā)育異常的胚胎。這些異常胚胎在預(yù)測的正常發(fā)育范圍之外表現(xiàn)出較低的平均相似性值。

發(fā)育異常胚胎圖示

結(jié)果 4:鑒定藥物處理的胚胎表型

胚胎發(fā)育受到多種信號分子的協(xié)調(diào)作用,而調(diào)節(jié)它們的活性可能導(dǎo)致胚胎表型變化。在斑馬魚發(fā)育過程中,有七個(gè)主要的信號通路,在這些通路中,骨形成蛋白 (BMP)、視黃酸 (RA)、Wnt、成纖維細(xì)胞生長因子 (FGF) 和 Nodal 信號通路主要調(diào)控生殖層定向和前后背腹軸的形成,Sonic Hedgehog (Shh) 和平面細(xì)胞極性 (PCP) 信號通路則控制身體軸的延伸和形態(tài)發(fā)生。

研究人員對孿生網(wǎng)絡(luò)在檢測異常胚胎方面的效用層面展開測試,結(jié)果如下圖所示:

未經(jīng)處理的胚胎與藥物處理后胚胎的表型對比

a:未經(jīng)處理的胚胎作為藥物處理的胚胎表型參考;

b - i:不同藥物處理胚胎與未處理胚胎相似性變化;

j:胚胎數(shù)目對異常檢測準(zhǔn)確性的依賴性。

比較未經(jīng)處理的胚胎與經(jīng)過 BMP、Nodal、FGF、Shh、PCP 和 Wnt 抑制劑處理以及 RA 暴露的胚胎的表型,發(fā)現(xiàn)未經(jīng)處理的胚胎之間存在高相似性值,而受小分子藥物處理的胚胎與未經(jīng)處理的胚胎之間的相似性值通常較低。

對時(shí)間點(diǎn)進(jìn)行統(tǒng)計(jì)分析,確定胚胎群體與參考群體顯著偏離的時(shí)間點(diǎn),從而檢測到具有表型缺陷的胚胎群體,檢測的準(zhǔn)確性取決于分析的胚胎數(shù)量和干擾類型。

此外,研究還探究了該方法在識別不同穿透率和嚴(yán)重程度表型時(shí)的準(zhǔn)確性。使用不同水平 BMP 通路抑制導(dǎo)致的斑馬魚胚胎的已知表型范圍,結(jié)果如圖所示:孿生網(wǎng)絡(luò)能夠準(zhǔn)確檢測到發(fā)育偏差,對于具有高穿透性的表型或使用高劑量小分子 BMP 信號通路抑制劑引起的明顯表型,僅需要少量胚胎即可進(jìn)行準(zhǔn)確檢測,而輕微的表型則需要約 30 個(gè)胚胎。

不同水平 BMP 通路抑制下斑馬魚胚胎表型變化

這些分析表明,僅使用正常發(fā)育胚胎圖像訓(xùn)練的孿生網(wǎng)絡(luò),能夠以無偏見的方式檢測胚胎表型變化。

結(jié)果 5:自動(dòng)推導(dǎo)胚胎發(fā)育時(shí)期

通常情況下,可以使用參考胚胎圖像來評估測試胚胎的發(fā)育時(shí)間,但是對于新發(fā)現(xiàn)或未經(jīng)表征的物種,可能無法獲得這樣的參考圖像。

研究者提出,可以利用孿生網(wǎng)絡(luò)計(jì)算測試圖像與同一胚胎在早期時(shí)間點(diǎn)的其他圖像的相似性判斷發(fā)育階段。

對斑馬魚胚胎進(jìn)行相似性分析的結(jié)果如圖所示:

胚胎發(fā)育時(shí)期推導(dǎo)

a:計(jì)算測試胚胎與來自同一胚胎的以前采集時(shí)間點(diǎn)的圖像之間的相似性;

b:代表性相似矩陣。

在不同的發(fā)育時(shí)期,相似性呈現(xiàn)出獨(dú)特的分布特征。他們觀察到了一個(gè)共同的模式:高相似性值在局部聚集,而在更遠(yuǎn)的時(shí)間點(diǎn),相似性值較低且呈現(xiàn)平穩(wěn)狀態(tài)。

有趣的是,孿生網(wǎng)絡(luò)評估的圖像對之間的局部和全局統(tǒng)計(jì)相似性,與發(fā)育過程中關(guān)鍵階段的順序是一致的。落入平穩(wěn)階段的胚胎具有穩(wěn)定的形態(tài),突顯了發(fā)育中的主要時(shí)期,如經(jīng)典的分裂、囊胚、胚胎盤、器官發(fā)生和分段階段。與此相反,落入平穩(wěn)階段之間的邊界的胚胎代表著發(fā)育形態(tài)發(fā)生主要變化的短暫時(shí)期。

接下來,研究者嘗試將這種方法推廣到其他物種,包括青魚(medaka)和三棘刺魚(three-spined stickleback)。結(jié)果顯示,孿生網(wǎng)絡(luò)對這些形態(tài)多樣的胚胎序列生成了信息豐富的圖譜。

自動(dòng)檢測青魚和三刺魚胚胎的發(fā)育時(shí)期和轉(zhuǎn)變

進(jìn)一步研究中,他們將這種方法應(yīng)用到親緣關(guān)系更遠(yuǎn)的線蟲(Caenorhabditis elegans),研究者們利用來自不同獨(dú)立來源的開放數(shù)據(jù),如已發(fā)表的論文和YouTube視頻,訓(xùn)練和評估網(wǎng)絡(luò),成功自動(dòng)識別出C. elegans的第一次分裂周期,形成前四個(gè)原胚細(xì)胞。

這些結(jié)果表明,Twin Network 方法能夠用于針對不同生物體系,以及廣泛范圍的圖像數(shù)據(jù)集,自動(dòng)生成不同物種的發(fā)育圖譜,而無需先前針對此目的專門訓(xùn)練的模型。

03 孿生網(wǎng)絡(luò)vs.數(shù)字孿生網(wǎng)絡(luò)

5G 時(shí)代,數(shù)字孿生網(wǎng)絡(luò)屢被提及。同時(shí),和他名稱相仿的「孿生技術(shù)」—— 孿生網(wǎng)絡(luò)也在圖像識別領(lǐng)域嶄露頭角。二者雖然概念不同,但在某些領(lǐng)域卻展現(xiàn)出了合力。

首先注意,這是兩個(gè)完全不同的概念。

Twin Network:一種深度學(xué)習(xí)架構(gòu),主要應(yīng)用于圖像檢索、圖像匹配、圖像分類等領(lǐng)域,通過學(xué)習(xí)圖像的嵌入表征,實(shí)現(xiàn)圖像相似性的比較和分析。

Digital Twin Network:物理實(shí)體的虛擬模型,它通過實(shí)時(shí)數(shù)據(jù)更新和仿真技術(shù),與其對應(yīng)的物理實(shí)體進(jìn)行交互,并可以模擬物理實(shí)體在不同條件下的行為和性能,主要應(yīng)用于工業(yè)制造、物聯(lián)網(wǎng)、城市規(guī)劃、航空航天等領(lǐng)域。

作為一種 AI 算法,Twin Network 可從自身優(yōu)勢為數(shù)字孿生網(wǎng)絡(luò)賦能增效。

比如工業(yè)設(shè)備的數(shù)字孿生中,孿生網(wǎng)絡(luò)可以比較不同時(shí)間點(diǎn)的設(shè)備圖像,以了解設(shè)備狀態(tài)的變化和差異;數(shù)字孿生城市規(guī)劃中,孿生網(wǎng)絡(luò)可以處理監(jiān)控探頭拍攝圖像數(shù)據(jù),對交通流量和路況進(jìn)行實(shí)時(shí)監(jiān)測和模擬等等。

綜合來看,Twin Network 通過結(jié)合圖像數(shù)據(jù)和深度學(xué)習(xí)技術(shù),為 Digital Twin Network 提供圖像相關(guān)的支持和應(yīng)用,提高數(shù)字孿生的信息獲取、監(jiān)測和決策能力。

不只是 Twin Network,其他的 AI 工具也將進(jìn)一步為數(shù)字孿生賦能。

評論
尖刀情懷永遠(yuǎn)跟黨走
大學(xué)士級
300萬張圖片和1.5萬個(gè)斑馬魚胚胎,如果沒有人工智能的的配合,靠人工來完成,那真的是很困難的一件事。隨著科技迅速發(fā)展,人工智能在各行各業(yè)的廣泛應(yīng)用,已經(jīng)開啟了一個(gè)全新的智能時(shí)代!
2023-12-12
天津.諸葛
少師級
動(dòng)物胚胎發(fā)育是一個(gè)復(fù)雜的系統(tǒng)工程,科學(xué)家們依靠AI成功實(shí)現(xiàn)了對斑馬魚的胚胎識別,通過圖像對比,自動(dòng)捕捉到胚胎發(fā)育過程、特征等,為動(dòng)物學(xué)研究提供了極大的參考價(jià)值,同時(shí)也彰顯出AⅠ強(qiáng)大的的智慧學(xué)習(xí)能力。
2023-12-13
龍??宇
少傅級
綜合來看,Twin Network 通過結(jié)合圖像數(shù)據(jù)和深度學(xué)習(xí)技術(shù),為 Digital Twin Network 提供圖像相關(guān)的支持和應(yīng)用,提高數(shù)字孿生的信息獲取、監(jiān)測和決策能力
2023-12-12