版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

復旦腦科學研究院新成果:借鑒語義分割,開發(fā)空間轉(zhuǎn)錄組語義注釋工具 Pianno

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

自 2020 年被 Nature Methods 評選為年度技術(shù)以來,「空間轉(zhuǎn)錄組學」已成為當今生命科學領(lǐng)域最炙手可熱的革命性技術(shù)之一。簡單來說,該技術(shù)能夠獲取組織空間信息和轉(zhuǎn)錄組數(shù)據(jù),從時間和空間維度精準解析組織內(nèi)基因表達模式,以及細胞類群的空間位置關(guān)系等生物學特征,在疾病研究、生長發(fā)育、器官結(jié)構(gòu)和物種演化等領(lǐng)域的研究中均具有極高價值。

隨著空間轉(zhuǎn)錄組學在學術(shù)科研領(lǐng)域持續(xù)火爆,如 10x Visium、Slide-seq 以及 Stereo-seq 等空間轉(zhuǎn)錄組學技術(shù)也如泉涌而出,這些最新成果和進展正徹底地改變?nèi)祟悓M織內(nèi)基因表達模式的研究。然而,僅僅獲得組織內(nèi)特定物理坐標的基因表達譜,還無法全面了解生物系統(tǒng)的復雜性,窮究其理,必須辨別組織內(nèi)每個空間點的生物學身份。

目前,基于機器學習的方法已被廣泛應用于識別空間點的群集,并使用標記基因解釋其生物學身份。但這些方法通常因為缺乏與群集內(nèi)已知結(jié)構(gòu)建立明確聯(lián)系的能力而受限。此外,手動注釋常被用作輔助識別已知結(jié)構(gòu),但該方法常受限于研究人員的專業(yè)知識和主觀判斷,且無法應用于大規(guī)模分析當中。

針對上述挑戰(zhàn),復旦大學腦科學研究院諸穎團隊近日在「Nature Communications」上發(fā)表了題為「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」的研究成果。研究團隊借鑒了計算機視覺中的「語義分割」思想,提出了「空間轉(zhuǎn)錄組語義注釋」概念,并開發(fā)了空間轉(zhuǎn)錄組語義注釋工具 Pianno,能夠為組織內(nèi)的空間點自動定義結(jié)構(gòu)或細胞類型,從而結(jié)合來自多個維度的信息,加強對復雜生物系統(tǒng)的解釋。

研究亮點:

Pianno 具有獨特的自動標記模式,適用于各種空間轉(zhuǎn)錄組學技術(shù)生成的數(shù)據(jù)

與最先進的空間聚類方法相比,Pianno 展現(xiàn)出了卓越的性能,為空間轉(zhuǎn)錄組學數(shù)據(jù)提供了新的視角

數(shù)據(jù)集:公開數(shù)據(jù),嚴謹計算

該研究所用的數(shù)據(jù)集主要為公共數(shù)據(jù)集,來自不同的空間技術(shù)平臺,具體包括了人類背外側(cè)前額葉皮質(zhì)數(shù)據(jù)集 dlPFC、成年小鼠大腦半球冠狀切片數(shù)據(jù)集 Stereo-seq、小鼠海馬體預處理數(shù)據(jù)集 Slide-seqV2、人類胰腺導管腺癌數(shù)據(jù)集 ST、人類乳腺癌數(shù)據(jù)集 Visium、小鼠初級視覺皮層數(shù)據(jù)集 scRNA-seq、多個人類皮質(zhì)區(qū)域的 snRNA-seq 數(shù)據(jù)集、小鼠嗅球 (olfactory bulb) 的 DAPI 染色圖像等。

研究中,為避免降噪、平滑、銳化等圖像處理技術(shù)對生物原始特征造成破壞,研究團隊基于原始計數(shù)構(gòu)建了貝葉斯分類器 (Bayesian classifier) 以微調(diào)初始注釋。同時,研究團隊應用了高階馬爾科夫隨機場 (Markov random field, MRF) 先驗模型。在空間轉(zhuǎn)錄組學背景下,由于必須共同考慮每個位點的基因表達和空間位置,研究團隊還采用了空間泊松點過程 (spatial Poisson point process, sPPP) 模型。

Pianno:創(chuàng)新的自動化空間轉(zhuǎn)錄組語義注釋新工具
研究團隊提出了一個基于貝葉斯框架的新工具 Pianno,該工具結(jié)合了馬爾可夫隨機場 (MRF) 與空間泊松點過程 (sPPP),充分利用了 sPPP 建模 RNA-seq 計數(shù)數(shù)據(jù)分布的能力,同時考慮了空間點的位置信息,可以使用預定義的標記基因列表,自動化地注釋空間轉(zhuǎn)錄組數(shù)據(jù)中每個點的生物身份。

Pianno 框架

Pianno 輸入的空間轉(zhuǎn)錄組數(shù)據(jù)由空間坐標 (Spatial coordinates)、初始標記基因列表 (Initial marker list) 和原始基因計數(shù) (Spatial raw counts) 組成,每個模式至少提供一個已知的標記。

注釋過程由初始分割步驟 (initial segmentation step) 和精細化步驟 (refinement step) 構(gòu)成:

在初始分割步驟中,每個基因的空間表達被轉(zhuǎn)換為灰度圖像 (grayscale image)。對于每個目標模式 (pattern),通過聚合與該模式相關(guān)的標記基因的灰度圖像來創(chuàng)建模式圖像 (pattern image),然后確定每種模式的額外候選標記基因來更新初始標記列表 (Updated marker list)??紤]到它們在最初注釋的結(jié)構(gòu)中的獨特表達模式,更新后的標記列表將會被整合到后續(xù)的精細化步驟中。

在精細化步驟中,構(gòu)建一個貝葉斯分類器 (Bayesian classifier) 來評估每個空間點屬于不同模式的后驗概率 (posterior probability),然后根據(jù)后驗概率更新注釋。

Pianno 提供兩種更新注釋的方法:

對于語義標注中的連續(xù)模式,建議將概率分布作為模式圖像,返回給模式檢測器 (Pattern detector) 進行更新標注;

對于分散或尖銳的圖像模式,建議根據(jù)概率值直接更新標簽,因為它可以保留詳細信息。

總的來說,Pianno 簡化了注釋過程,同時采用啟發(fā)式方法 (heuristic approach) 使用初始單個標記基因來識別額外的標記基因,可以最大限度減少對已知標記數(shù)量的輸入。

研究結(jié)果:性能卓越、適用性強

在本次研究中,研究團隊對 Pianno 的性能、準確性、適應性等進行了驗證,并通過與現(xiàn)有方法進行比較,進一步論證了 Pianno 的能力。

在與基于聚類的工具在解剖結(jié)構(gòu)注釋的比較中,研究團隊使用 dlPFC 數(shù)據(jù)集中的 12 個樣本對 Pianno 的性能進行了評估,并與另一種基于標記但無空間信息的注釋方法 CellAssign 進行了比較。另外,評估過程中還考慮了無監(jiān)督聚類方法 Leiden 算法,以及 5 種空間聚類方法 (SpaGCN、SEDR、BayesSpace、DeepST 和 STAGATE)。

Pianno 在皮層結(jié)構(gòu)重建中的性能表現(xiàn)評估

評估發(fā)現(xiàn),Pianno 的性能與經(jīng)驗豐富的研究員在基于形態(tài)特征和標記進行的手工注釋,達成了最高一致性,在 12 個樣本中,有 11 個樣本優(yōu)于其他測試方法。

多個指標評估結(jié)果

此外,研究團隊還通過其他分類指標,如準確率 (ACC)、宏平均精確度 (macro-averaging precision, P)、宏平均召回 (macro-averaging recall, R)、宏平均 F1 分數(shù) (F1) 和歸一化互信息 (normalized mutual information, NMI),進一步全面評估了 Pianno 的優(yōu)越性能,如上圖 e 所示,Pianno 相關(guān)指標均位于較高水準。

Pianno在小鼠皮質(zhì)內(nèi)細胞類型注釋性能基準測試

隨后,研究團隊評估了 Pianno 預測細胞類型空間分布的能力。在本輪驗證中,研究團隊使用了成年小鼠半腦冠狀切片的 Stereo-seq 數(shù)據(jù)集,并將結(jié)果與通過不同策略推斷的細胞類型分布進行了比較,包括細胞分割后進行無監(jiān)督聚類,以及 3 種基于空間和單細胞轉(zhuǎn)錄組學整合的空間去卷積 (deconvolution) 工具。

研究發(fā)現(xiàn),Pianno 對興奮性神經(jīng)元亞型分布的預測,顯示出與 Tangram 和 RCTD 相當?shù)哪J?,與它們在各層已知位置上表現(xiàn)出高度的一致性??偟膩碇v,該結(jié)果證明了 Pianno 在預測空間數(shù)據(jù)集中復雜的細胞類型分布方面,具有很好的穩(wěn)健性和準確性,尤其是在無監(jiān)督方法遇到挑戰(zhàn)的情況下。

然后,研究團隊進一步評估了 Pianno 在不同平臺的空間轉(zhuǎn)錄組數(shù)據(jù)中注釋各種形狀結(jié)構(gòu)的性能,并與 STAGATE 進行了比較。

Pianno 在不同平臺上注釋各種形狀結(jié)構(gòu)的性能表現(xiàn)

研究團隊使用 Pianno 對小鼠嗅球的 Stereo-seq 數(shù)據(jù)集中的解剖結(jié)構(gòu)進行了注釋,該數(shù)據(jù)集包含了 10,747 個空間點,涵蓋組織覆蓋區(qū)域和背景區(qū)域。

Pianno 能夠在幾分鐘內(nèi)同時完成背景去除和結(jié)構(gòu)標注。相比之下,當將聚類數(shù)設(shè)置為結(jié)構(gòu)數(shù)時,STAGATE 則無法識別出所有解剖結(jié)構(gòu)對應的聚類。

研究團隊還針對腫瘤微環(huán)境呈現(xiàn)出的高度異質(zhì)性,評估了 Pianno 在注釋復雜且分散結(jié)構(gòu)組織方面的表現(xiàn)。本輪測試分析了 2 個人類胰腺導管腺癌樣本和 2 個乳腺癌樣本的微環(huán)境。

腫瘤微環(huán)境注釋

總體而言,Pianno 表現(xiàn)出與專業(yè)病理學家手工標注一致的水平,證明了其在注釋不規(guī)則的復雜結(jié)構(gòu)時,特別是在異質(zhì)性腫瘤微環(huán)境中,具有極大潛力。這對病理學家在理解腫瘤生物學的復雜性方面提供了寶貴的幫助,并有望為提供個性化治療策略找到新思路。

人工智能與復雜生物學結(jié)合大有可為
根據(jù)復旦大學腦科學研究院報道,目前該研究項目已得到國家重點研發(fā)計劃「生物與信息融合 (BT 與 IT 融合)」重點專項、科技創(chuàng)新 2030 —「腦科學與類腦研究」重大項目、國家自然科學基金、上海市科技重大專項和張江實驗室等基金的資助。

據(jù)了解,復旦大學腦科學研究院成立于 2006 年 4 月,是復旦大學全校性的神經(jīng)科學研究實體機構(gòu)、教育部「985 工程」二期重點建設(shè)的科技創(chuàng)新平臺之一,與醫(yī)學神經(jīng)生物學國家重點實驗室為「兩位一體」建設(shè)項目。

從建院至今,復旦大學腦科學研究院已經(jīng)結(jié)下累累碩果。該院多次面向國際和國家重大需求,承擔重大科研項目,產(chǎn)出重要研究成果。據(jù)其官網(wǎng)披露,該院研究人員已主持參與了一系列重大科研項目,包括科技部「973 計劃」、「863 計劃」、科技創(chuàng)新 2030 「腦科學與類腦研究」、國家重點研發(fā)計劃、國家科技重大專項「重大新藥創(chuàng)制」等等。

其實,除了復旦大學腦科學研究院外,目前已有不少實驗室、企業(yè)也開始關(guān)注到空間轉(zhuǎn)錄組技術(shù)。

例如,中國科學院數(shù)學與系統(tǒng)科學研究院張世華團隊開發(fā)了 STA-系列工具。2022 年,該團隊發(fā)布了適應于不同空間轉(zhuǎn)錄組技術(shù)、不同生物組織的生物組織空間亞結(jié)構(gòu)識別的人工智能工具 STAGATE。進入 2023 年后,該團隊又圍繞空間轉(zhuǎn)錄組技術(shù)發(fā)布了多項成果

針對來自不同技術(shù)、不同發(fā)育時間點、不同疾病條件的生物組織多切片空間轉(zhuǎn)錄組數(shù)據(jù)建立了整合分析新工具 STAligner。

基于深度學習顯著圖的空間域特異可變基因識別方法 STAMarker,同時實現(xiàn)了空間域識別和對應的空間可變基因識別,有望為細粒度分析空間轉(zhuǎn)錄組數(shù)據(jù)提供有效方法。

與中國科學院北京基因組研究所(國家生物信息中心)楊運桂、蔡軍團隊合作,繪制了地中海渦蟲再生過程中的三維空間轉(zhuǎn)錄組圖譜 STAPR,系統(tǒng)鑒定了多個再生關(guān)鍵調(diào)控因子。

ENGEP 增強空間轉(zhuǎn)錄組學數(shù)據(jù)

華中師范大學數(shù)學與統(tǒng)計學學院張曉飛教授課題組開發(fā)了一款名為 ENGEP 的計算方法,利用 k近鄰加權(quán)回歸和集成學習策略,能夠準確預測空間轉(zhuǎn)錄組中未測基因的表達。此外,ENGEP 還能夠準確預測空間未測基因的表達模式,對增強空間轉(zhuǎn)錄組學數(shù)據(jù)具有重要意義。

毫無疑問,AI 在空間轉(zhuǎn)錄學、乃至生物學領(lǐng)域的賦能不僅提高了研究效率,同時還為科研難點提供了新的解題思路。正如該論文在討論部分指出的 Pianno 所帶來的價值——可能取代現(xiàn)有勞動密集型的人工注釋,以自動化的方式提供高效、精準、低成本的形式為空間轉(zhuǎn)錄組學帶來變革,也將推動生物學新發(fā)展。

參考資料:
1. https://news.fudan.edu.cn/2024/0407/c2474a139894/page.htm

2. https://bfse.cas.cn/sxyqyjc/kyjz/202311/t20231110_4985132.html

3. https://kjc.ccnu.edu.cn/info/1009/3744.htm

評論
祥和123
學士級
毫無疑問,AI 在空間轉(zhuǎn)錄學、乃至生物學領(lǐng)域的賦能不僅提高了研究效率,同時還為科研難點提供了新的解題思路。
2024-05-08
不知蹤穎
太師級
毫無疑問,AI 在空間轉(zhuǎn)錄學、乃至生物學領(lǐng)域的賦能不僅提高了研究效率,同時還為科研難點提供了新的解題思路。
2024-06-01
艾力88
庶吉士級
在疾病研究、生長發(fā)育、器官結(jié)構(gòu)和物種演化等領(lǐng)域的研究中均具有極高價值。
2024-05-14