讓 AI 在某些條件下具備類似人類的反應(yīng)能力,從而代替人類高效地從事特定工作,是 AI 領(lǐng)域研究人員孜孜不倦的追求。正如在醫(yī)學(xué)圖像和人工智能的交叉領(lǐng)域,基于視覺語言預(yù)訓(xùn)練的深度模型 (Visual-Language Pre-training, VLP) 憑借其自動(dòng)化的特點(diǎn),可以在大量圖像及對(duì)應(yīng)文本的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并學(xué)會(huì)自動(dòng)從新的圖像中提取相關(guān)特征,可高效地解決費(fèi)時(shí)費(fèi)力的人工注釋需求。
然而,盡管 VLP 在醫(yī)療領(lǐng)域已經(jīng)取得了一定程度的成功,但在進(jìn)一步擴(kuò)大其應(yīng)用的數(shù)據(jù)規(guī)模時(shí),仍然面臨著諸多挑戰(zhàn)。
首先,現(xiàn)有模型訓(xùn)練大多主要以單模態(tài)數(shù)據(jù)(主要是 2D 圖像,如 X 光片)為主,這與包含多模態(tài)圖像(包含 2D 和 3D 圖像,如 CT、MRI 圖像等)的真實(shí)醫(yī)學(xué)場(chǎng)景并不相符;其次,不同模態(tài)的醫(yī)學(xué)圖像固有的異質(zhì)性也阻礙了它們的有效協(xié)作和整合。此外,醫(yī)學(xué)圖像不同模態(tài)的數(shù)據(jù)還存在維度差異、缺乏成對(duì)數(shù)據(jù)等。因此,如何構(gòu)建一個(gè)統(tǒng)一的模型,并將這些不同模態(tài)的數(shù)據(jù)有效映射至共同空間,實(shí)現(xiàn)聯(lián)合學(xué)習(xí),成為了一個(gè)極具挑戰(zhàn)性的課題。
為了解決上述問題,**浙江大學(xué)胡浩基團(tuán)隊(duì)聯(lián)合微軟亞洲研究院邱鋰力團(tuán)隊(duì)提出了一種全新的統(tǒng)一醫(yī)學(xué)圖像預(yù)訓(xùn)練框架 UniMedI。**它利用診斷報(bào)告作為公共語義空間,可為不同模態(tài)的醫(yī)學(xué)圖像創(chuàng)建統(tǒng)一的表示,此外,它還引入創(chuàng)建「?jìng)闻鋵?duì)」 (Pseudo-Pairs) 的技術(shù),在文本的指導(dǎo)下,UniMedI 能夠從復(fù)雜的 3D 圖像中選擇與該文本相關(guān)的 2D 切片,這些切片充當(dāng)橋接 2D 和 3D 數(shù)據(jù)的偽對(duì),可增強(qiáng)各種醫(yī)學(xué)成像模式之間的一致性,有效整合醫(yī)學(xué)多模態(tài)圖像。
相關(guān)研究成果以「Unified Medical Image Pre-training in Language-Guided Common Semantic Space」為題,收錄于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的頂會(huì) ECCV 2024。
研究亮點(diǎn):
* 在實(shí)驗(yàn)中,UniMedI 在多個(gè)不同數(shù)據(jù)集上的 2D 和 3D 圖像上的性能表現(xiàn)優(yōu)異,在廣泛的醫(yī)學(xué)任務(wù),如圖像分類、分割和檢索方面表現(xiàn)卓越
* UniMedI 可以統(tǒng)一采集 2D 和 3D 圖像,解決了醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)稀缺問題
===
真實(shí)醫(yī)學(xué)數(shù)據(jù),有效驗(yàn)證框架
預(yù)訓(xùn)練 UniMedI 框架所使用的數(shù)據(jù)來自 JPG 版本的 2D X 光片數(shù)據(jù)集 MIMIC-CXR 2.0.0 和 3D CT 掃描數(shù)據(jù)集 BIMCV。
其中,研究人員對(duì) 2D 數(shù)據(jù)集進(jìn)行了預(yù)處理,消除了所有側(cè)面圖像,以便與僅使用正面圖像的下游任務(wù)對(duì)齊。同時(shí),為保持?jǐn)?shù)據(jù)集的完整性,實(shí)驗(yàn)中未使用少于 3 句話的 2D 和 3D 數(shù)據(jù)集簡(jiǎn)短報(bào)告。
圖像方面,2D 圖像的大小為 224 × 224,3D 圖像大小為 128 × 128 × 32。
研究團(tuán)隊(duì)在 8 個(gè) Tesla V100 GPU 上對(duì) UniMedI 框架進(jìn)行了 50 次預(yù)訓(xùn)練,batch 大小為 144。
**在實(shí)驗(yàn)評(píng)估中,首先團(tuán)隊(duì)對(duì) 2D 和 3D 數(shù)據(jù)集進(jìn)行了醫(yī)學(xué)圖像分類,**其中具有代表性的 2D 數(shù)據(jù)集有 3 個(gè),分別是:CheXpert,包含 191,229 張正視圖胸片;包含約 29,700 張正視圖胸片的 RSNA 肺炎 stage 2 版本;來自 2,800 多名患者的 16,490 張陽性 COVID-19 圖像。
**然后團(tuán)隊(duì)對(duì)兩個(gè)代表性的 3D 數(shù)據(jù)集進(jìn)行了分類,**分別是 CC-CCII 和 LUNA 16。其中,CC-CCII 使用了 Clean-CC-CCII 版本,該版本包含來自 2,698 例患者的 3,993 次掃描的 340,190 個(gè)切片;基于 LIDC-IDRI 建立的 LUNA 16,包含 888 個(gè) CT 掃描,帶有注釋。實(shí)驗(yàn)刪除了 LIDC-IDRI 數(shù)據(jù)庫中切片厚度大于 3mm 的 CT 掃描。
===
層層協(xié)作機(jī)制,打破數(shù)據(jù)藩籬
本研究提出的 UniMedI 是一個(gè)視覺語言預(yù)訓(xùn)練框架,醫(yī)學(xué)圖像及其文本報(bào)告分別由視覺編碼器 (Vision Encoder) 和文本編碼器 (Text Encoder) 兩個(gè)編碼器進(jìn)行編碼,然后通過 VL (Vision-Language) 對(duì)比學(xué)習(xí)共同學(xué)習(xí)。**UniMedI 的獨(dú)特之處在于它可以用統(tǒng)一的方式有效地采集 2D 和 3D 圖像,解決醫(yī)療領(lǐng)域的數(shù)據(jù)稀缺問題。**UniMedI 總體框架如下圖左邊所示:
UniMedI 總體框架:左邊為整體流程,右邊為關(guān)鍵設(shè)計(jì)
實(shí)驗(yàn)中,視覺編碼器采用的是 ViT-B/16,主要在 2D 和 3D 視覺數(shù)據(jù)的公共特征空間中提取表示,文本編碼器使用的是 BioClinicalBERT,用來對(duì)文本特征進(jìn)行編碼,視覺編碼器和文本編碼器在 2D 和 3D 數(shù)據(jù)中是通用的。
為了克服不存在配對(duì) 2D 和 3D 圖像數(shù)據(jù)的挑戰(zhàn)。研究團(tuán)隊(duì)在 UniMedI 中引入創(chuàng)建「?jìng)闻鋵?duì)」的方法,該方法的設(shè)計(jì)基于一種新穎的以語言為指導(dǎo)的注意力切片選擇策略。
比如,當(dāng)輸入為一個(gè) 3D 圖像時(shí),從其中提取與報(bào)告最相關(guān)的一部分 2D 切片,然后將選定的切片視為 2D 圖像,從而形成 2D-3D 圖像的偽配對(duì)關(guān)系。在此之后,通過將選定的 2D 切片與原始 3D 圖像一起輸入到網(wǎng)絡(luò)中,可共同學(xué)習(xí)它們與報(bào)告 (Report) 之間的關(guān)系,最終形成一個(gè)統(tǒng)一的特征空間。當(dāng)輸入為 2D 圖像時(shí),則省略了切片選擇處理。
之后,一個(gè)視覺編碼器將所有多模態(tài)圖像(包括原始 2D 和 3D 圖像以及所選擇的 2D 切片)映射到表示空間中。該視覺編碼器分別擁有用于 2D 和 3D 圖像的標(biāo)記器 T2D 和 T3D,以及用于實(shí)現(xiàn)更好集成的共享骨干 Ev。通過對(duì)比學(xué)習(xí)損失 L??,在一個(gè) VLP 中端到端學(xué)習(xí)包含視覺編碼器和文本編碼器 E? 的模型。在這個(gè)過程中,2D 和 3D 圖像都可以被編碼到由報(bào)告中語言信息監(jiān)督的公共語義空間中。
**為了充分利用醫(yī)學(xué)圖像本身多模態(tài)數(shù)據(jù),以及共享的一些公共信息,本研究中還引入了一個(gè)輔助任務(wù)設(shè)計(jì),即掩蔽和恢復(fù),并使用自蒸餾方法來完成任務(wù)。**這使得 2D 和 3D 圖像的 token 可以互相通信,并增強(qiáng)跨維度的交互和多模態(tài)圖像的集成。
值得注意的是,UniMedI 的一大亮點(diǎn)是注意力切片選擇策略和 VL 對(duì)比學(xué)習(xí)的協(xié)同效應(yīng)。
* 一方面,VL 對(duì)比學(xué)習(xí)可以實(shí)現(xiàn)語言監(jiān)督,這種監(jiān)督直接應(yīng)用于視覺 CLS token。該 token 在報(bào)告中包含重要信息,因此視覺 CLS token 的注意權(quán)重作為 2D 切片選擇的基礎(chǔ),才會(huì)攜帶來自報(bào)告的監(jiān)督信息,并與 3D 特征一起構(gòu)建聯(lián)合特征空間。
*** 另一方面,**細(xì)致的切片選擇使 2D 和 3D 特征空間更加整合,即便是沒有配對(duì)數(shù)據(jù)。這種共同空間可以放大醫(yī)學(xué)圖像和報(bào)告之間的詳細(xì)信息,并且通過這種方式,推動(dòng)了圖像和報(bào)告之間的對(duì)齊。這兩種設(shè)計(jì)使得多模態(tài)圖像的表征結(jié)合在一起,并使其同時(shí)接近報(bào)告表征空間,在構(gòu)建共同語義空間上達(dá)到了一加一大于二的效果。
多角度實(shí)驗(yàn)評(píng)估,性能趕超 UniMiss
為了對(duì) UniMedI 進(jìn)行全面有效的評(píng)估,本研究設(shè)置了多角度觀察,并通過與各種醫(yī)學(xué) VLP 方法進(jìn)行比較分析,進(jìn)而驗(yàn)證其性能和有效性。
首先,研究團(tuán)隊(duì)將 UniMedI 與包括 ConVIRT、GLoRIA、MGCA、LOVT、PRIOR 等在內(nèi)的方法進(jìn)行了比較,后者是針對(duì) X 光片及其相應(yīng)的醫(yī)學(xué)報(bào)告量身定制的;然后,研究團(tuán)隊(duì)又將 UniMedI 與幾種 2D 和 3D 聯(lián)合學(xué)習(xí)的方法進(jìn)行比較,包括 UniMiss 和 Joint。
**線性分類實(shí)驗(yàn)結(jié)果顯示,**在 2D 醫(yī)學(xué)圖像分類實(shí)驗(yàn)結(jié)果中(如下圖示),相比使用 ViT 作為視覺編碼器的最先進(jìn) MGCA (ViT-b/16) 方法,UniMedI 在不同訓(xùn)練數(shù)據(jù)下 (1%,10%,100%) 的 3 種 2D 醫(yī)學(xué)圖像分類中表現(xiàn)最好。
* 線性分類實(shí)驗(yàn):用來評(píng)估 UniMedI 的表征能力
與其相比,UniMedI 在 CheXpert 數(shù)據(jù)集上的 AUROC 分別提高 +0.6%、+0.6% 和 +0.8%;在 RSNA 數(shù)據(jù)集上的 AUROC 分別提高 +0.9%、+0.5% 和 +0.7%;在 COVID 數(shù)據(jù)集上的 AUROC 分別提高 +5.5%、+7.6% 和 +2.3%。實(shí)驗(yàn)結(jié)果表明了所提算法的有效性。
1%、10%、100% 訓(xùn)練數(shù)據(jù)下在 CheXpert、RSNA 和 COVID 數(shù)據(jù)集上的 2D 線性分類結(jié)果
在 3D 醫(yī)學(xué)圖像分類實(shí)驗(yàn)結(jié)果中(如下圖示),與最先進(jìn)的 UniMiss 對(duì)比,UniMedI 在 CC-CCII 數(shù)據(jù)集上分別提升了 +22.6%、+2.0% 和 +0.8% 的 ACC 增益。這些數(shù)據(jù)均驗(yàn)證了 UniMedI 的數(shù)據(jù)效率和有效性。
1%、10%、100% 訓(xùn)練數(shù)據(jù)下在 CC-CCII 上的 3D 線性分類結(jié)果
與此同時(shí),當(dāng)使用完整的訓(xùn)練數(shù)據(jù)對(duì)全視覺編碼器進(jìn)行微調(diào)時(shí),UniMedI 在 CC-CCII 和 LUNA 多個(gè) 3D 醫(yī)學(xué)圖像數(shù)據(jù)集上的性能均優(yōu)于其他方法。
如下圖所示,UniMedI 在 CC-CCII 數(shù)據(jù)集上的 ACC 值為 93.8%,在 LUNA2016-v2 數(shù)據(jù)集上的 ACC 值為 95.9%。這顯示其在 2D 和 3D 醫(yī)學(xué)圖像分類任務(wù)上的顯著泛化能力,表明該框架具有提取三維 CT 圖像通用特征的能力。
完整訓(xùn)練數(shù)據(jù)的 CC-CCII 和 RICORD 數(shù)據(jù)集上的 3D 微調(diào)結(jié)果
**醫(yī)學(xué)語義分割實(shí)驗(yàn)結(jié)果顯示,**在 2D 醫(yī)學(xué)語義分割結(jié)果中,UniMedI 明顯優(yōu)于當(dāng)前最先進(jìn)的 MGCA 算法,當(dāng)使用 1% 的訓(xùn)練數(shù)據(jù)時(shí),UniMedI 達(dá)到了 67.8% 的 Dice。在 3D 醫(yī)學(xué)語義分割結(jié)果中,UniMedI 在 BCV 數(shù)據(jù)集上與 UniMiss 相比,當(dāng)有限標(biāo)簽可用性為 40% 和 100% 時(shí),精度分別比 UniMiss 提高了 0.6% 和 0.4%,如下圖所示。
* 醫(yī)學(xué)語義分割實(shí)驗(yàn):用來評(píng)估分割性能,使用 RSNA 肺炎正視圖胸片,和 BCV 數(shù)據(jù)集(包括 50 張 CT 掃描)。
這些結(jié)果驗(yàn)證了 UniMedI 在提取有意義的特征和有效利用有限注釋數(shù)據(jù)方面具有強(qiáng)大的優(yōu)越性,證明了其在利用局部表示進(jìn)行語義分割任務(wù)時(shí)具備更高的熟練程度。
科技助力,加深 VLP 與醫(yī)學(xué)圖像的羈絆
視覺語言預(yù)訓(xùn)練模型正在成為連接計(jì)算機(jī)視覺和自然語言處理的重要橋梁,尤其是在醫(yī)學(xué)圖像領(lǐng)域,通過大規(guī)模的視覺和語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,它們能夠輕松捕獲復(fù)雜醫(yī)學(xué)圖像與文本之間的復(fù)雜關(guān)系,進(jìn)而輔助醫(yī)生進(jìn)行圖像診斷,幫助企業(yè)進(jìn)行藥物研發(fā),亦或者實(shí)現(xiàn)智能的醫(yī)學(xué)圖像管理。
**本次研究得以入選國際頂會(huì),也從另一方面再次佐證了在人工智能與醫(yī)學(xué)圖像的交叉領(lǐng)域,VLP 所蘊(yùn)藏著的巨大想象空間。**實(shí)際上,除了浙江大學(xué)與微軟亞洲研究院兩大團(tuán)隊(duì)本次強(qiáng)強(qiáng)聯(lián)手外,已經(jīng)有不少實(shí)驗(yàn)室針對(duì)這一領(lǐng)域進(jìn)行了攻堅(jiān)。
比如上述研究中所提到的先進(jìn)方法之一的 UniMiss,其相關(guān)成果早在 2022 年就由澳大利亞阿德萊德大學(xué)和西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院的團(tuán)隊(duì),以題為「UniMiss : Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier」刊登在當(dāng)年的 ECCV。
**在這篇研究中,作者主張利用大量的 2D 圖像來彌補(bǔ) 3D 數(shù)據(jù)的不足,旨在建立一個(gè)通用的醫(yī)學(xué)自我監(jiān)督表達(dá)學(xué)習(xí)框架,并命名為 UniMiss。**實(shí)驗(yàn)結(jié)果顯示,相比 ImageNet 預(yù)訓(xùn)練和其他高級(jí) SSL (self-Supervised learning) 對(duì)手,UniMiss 展示出了極大的優(yōu)勢(shì) ,在 2D/3D 醫(yī)學(xué)圖像分析任務(wù)中,無論是分割還是分類,其結(jié)果均能夠人滿意。
不僅如此,在今年的 7 月份,該團(tuán)隊(duì)又針對(duì) UniMiss 進(jìn)行了新一輪研究,并提出了 UniMiss+。目前,相關(guān)成果以題為「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」收錄于知名國際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence 上。
在最新的研究中,該團(tuán)隊(duì)在 UniMiss+ 中引入了數(shù)字重建 X 光片技術(shù),用來模擬 CT 掃描的 X 光片圖像,以便訪問配對(duì)的 CT 和 X 光圖像數(shù)據(jù)。相比上一代 UniMiss 得到了巨大改進(jìn)。
總而言之,融合人工智能與醫(yī)學(xué)圖像的相關(guān)科研仍舊在火熱進(jìn)行,假以時(shí)日,這些成果也必將轉(zhuǎn)化為應(yīng)用,落地到真實(shí)的醫(yī)學(xué)場(chǎng)景中去,成為造福醫(yī)務(wù)工作人員、患者、企業(yè)的新工具。