讓 AI 在某些條件下具備類似人類的反應能力,從而代替人類高效地從事特定工作,是 AI 領域研究人員孜孜不倦的追求。正如在醫(yī)學圖像和人工智能的交叉領域,基于視覺語言預訓練的深度模型 (Visual-Language Pre-training, VLP) 憑借其自動化的特點,可以在大量圖像及對應文本的數(shù)據(jù)集上進行預訓練,并學會自動從新的圖像中提取相關特征,可高效地解決費時費力的人工注釋需求。
然而,盡管 VLP 在醫(yī)療領域已經(jīng)取得了一定程度的成功,但在進一步擴大其應用的數(shù)據(jù)規(guī)模時,仍然面臨著諸多挑戰(zhàn)。
首先,現(xiàn)有模型訓練大多主要以單模態(tài)數(shù)據(jù)(主要是 2D 圖像,如 X 光片)為主,這與包含多模態(tài)圖像(包含 2D 和 3D 圖像,如 CT、MRI 圖像等)的真實醫(yī)學場景并不相符;其次,不同模態(tài)的醫(yī)學圖像固有的異質(zhì)性也阻礙了它們的有效協(xié)作和整合。此外,醫(yī)學圖像不同模態(tài)的數(shù)據(jù)還存在維度差異、缺乏成對數(shù)據(jù)等。因此,如何構建一個統(tǒng)一的模型,并將這些不同模態(tài)的數(shù)據(jù)有效映射至共同空間,實現(xiàn)聯(lián)合學習,成為了一個極具挑戰(zhàn)性的課題。
為了解決上述問題,**浙江大學胡浩基團隊聯(lián)合微軟亞洲研究院邱鋰力團隊提出了一種全新的統(tǒng)一醫(yī)學圖像預訓練框架 UniMedI。**它利用診斷報告作為公共語義空間,可為不同模態(tài)的醫(yī)學圖像創(chuàng)建統(tǒng)一的表示,此外,它還引入創(chuàng)建「偽配對」 (Pseudo-Pairs) 的技術,在文本的指導下,UniMedI 能夠從復雜的 3D 圖像中選擇與該文本相關的 2D 切片,這些切片充當橋接 2D 和 3D 數(shù)據(jù)的偽對,可增強各種醫(yī)學成像模式之間的一致性,有效整合醫(yī)學多模態(tài)圖像。
相關研究成果以「Unified Medical Image Pre-training in Language-Guided Common Semantic Space」為題,收錄于計算機視覺和機器學習領域的頂會 ECCV 2024。
研究亮點:
* 在實驗中,UniMedI 在多個不同數(shù)據(jù)集上的 2D 和 3D 圖像上的性能表現(xiàn)優(yōu)異,在廣泛的醫(yī)學任務,如圖像分類、分割和檢索方面表現(xiàn)卓越
* UniMedI 可以統(tǒng)一采集 2D 和 3D 圖像,解決了醫(yī)學領域的數(shù)據(jù)稀缺問題
===
真實醫(yī)學數(shù)據(jù),有效驗證框架
預訓練 UniMedI 框架所使用的數(shù)據(jù)來自 JPG 版本的 2D X 光片數(shù)據(jù)集 MIMIC-CXR 2.0.0 和 3D CT 掃描數(shù)據(jù)集 BIMCV。
其中,研究人員對 2D 數(shù)據(jù)集進行了預處理,消除了所有側(cè)面圖像,以便與僅使用正面圖像的下游任務對齊。同時,為保持數(shù)據(jù)集的完整性,實驗中未使用少于 3 句話的 2D 和 3D 數(shù)據(jù)集簡短報告。
圖像方面,2D 圖像的大小為 224 × 224,3D 圖像大小為 128 × 128 × 32。
研究團隊在 8 個 Tesla V100 GPU 上對 UniMedI 框架進行了 50 次預訓練,batch 大小為 144。
**在實驗評估中,首先團隊對 2D 和 3D 數(shù)據(jù)集進行了醫(yī)學圖像分類,**其中具有代表性的 2D 數(shù)據(jù)集有 3 個,分別是:CheXpert,包含 191,229 張正視圖胸片;包含約 29,700 張正視圖胸片的 RSNA 肺炎 stage 2 版本;來自 2,800 多名患者的 16,490 張陽性 COVID-19 圖像。
**然后團隊對兩個代表性的 3D 數(shù)據(jù)集進行了分類,**分別是 CC-CCII 和 LUNA 16。其中,CC-CCII 使用了 Clean-CC-CCII 版本,該版本包含來自 2,698 例患者的 3,993 次掃描的 340,190 個切片;基于 LIDC-IDRI 建立的 LUNA 16,包含 888 個 CT 掃描,帶有注釋。實驗刪除了 LIDC-IDRI 數(shù)據(jù)庫中切片厚度大于 3mm 的 CT 掃描。
===
層層協(xié)作機制,打破數(shù)據(jù)藩籬
本研究提出的 UniMedI 是一個視覺語言預訓練框架,醫(yī)學圖像及其文本報告分別由視覺編碼器 (Vision Encoder) 和文本編碼器 (Text Encoder) 兩個編碼器進行編碼,然后通過 VL (Vision-Language) 對比學習共同學習。**UniMedI 的獨特之處在于它可以用統(tǒng)一的方式有效地采集 2D 和 3D 圖像,解決醫(yī)療領域的數(shù)據(jù)稀缺問題。**UniMedI 總體框架如下圖左邊所示:
UniMedI 總體框架:左邊為整體流程,右邊為關鍵設計
實驗中,視覺編碼器采用的是 ViT-B/16,主要在 2D 和 3D 視覺數(shù)據(jù)的公共特征空間中提取表示,文本編碼器使用的是 BioClinicalBERT,用來對文本特征進行編碼,視覺編碼器和文本編碼器在 2D 和 3D 數(shù)據(jù)中是通用的。
為了克服不存在配對 2D 和 3D 圖像數(shù)據(jù)的挑戰(zhàn)。研究團隊在 UniMedI 中引入創(chuàng)建「偽配對」的方法,該方法的設計基于一種新穎的以語言為指導的注意力切片選擇策略。
比如,當輸入為一個 3D 圖像時,從其中提取與報告最相關的一部分 2D 切片,然后將選定的切片視為 2D 圖像,從而形成 2D-3D 圖像的偽配對關系。在此之后,通過將選定的 2D 切片與原始 3D 圖像一起輸入到網(wǎng)絡中,可共同學習它們與報告 (Report) 之間的關系,最終形成一個統(tǒng)一的特征空間。當輸入為 2D 圖像時,則省略了切片選擇處理。
之后,一個視覺編碼器將所有多模態(tài)圖像(包括原始 2D 和 3D 圖像以及所選擇的 2D 切片)映射到表示空間中。該視覺編碼器分別擁有用于 2D 和 3D 圖像的標記器 T2D 和 T3D,以及用于實現(xiàn)更好集成的共享骨干 Ev。通過對比學習損失 L??,在一個 VLP 中端到端學習包含視覺編碼器和文本編碼器 E? 的模型。在這個過程中,2D 和 3D 圖像都可以被編碼到由報告中語言信息監(jiān)督的公共語義空間中。
**為了充分利用醫(yī)學圖像本身多模態(tài)數(shù)據(jù),以及共享的一些公共信息,本研究中還引入了一個輔助任務設計,即掩蔽和恢復,并使用自蒸餾方法來完成任務。**這使得 2D 和 3D 圖像的 token 可以互相通信,并增強跨維度的交互和多模態(tài)圖像的集成。
值得注意的是,UniMedI 的一大亮點是注意力切片選擇策略和 VL 對比學習的協(xié)同效應。
* 一方面,VL 對比學習可以實現(xiàn)語言監(jiān)督,這種監(jiān)督直接應用于視覺 CLS token。該 token 在報告中包含重要信息,因此視覺 CLS token 的注意權重作為 2D 切片選擇的基礎,才會攜帶來自報告的監(jiān)督信息,并與 3D 特征一起構建聯(lián)合特征空間。
*** 另一方面,**細致的切片選擇使 2D 和 3D 特征空間更加整合,即便是沒有配對數(shù)據(jù)。這種共同空間可以放大醫(yī)學圖像和報告之間的詳細信息,并且通過這種方式,推動了圖像和報告之間的對齊。這兩種設計使得多模態(tài)圖像的表征結(jié)合在一起,并使其同時接近報告表征空間,在構建共同語義空間上達到了一加一大于二的效果。
多角度實驗評估,性能趕超 UniMiss
為了對 UniMedI 進行全面有效的評估,本研究設置了多角度觀察,并通過與各種醫(yī)學 VLP 方法進行比較分析,進而驗證其性能和有效性。
首先,研究團隊將 UniMedI 與包括 ConVIRT、GLoRIA、MGCA、LOVT、PRIOR 等在內(nèi)的方法進行了比較,后者是針對 X 光片及其相應的醫(yī)學報告量身定制的;然后,研究團隊又將 UniMedI 與幾種 2D 和 3D 聯(lián)合學習的方法進行比較,包括 UniMiss 和 Joint。
**線性分類實驗結(jié)果顯示,**在 2D 醫(yī)學圖像分類實驗結(jié)果中(如下圖示),相比使用 ViT 作為視覺編碼器的最先進 MGCA (ViT-b/16) 方法,UniMedI 在不同訓練數(shù)據(jù)下 (1%,10%,100%) 的 3 種 2D 醫(yī)學圖像分類中表現(xiàn)最好。
* 線性分類實驗:用來評估 UniMedI 的表征能力
與其相比,UniMedI 在 CheXpert 數(shù)據(jù)集上的 AUROC 分別提高 +0.6%、+0.6% 和 +0.8%;在 RSNA 數(shù)據(jù)集上的 AUROC 分別提高 +0.9%、+0.5% 和 +0.7%;在 COVID 數(shù)據(jù)集上的 AUROC 分別提高 +5.5%、+7.6% 和 +2.3%。實驗結(jié)果表明了所提算法的有效性。
1%、10%、100% 訓練數(shù)據(jù)下在 CheXpert、RSNA 和 COVID 數(shù)據(jù)集上的 2D 線性分類結(jié)果
在 3D 醫(yī)學圖像分類實驗結(jié)果中(如下圖示),與最先進的 UniMiss 對比,UniMedI 在 CC-CCII 數(shù)據(jù)集上分別提升了 +22.6%、+2.0% 和 +0.8% 的 ACC 增益。這些數(shù)據(jù)均驗證了 UniMedI 的數(shù)據(jù)效率和有效性。
1%、10%、100% 訓練數(shù)據(jù)下在 CC-CCII 上的 3D 線性分類結(jié)果
與此同時,當使用完整的訓練數(shù)據(jù)對全視覺編碼器進行微調(diào)時,UniMedI 在 CC-CCII 和 LUNA 多個 3D 醫(yī)學圖像數(shù)據(jù)集上的性能均優(yōu)于其他方法。
如下圖所示,UniMedI 在 CC-CCII 數(shù)據(jù)集上的 ACC 值為 93.8%,在 LUNA2016-v2 數(shù)據(jù)集上的 ACC 值為 95.9%。這顯示其在 2D 和 3D 醫(yī)學圖像分類任務上的顯著泛化能力,表明該框架具有提取三維 CT 圖像通用特征的能力。
完整訓練數(shù)據(jù)的 CC-CCII 和 RICORD 數(shù)據(jù)集上的 3D 微調(diào)結(jié)果
**醫(yī)學語義分割實驗結(jié)果顯示,**在 2D 醫(yī)學語義分割結(jié)果中,UniMedI 明顯優(yōu)于當前最先進的 MGCA 算法,當使用 1% 的訓練數(shù)據(jù)時,UniMedI 達到了 67.8% 的 Dice。在 3D 醫(yī)學語義分割結(jié)果中,UniMedI 在 BCV 數(shù)據(jù)集上與 UniMiss 相比,當有限標簽可用性為 40% 和 100% 時,精度分別比 UniMiss 提高了 0.6% 和 0.4%,如下圖所示。
* 醫(yī)學語義分割實驗:用來評估分割性能,使用 RSNA 肺炎正視圖胸片,和 BCV 數(shù)據(jù)集(包括 50 張 CT 掃描)。
這些結(jié)果驗證了 UniMedI 在提取有意義的特征和有效利用有限注釋數(shù)據(jù)方面具有強大的優(yōu)越性,證明了其在利用局部表示進行語義分割任務時具備更高的熟練程度。
科技助力,加深 VLP 與醫(yī)學圖像的羈絆
視覺語言預訓練模型正在成為連接計算機視覺和自然語言處理的重要橋梁,尤其是在醫(yī)學圖像領域,通過大規(guī)模的視覺和語言數(shù)據(jù)進行預訓練,它們能夠輕松捕獲復雜醫(yī)學圖像與文本之間的復雜關系,進而輔助醫(yī)生進行圖像診斷,幫助企業(yè)進行藥物研發(fā),亦或者實現(xiàn)智能的醫(yī)學圖像管理。
**本次研究得以入選國際頂會,也從另一方面再次佐證了在人工智能與醫(yī)學圖像的交叉領域,VLP 所蘊藏著的巨大想象空間。**實際上,除了浙江大學與微軟亞洲研究院兩大團隊本次強強聯(lián)手外,已經(jīng)有不少實驗室針對這一領域進行了攻堅。
比如上述研究中所提到的先進方法之一的 UniMiss,其相關成果早在 2022 年就由澳大利亞阿德萊德大學和西北工業(yè)大學計算機學院的團隊,以題為「UniMiss : Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier」刊登在當年的 ECCV。
**在這篇研究中,作者主張利用大量的 2D 圖像來彌補 3D 數(shù)據(jù)的不足,旨在建立一個通用的醫(yī)學自我監(jiān)督表達學習框架,并命名為 UniMiss。**實驗結(jié)果顯示,相比 ImageNet 預訓練和其他高級 SSL (self-Supervised learning) 對手,UniMiss 展示出了極大的優(yōu)勢 ,在 2D/3D 醫(yī)學圖像分析任務中,無論是分割還是分類,其結(jié)果均能夠人滿意。
不僅如此,在今年的 7 月份,該團隊又針對 UniMiss 進行了新一輪研究,并提出了 UniMiss+。目前,相關成果以題為「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」收錄于知名國際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence 上。
在最新的研究中,該團隊在 UniMiss+ 中引入了數(shù)字重建 X 光片技術,用來模擬 CT 掃描的 X 光片圖像,以便訪問配對的 CT 和 X 光圖像數(shù)據(jù)。相比上一代 UniMiss 得到了巨大改進。
總而言之,融合人工智能與醫(yī)學圖像的相關科研仍舊在火熱進行,假以時日,這些成果也必將轉(zhuǎn)化為應用,落地到真實的醫(yī)學場景中去,成為造福醫(yī)務工作人員、患者、企業(yè)的新工具。