版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

開(kāi)源1760億參數(shù)通用醫(yī)學(xué)語(yǔ)言模型!北郵/北大/三峽大學(xué)提出MedFound,推理能力接近專家醫(yī)師

HyperAI超神經(jīng)
原創(chuàng)
人工智能說(shuō)明書,了解 AI 的功效和副作用。
收藏

古話說(shuō),「人非圣賢,孰能無(wú)過(guò)」,但在醫(yī)學(xué)領(lǐng)域,像誤診這樣的「過(guò)」,造成的后果卻可能是慘痛的。一方面對(duì)于患者而言,輕則虛驚一場(chǎng),重則貽誤病情,無(wú)論何種情況都會(huì)造成患者的精神、財(cái)產(chǎn)甚至生命遭受損失;另一方面對(duì)于醫(yī)者而言,錯(cuò)誤的判斷輕則會(huì)損害醫(yī)者懸壺濟(jì)世的形象,重則可能進(jìn)而影響到整個(gè)醫(yī)療體系的公信力。然事與愿違的是,無(wú)論是在國(guó)內(nèi)還是國(guó)外,誤診事件仍然屬于高頻事件。

曾任《臨床誤診誤治》雜志主編、醫(yī)學(xué)專著《誤診學(xué)》作者之一的陳曉紅在一次采訪中提到過(guò),國(guó)內(nèi)外文獻(xiàn)中樣本量提及的誤診率普遍在 20% 至 40% 左右。另外其著作《誤診學(xué)》中也有相關(guān)統(tǒng)計(jì),如提到國(guó)內(nèi)幾種有代表性的醫(yī)學(xué)期刊在 1973 年至 1980 年報(bào)告的 200 例臨床病理討論資料中,誤診率就高達(dá) 48 %??梢哉f(shuō),誤診幾乎已經(jīng)變成了人類醫(yī)學(xué)事業(yè)前進(jìn)路上的主要絆腳石之一。

為了解決誤診問(wèn)題,在古代,如《醫(yī)學(xué)衷中參西錄》、《醫(yī)家誤》、《醫(yī)林改錯(cuò)》等醫(yī)學(xué)著作,都盡可能將醫(yī)案中的誤診教訓(xùn)編入,以警示后人;到了近現(xiàn)代,在 B 超、CT、磁共振等現(xiàn)代醫(yī)學(xué)手段的輔助下,臨床診斷的手段日益豐富和精進(jìn)。然而,醫(yī)學(xué)作為一門實(shí)踐科學(xué)與探索性學(xué)科,無(wú)論如何都無(wú)法百分之百地避免誤診的發(fā)生。因此,只有進(jìn)一步降低誤診率,提升疾病診斷的準(zhǔn)確性和可及性,才有可能為醫(yī)學(xué)事業(yè)進(jìn)一步發(fā)展掃清道路。

以 AI for Science 為新范式,為解決上述問(wèn)題提供了新思路。日前,由北京郵電大學(xué)王光宇教授、北京大學(xué)第三醫(yī)院宋純理教授、三峽大學(xué)楊簡(jiǎn)教授組成的醫(yī)工交叉團(tuán)隊(duì),介紹并驗(yàn)證了當(dāng)前具有最大規(guī)模參數(shù)量的生物醫(yī)學(xué)大語(yǔ)言模型 MedFound (176B),并進(jìn)一步打造了醫(yī)學(xué)通才診斷大語(yǔ)言模型 MedFound-DX-PA,具備接近專家知識(shí)及推理能力,可提供高效的跨醫(yī)療場(chǎng)景準(zhǔn)確診斷支持。

相關(guān)成果以「A generalist medical language model for disease diagnosis assistance」為題,發(fā)布于 Nature Medicine。

MedFound 的創(chuàng)新之處體現(xiàn)在哪些方面?
最大規(guī)模參數(shù)量的開(kāi)源生物醫(yī)學(xué)大語(yǔ)言模型

研究團(tuán)隊(duì)表示,缺乏設(shè)計(jì)良好的、可公開(kāi)獲得的、專門為現(xiàn)實(shí)世界臨床環(huán)境定制的 LLM,是目前 LLM 在生物醫(yī)學(xué)應(yīng)用中仍處于初步階段的關(guān)鍵。MedFound 基于通用領(lǐng)域的大語(yǔ)言模型 BLOOM-176B 預(yù)訓(xùn)練而來(lái),是一個(gè)參數(shù)規(guī)模達(dá) 1760 億的通用醫(yī)學(xué)大語(yǔ)言模型。

為了保證模型能夠獲得全面的通用醫(yī)學(xué)知識(shí),研究團(tuán)隊(duì)特別構(gòu)建了一個(gè)整合海量醫(yī)學(xué)知識(shí)和臨床實(shí)踐的醫(yī)學(xué)語(yǔ)料數(shù)據(jù)集 MedCorpus——由 4 個(gè)數(shù)據(jù)集中的總計(jì) 63 億個(gè)文本標(biāo)記組成,包括 MedText、PubMed Central Case Report (PMC-CR)、MIMIC-III-Note 和 MedDX-Note。這些數(shù)據(jù)集涵蓋中英文醫(yī)學(xué)文獻(xiàn)、專業(yè)書籍以及 870 萬(wàn)份真實(shí)電子病歷記錄等,是該模型能夠適用各學(xué)科診斷的重要基礎(chǔ)。

值得一提的是,根據(jù)研究團(tuán)隊(duì)介紹,目前 MedFound 已開(kāi)源,可為全球科研人員、臨床醫(yī)生及醫(yī)療機(jī)構(gòu)提供底層基礎(chǔ)大模型服務(wù)。

創(chuàng)新的臨床診斷推理能力使其變?yōu)椤富钺t(yī)生」

另外,機(jī)器和人的的一個(gè)重要區(qū)別在于,人類醫(yī)生能夠根據(jù)自身經(jīng)驗(yàn)和知識(shí)儲(chǔ)備對(duì)患者的真實(shí)狀況進(jìn)行合理推理,從而進(jìn)行區(qū)別治療。研究團(tuán)隊(duì)介紹,目前部分研究只是將臨床知識(shí)融入 LLM 以用于醫(yī)療問(wèn)答或?qū)υ挘](méi)體現(xiàn)臨床診斷推理方面的能力。

比如,sainan Zhang 和 Jisung Song 曾在 Nature 上發(fā)表的一項(xiàng)成果,基于 GPT-2 進(jìn)行遷移學(xué)習(xí)和微調(diào)后開(kāi)發(fā)了一款對(duì)話界面,命名為 Chat Ella,該系統(tǒng)可以根據(jù)用戶描的癥狀對(duì)慢性疾病進(jìn)行精準(zhǔn)預(yù)測(cè)。不過(guò)在論文的最后研究者也提到該研究的不足,其中指向了該成果在推理過(guò)程中的一些局限性,比如推理過(guò)程無(wú)法解釋等。這篇論文題為「A chatbot based question and answer system for the auxiliary diagnosis of chronic diseases based on large language model」。

因此,要想實(shí)現(xiàn)嚴(yán)謹(jǐn)?shù)募膊≡\斷,大模型僅具備廣泛的跨學(xué)科醫(yī)學(xué)知識(shí)是不夠的,還需要能夠進(jìn)行復(fù)雜推理。研究團(tuán)隊(duì)基于 MedFound 模型,通過(guò)兩階段訓(xùn)練優(yōu)化,進(jìn)一步打造出具備接近專家知識(shí)及推理能力的醫(yī)學(xué)通才診斷大語(yǔ)言模型 MedFound-DX。如下圖所示:


MedFound 預(yù)訓(xùn)練過(guò)程,以及微調(diào)和偏好對(duì)齊流程

具體來(lái)說(shuō),研究團(tuán)隊(duì)首先在第一階段通過(guò)基于自引導(dǎo)策略的思維鏈方法 (Chain of Thought, CoT),使大模型具備了像醫(yī)學(xué)專家一樣自動(dòng)生成診斷依據(jù)和推理過(guò)程的能力。然而,生成式 LLM 可能會(huì)產(chǎn)生「幻覺(jué)」或者編造虛假事實(shí),這些診斷如果被采納,則后果不堪設(shè)想。

因此在第二階段,研究團(tuán)隊(duì)還引入了統(tǒng)一的偏好對(duì)齊 (Preference Alignment) 框架,將 LLM 和專業(yè)領(lǐng)域的知識(shí)體系以及臨床診斷偏好對(duì)齊,以確保模型能夠在診斷時(shí)不僅科學(xué)合理,同時(shí)符合臨床實(shí)踐中醫(yī)學(xué)專家的邏輯和價(jià)值觀。該框架集成了「診斷層次偏好」和「幫助性偏好」,均采用直接偏好優(yōu)化算法 (Direct Preference Optimization, DPO)——一種無(wú)需強(qiáng)化學(xué)習(xí)的簡(jiǎn)單算法,一方面可以引導(dǎo)模型提升疾病識(shí)別的細(xì)粒度準(zhǔn)確性,另一方面也可以提高模型推理的有效性和可信性,降低誤導(dǎo)風(fēng)險(xiǎn)和有誤信息。

值得一提的是,在本部分的微調(diào)和對(duì)齊中,研究團(tuán)隊(duì)同樣專門構(gòu)建了一個(gè)名為 MedDX-FT 的數(shù)據(jù)集,包含了由醫(yī)生根據(jù)真實(shí)病歷手動(dòng)編寫推理過(guò)程演示,以便用于訓(xùn)練微調(diào)。該數(shù)據(jù)集涵蓋基于手工演示的種子集和 109,364 份 EHR 筆記。
驚人的演示成績(jī)展示其潛在應(yīng)用能力

評(píng)估階段,研究團(tuán)隊(duì)同樣構(gòu)建了一個(gè)數(shù)據(jù)集 MedDX-Bench,包含 3 個(gè)臨床數(shù)據(jù)集——MedDX-Test、MedDX-OOD 和 MedDX-Rare。

* MedDX-Test 數(shù)據(jù)集用于評(píng)估 MedFound-DX-PA 在各領(lǐng)域的診斷表現(xiàn),包含 11,662 份與訓(xùn)練數(shù)據(jù)集相同分布的醫(yī)療記錄。

* MedDX-OOD 與 MedDX-Rare 為外部驗(yàn)證集,前者包含 23,917 份常見(jiàn)疾病記錄,后者包含 2,105 種罕見(jiàn)疾病的 20,257 份記錄,這些罕見(jiàn)疾病呈長(zhǎng)尾分布。

評(píng)價(jià)實(shí)驗(yàn)主要為 3 個(gè)階段,即分布內(nèi) (ID) 評(píng)估、分布外 (OOD) 評(píng)估和長(zhǎng)尾疾病分布評(píng)估,對(duì)比對(duì)象包括了 MEDITRON - 70B、Clinical Camel - 70B、Llama 3 - 70B 和 GPT-4o 等開(kāi)源及閉源的領(lǐng)先 LLM。
結(jié)果顯示其性能均優(yōu)于其他領(lǐng)先的 LLM,如在常見(jiàn)疾病診斷性能中,MedFound-DX-PA 的平均 Top-3 準(zhǔn)確率為 84.2% (在 ID 設(shè)置下),相比之下, GPT-4o 的診斷準(zhǔn)確率僅為 62% ;在罕見(jiàn)疾病診斷性能中,MedFound-DX-PA 在 8 個(gè)專業(yè)中的平均 Top-3 準(zhǔn)確率為 80.7%,GPT-4o 排在第二,平均為 59.1%。

而值得一提的是,MedFound-DX-PA 在與內(nèi)分泌學(xué)和肺科醫(yī)生的對(duì)比中,診斷準(zhǔn)確率分別為 74.7% 和 72.6%,能力超低年資和中年資的醫(yī)生,與高年資醫(yī)生相當(dāng)。在輔助診斷方面,可以分別幫助這兩個(gè)科室的醫(yī)生提高 11.9% 和 4.4% 的診斷精度。下圖為直觀的模型診斷案例。

如下圖所示,醫(yī)生初步診斷為急性支氣管炎,MedFound 模型突出了患者反復(fù)支氣管炎的病史,在模型提示下,醫(yī)生將診斷結(jié)果修正為慢性支氣管炎急性加重。

如下圖所示,醫(yī)生初步診斷為亞臨床甲狀腺功能減退,MedFound 模型提示可能存在潛在的自身免疫性甲狀腺疾病,醫(yī)生經(jīng)提示將結(jié)果修正為自身免疫性甲狀腺炎。

由此可見(jiàn),MedFound 不僅可以具有提升診斷效率和精確度的潛力,同時(shí)也具備成為臨床工作者診斷幫手的潛力,這對(duì)于未來(lái)開(kāi)展智慧化臨床診療和個(gè)性化醫(yī)療提供了有力支持。
AI4S 不斷發(fā)力,落地為王的時(shí)代已經(jīng)到來(lái)
王光宇團(tuán)隊(duì)步履不停

在本次合作成果中,每個(gè)團(tuán)隊(duì)都竭盡所能,利用自己所擅長(zhǎng)之事為這篇成果注入心血。其中值得一提的是,北京郵電大學(xué)的王光宇教授為本次研究的通訊作者之一。

而事實(shí)上,這并非王光宇教授團(tuán)隊(duì)首次將 AI 與生物醫(yī)學(xué)進(jìn)行融合。作為科學(xué)探索獎(jiǎng)的首位 90 后得主,王光宇早已名聲在外,并發(fā)布了一系列國(guó)際前沿水平的學(xué)術(shù)成果,國(guó)際頂尖學(xué)術(shù)期刊如 Cell、Nature Medicine、Nature Biomedical Engineering 等均有收錄其作品。

比如在 2020 年,王光宇教授作為第一通訊作者就在國(guó)際頂刊 Cell 上發(fā)表了題為「Clinically Applicable AI System for Accurate Diagnosis and Prognosis of COVID-19 Pneumonia Using Computed Tomography」的研究,聚焦當(dāng)時(shí)肆虐的新冠肺炎,采用總計(jì) 53 萬(wàn)多張 CT 影像,構(gòu)建了一套基于病灶分割的 AI 診斷模型,診斷準(zhǔn)確率高達(dá) 92.49%。

2023 年,王光宇團(tuán)隊(duì)再次先后于 Nature Medicine 發(fā)布了 2 篇研究論文,一篇題為「Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution」,提出了一種被稱為 UniBild 的人工智能框架,能夠有效且可擴(kuò)展地預(yù)測(cè) SARS-CoV-2 刺突蛋白變體對(duì)人類的影響。

另一篇題為「Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial」,提出了一個(gè)基于模型的強(qiáng)化學(xué)習(xí)框架 RL-DITR,包括一個(gè)跟蹤個(gè)體血糖狀態(tài)的患者模型和一個(gè)用于長(zhǎng)期護(hù)理多步驟計(jì)劃的政策模型,可幫助醫(yī)生和患者指定動(dòng)態(tài)、靈活的胰島素治療方案。

正如王光宇所說(shuō)過(guò),「對(duì)此我們有所期待,就自己來(lái)說(shuō),我希望做更強(qiáng)大的 AI 方法,并藉由它去解決很多重要的生物醫(yī)學(xué)的問(wèn)題,比如攻克突發(fā)的流行病或者是癌癥」。
AI 與生物醫(yī)學(xué)的融合進(jìn)展加速

事實(shí)上 AI 與生物醫(yī)學(xué)的融合早已成為各大實(shí)驗(yàn)室眼中的重點(diǎn),因?yàn)獒t(yī)學(xué)領(lǐng)域的特殊性,讓 AI 有更多的機(jī)遇可以在此領(lǐng)域發(fā)揮,也讓更多團(tuán)隊(duì)愿意在這一方面進(jìn)行深耕。

比如在 2024 年,來(lái)自香港中文大學(xué)的團(tuán)隊(duì)同樣基于 LLM 開(kāi)發(fā)了一種多輪咨詢的虛擬醫(yī)生系統(tǒng),名為 DrHouse,它可以借助智能設(shè)備提升診斷的準(zhǔn)確性和可靠性,同時(shí)通過(guò)不斷更新的醫(yī)學(xué)知識(shí)庫(kù)和先進(jìn)的診斷算法,具有超長(zhǎng)期的職業(yè)壽命,提供智能化、可信的醫(yī)療評(píng)估。相關(guān)論文題為「DrHouse: An LLM-empowered Diagnostic Reasoning System through Harnessing Outcomes from Sensor Data and Expert Knowledge」。

除此外,來(lái)自上海交通大學(xué)的王延峰與謝偉迪團(tuán)隊(duì)也在 2024 年發(fā)布相關(guān)成果,研究提到團(tuán)隊(duì)構(gòu)建了一個(gè)包含大約 255 億 tokens、覆蓋 6 種主要語(yǔ)言的多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù)——MMedC,同時(shí)還提出了一個(gè)多語(yǔ)言醫(yī)學(xué)多項(xiàng)選擇問(wèn)題基準(zhǔn)——MMedBench。研究團(tuán)隊(duì)的最終模型 MMed-Llama 3 僅有 80億參數(shù),但在 MMedBench 和英語(yǔ)基準(zhǔn)上的水準(zhǔn)卻可以和 GPT -4媲美。

可以看到的是,AI 與生物醫(yī)學(xué)融合的風(fēng)暴已經(jīng)愈演愈烈,AI 憑借強(qiáng)大的計(jì)算能力、新穎的算法和以及更容易汲取到海量數(shù)據(jù)的能力,正讓傳統(tǒng)科學(xué)研究變得更加高效和智能,而更讓人期待的是,這些逐步推進(jìn)的成果,也終將讓應(yīng)用落地來(lái)的更快,一個(gè)落地為王的時(shí)代似乎已悄然到來(lái)。