版權歸原作者所有,如有侵權,請聯系我們

抓住「AI+生物醫(yī)藥」黃金時期,盤點2024年最值得關注的顛覆性成果!

HyperAI超神經
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

過去一年,AI 掀起了全球的變革浪潮,生物醫(yī)藥領域尤為引人注目。

以 AlphaFold 為代表的 AI 系統(tǒng),能夠以前所未有的精度預測蛋白質三維結構,為理解蛋白質功能和開發(fā)靶向藥物提供了革命性工具。在藥物研發(fā)領域,AI 不僅可以基于海量藥物數據,預測藥物特性,還可設計新藥,縮短藥物從實驗室到臨床的研發(fā)周期。同時,AI 還可從海量基因測序數據中精準挖掘信息,快速識別基因突變,助力科研人員鎖定與疾病相關的基因變異。此外,AI 還可優(yōu)化細胞分化過程、推動細胞大模型的研發(fā)......

隨著 2024 年諾貝爾化學獎授予計算蛋白質設計與蛋白質結構預測領域,AI 在生物醫(yī)藥領域的革命性作用再次得到全球認可。

本期文章,HyperAI超神經聚焦 AI 在生物醫(yī)藥領域的最新研究,為讀者精選了 2023—2024 年間解讀的 46 篇前沿論文。這些論文覆蓋 CVPR 2024、ICLM 2024、ACL 2024、Nature 等國際知名頂會/期刊,研究單位則遍布國內外頂級高校與機構,包括微軟研究院、DeepMind、麻省理工學院、加州大學、中國科學院、清華大學、復旦大學、北京大學、浙江大學、上海交通大學、上海人工智能實驗室等。

點擊下方論文題目或中文解讀,即可跳轉論文解讀頁面,希望對您有所幫助。

01

論文題目:Accurate de novo design of high-affinity protein binding macrocycles using deep learning, 2024.11

中文解讀:David Baker最新成果!從頭設計大環(huán)肽結合物框架RFpeptides,為不可成藥蛋白質提供新可能性

研究內容:David Baker 團隊研發(fā)了一項新的基于擴散模型的技術——RFpeptides,專門針對多種蛋白靶標設計高親和力的大環(huán)結合物。

02

論文題目:BIoCLIP: A Vision Foundation Model for the Tree of Life, 2024.02

中文解讀:CVPR最佳學生論文!1千萬張圖像、跨越45萬+物種的超大數據集,多模態(tài)模型BioCLIP實現零樣本學習

研究內容:美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院等發(fā)布了迄今最大、最具多樣性的適用于機器學習的生物學圖像數據集 TreeOfLife-10M,并開發(fā)了生命之樹的基礎模型 BioCLIP,該模型充分利用 TreeOfLife-10M 中植物、動物和真菌的多樣化生物圖像,在多種細粒度生物學分類任務中,其表現顯著優(yōu)于現有方法。

03

論文題目:Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development, 2024.10

中文解讀:首個!四大高校聯合推出藥物研發(fā)大語言模型Y-Mol,性能全面領先LLaMA2

研究內容:湖南大學、中南大學、湖南師范大學、湘潭大學的研究團隊聯合提出了一種多尺度生物醫(yī)學知識指導的大語言模型 Y-Mol,它能夠在不同的文本語料庫和指令上進行微調,增強了模型在藥物研發(fā)方面的性能與潛力。

04

論文題目:Pathway Evolution Through a Bottlenecking-Debottlenecking Strategy and Machine Learning-Aided Flux Balancing, 2024.02

中文解讀:合成生物新突破!中科院羅小舟團隊開發(fā) ProEnsemble 機器學習框架:優(yōu)化進化通路啟動子組合

研究內容:中國科學院深圳先進技術研究院合成所,將自動化和 ProEnsemble 機器學習框架結合,攻克了代謝途徑進化不確定性的技術壁壘,實現了柚皮素產量從實驗室到工業(yè)規(guī)模生產的跨越,其通用型底盤可成功合成高產量黃酮類化合物。

05

論文題目:Deep Learning-Assisted Automated Multidimensional Single Particle Tracking in Living Cells, 2024.03

中文解讀:納米尺度下的單粒子追蹤,廈門大學方寧團隊用 AI 奏響「細胞里的搖滾」

研究內容:廈門大學方寧教授團隊基于深度學習,研發(fā)了一種自動化、高速、多維的單粒子追蹤 (SPT) 系統(tǒng),打破了細胞微環(huán)境中納米顆粒旋轉追蹤的局限性。

06

論文題目:AlphaFold Meets Flow Matching for Generating Protein Ensembles, 2024.06

中文解讀:入選ICML!麻省理工團隊基于AlphaFold實現新突破,揭示蛋白質動態(tài)多樣性

研究內容:麻省理工學院的研究團隊選用 AlphaFold 和 ESMFold,并在自定義流匹配 (Flow Matching) 框架下對其進行微調,以獲得序列條件的蛋白質結構生成模型,稱為 AlphaFLOW 和 ESMFLOW。

07

論文題目:ProSST: Protein Language Modeling with Quantized Structure and Disentangled Attention, 2024.05

中文解讀:PLM重大突破!上海交大與上海AI Lab最新成果入選NeurIPS 24,ProSST有效整合蛋白質結構信息

研究內容:上海交通大學團隊開發(fā)出具有結構感知能力的預訓練蛋白質語言模型 ProSST,能夠將蛋白質結構和氨基酸序列信息有效融合,在熱穩(wěn)定性預測、金屬離子結合預測、蛋白質定位預測、 GO 注釋預測等任務中優(yōu)于現有模型。

08

論文題目:Cytochrome P450 Enzyme Design by Constraining the Catalytic Pocket in a Diffusion Model, 2024.07

中文解讀:催化能力提高 3.5 倍!中科院團隊基于擴散模型,開發(fā) P450 酶從頭設計方法 P450Diffusion

研究內容:中國科學院天津工業(yè)生物技術研究所的新酶設計團隊,開發(fā)了基于擴散模型和口袋設計原則的 P450 酶從頭設計方法 P450Diffusion。

09

論文題目:DePLM: Denoising Protein Language Models for Property Optimization, 2024.11

中文解讀:入選NeurIPS 24!浙大團隊提出全新去噪蛋白質語言模型DePLM,突變效應預測優(yōu)于SOTA模型

研究內容:浙江大學團隊提出了一種針對蛋白質優(yōu)化的全新去噪蛋白質語言模型 (DePLM),可將蛋白質語言模型捕捉到的進化信息視為與特性相關和無關信息的混合體,其中無關信息被視為「噪音」消除,模型具有強大的泛化能力。

10

論文題目:EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction, 2024.07

中文解讀:入選ICML!人大團隊將等變圖神經網絡用于靶蛋白結合位點預測,性能最高提升20%

研究內容:中國人民大學高瓴人工智能學院的研究團隊首次將 E(3) 等變圖神經網絡 (GNN) 應用于配體結合位點預測,提出 EquiPocket 框架,有助于藥物發(fā)現等各種下游任務。

11

論文題目:DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model, 2024.02

中文解讀:實現蛋白質動態(tài)對接預測!上海交大/星藥科技/中山大學等聯合推出幾何深度生成模型DynamicBind

研究內容:上海交通大學聯合星藥科技、中山大學藥學院以及美國萊斯大學,提出了為蛋白質「動態(tài)對接」設計的幾何深度生成模型 DynamicBind,該方法在國際藥物篩選大賽 CACHE 上被濕實驗驗證,可為治療帕金森疾病的難成藥靶點篩選出具有競爭力的苗頭化合物。

12

論文題目:Exploring the Conformational Ensembles of Protein–Protein Complex with Transformer-Based Generative Model, 2024.05

中文解讀:韓國版AlphaFold?深度學習模型AlphaPPIMd:用于蛋白質-蛋白質復合物構象集合探索

研究內容:延世大學及其合作者將深度學習與生成式 AI 結合,構建 AlphaPPIMd 模型,通過分子動力學模擬揭示出蛋白質相互作用的奧秘。

13

論文題目:UniIF: Unified Molecule Inverse Folding, 2024.05

中文解讀:入選NeurIPS 2024!西湖大學提出通用分子逆折疊模型UniIF,對AlphaFold 3形成進一步補充

研究內容:西湖大學未來產業(yè)研究中心的團隊提出了 UniIF 模型,用于所有分子的逆折疊,該模型在蛋白質設計、RNA 設計和材料設計等多個任務上都達到了最先進的性能。

14

論文題目:A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity, 2024.09

中文解讀:權威期刊Cell Discovery新成果!上海交大洪亮團隊提出CPDiffusion模型,超低成本、全自動設計功能型蛋白質

研究內容:上海交通大學團隊設計了一種擴散概率模型框架 CPDiffusion,該框架能夠以非常低的訓練成本、數據成本學習蛋白質的序列、結構與功能之間的隱含映射關系,從而生成多樣化的蛋白質序列。

15

論文題目:ProtT3: Protein-to-Text Generation for Text-based Protein Understanding, 2023.05

中文解讀:入選ACL 2024!實現蛋白質數據與文本信息跨模態(tài)解讀,中科大王翔團隊提出蛋白質-文本生成框架ProtT3

研究內容:中國科學技術大學,聯合新加坡國立大學、北海道大學研究團隊提出了一個全新的蛋白質-文本建??蚣?ProtT3,該框架通過跨模態(tài)投影器,將具有模態(tài)差異的 PLM 與 LM 結合,在蛋白質字幕、蛋白質問答、蛋白質-文本檢索任務中均取得了優(yōu)異性能。

16

論文題目:InstructProtein: Aligning Human and Protein Language via Knowledge Instruction, 2023.10

中文解讀:入選ACL2024主會 | InstructProtein:利用知識指令對齊蛋白質語言與人類語言

研究內容:浙江大學研究團隊提出 InstructProtein,利用知識指令對齊蛋白質語言與人類語言,展示了將生物序列整合到大語言模型的能力。

17

論文題目:ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling, 2024.06

中文解讀:入選頂會ICML,清華AIR等聯合發(fā)布蛋白質語言模型ESM-AA,超越傳統(tǒng)SOTA

研究內容:清華大學、北京大學、南京大學的聯合研究團隊提出了一種多尺度的蛋白質語言模型 ESM-AA,在靶點-配體結合等任務上的性能顯著提升。

18

論文題目:Sequence modeling and design from molecular to genome scale with Evo, 2024.11

中文解讀:搶先體驗Demo!基因組基礎模型Evo登Science封面,實現從分子到基因組尺度的預測與生成

研究內容:Evo 模型可預測、生成和設計基因組序列,有望被應用于基因編輯、藥物發(fā)現、疾病診斷、農業(yè)等領域,HyperAI超神經教程版塊現已上線「Evo:從分子到基因組規(guī)模的預測和生成」,一鍵克隆即可快速體驗!

19

論文題目:Large-scale foundation model on single-cell transcriptomics, 2024.06

中文解讀:1億參數的細胞大模型來了!登Nature子刊,清華大學團隊發(fā)布scFoundation:對2萬基因同時建模

研究內容:清華大學自動化系生命基礎模型實驗室和電子系/AIR 合作開展研究,構建了擁有 1 億參數的 scFoundation 細胞大模型,能夠同時處理約 2 萬個基因,在細胞測序深度增強、細胞藥物響應預測和細胞擾動預測等任務中,表現出顯著的性能提升。

20

論文題目:Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning, 2024.07

中文解讀:20個實驗數據創(chuàng)造AI蛋白質里程碑!上海交大聯合上海AI Lab發(fā)布FSFP,有效優(yōu)化蛋白質預訓練模型

研究內容:上海交通大學聯合上海人工智能實驗室,提出了一個基于蛋白質預訓練模型的微調訓練方法 FSFP,能在只利用 20 個隨機濕實驗數據的情況下,高效訓練蛋白質預訓練模型,且大幅提高模型的單點突變預測陽性率。

21

論文題目:Protein Engineering with Lightweight Graph Denoising Neural Networks, 2024.04

中文解讀:無實驗數據指導蛋白質定向進化,上海交大洪亮課題組發(fā)表微環(huán)境感知圖神經網絡 ProtLGN

研究內容:上海交通大學研發(fā)了一種名為 P(ROT)LGN 的微環(huán)境感知圖神經網絡,能夠從蛋白質三維結構中學習并預測有益的氨基酸突變位點,指導具有不同功能白質單位點突變和多位點突變設計。

22

論文題目:Tissue module discovery in single-cell resolution spatial transcriptomics data via cell-cell interaction-aware cell embedding, 2024.06

中文解讀:登 Cell 子刊!清華大學張強鋒課題組開發(fā) SPACE 算法,組織模塊發(fā)現能力領先同類工具

研究內容:清華大學生命科學學院/結構生物學高精尖創(chuàng)新中心/清華-北大生命科學聯合中心開發(fā)了基于圖自編碼器深度學習框架的人工智能算法 SPACE,能夠從單細胞分辨率的空間轉錄組數據中識別空間細胞類型和發(fā)現組織模塊。

23

論文題目:Deep Learning Empowers the Discovery of Self-AssemblingPeptides with Over 10 Trillion Sequences, 2023.09

中文解讀:西湖大學利用 Transformer 分析百億多肽的自組裝特性,破解自組裝法則

研究內容:西湖大學團隊利用基于 Transformer 的回歸網絡,對百億種多肽的自組裝特性進行了預測,并分析得到了不同位置氨基酸對自組裝特性的影響,為自組裝多肽的研究提供了強力的新工具。

24
論文題目:IMN4NPD: An Integrated Molecular Networking Workflow for Natural Product Dereplication, 2024.02

中文解讀:全面挖掘天然藥物的藥效成分,中南大學劉韶教授團隊構建 IMN4NPD 平臺

研究內容:中南大學團隊通過整合兩個不同的分子網絡,構建了 IMN4NPD 平臺,可用于全面挖掘微量且結構特異性的天然藥物藥效成分。

25

論文題目:AlphaProteo generates novel proteins for biology and health research, 2024.09

中文解讀:DeepMind新成果被批像廣告?AlphaProteo可高效設計靶蛋白結合物,親和力提高300倍

研究內容:DeepMind 發(fā)布用于新型蛋白質設計的 AlphaProteo,只需要通過一輪中等通量篩選,無需進一步優(yōu)化,即可生成「即用型」蛋白質結合劑。

26

論文題目:Fast, sensitive detection of protein homologs using deep dense retrieval, 2024.08

中文解讀:靈敏度提高56%,港中文/復旦/耶魯等聯袂提出全新蛋白質同源物檢測方法

研究內容:香港中文大學聯合復旦大學智能復雜體系實驗室、上海人工智能實驗室、耶魯大學提出了一種超快速、高靈敏度的蛋白質同源物檢測框架。

27

論文題目:Generating All-Atom Protein Structure from Sequence-Only Training Data, 2024.12

中文解讀:LeCun轉發(fā),UC伯克利等提出多模態(tài)蛋白質生成方法PLAID,同時生成序列和全原子蛋白結構

研究內容:加州大學伯克利分校、微軟研究院等提出了一種多模態(tài)蛋白質生成方法 PLAID ,可以從更豐富的數據模態(tài) (例如序列) 生成較稀缺的模態(tài) (例如晶體結構) 來實現多模態(tài)生成。

28

論文題目:Accurate proteome-wide missense variant effect prediction with AlphaMissense, 2023.09

中文解讀:DeepMind 利用無監(jiān)督學習開發(fā) AlphaMissense,預測 7100 萬種基因突變

研究內容:DeepMind 開發(fā)了 AlphaMissense,并對人類可能出現的 7,100 萬種基因錯義突變進行預測發(fā)現,其中 32% 可能為致病性突變,57% 可能為良性突變,這些結果將極大促進分子生物學、基因組學、臨床醫(yī)學等學科的發(fā)展。

29

論文題目:An engineered DNA aptamer-based PROTAC for precise therapy of p53-R175H hotspot mutant-driven cancer, 2024.05

中文解讀:可抑制癌細胞增殖!慧湖藥學院聯手天津醫(yī)科大,研發(fā)新型腫瘤抑制蛋白降解劑 dp53m

研究內容:西交利物浦大學慧湖藥學院聯合天津醫(yī)科大學總醫(yī)院,研發(fā)了一種具有選擇性的 p53-R175H 降解劑——dp53m,該降解劑可以特異性識別突變 p53-R175H 蛋白,實現目標蛋白的靶向降解,抑制突變 p53 蛋白的功能性表達。

30

論文題目:Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing, 2024.05

中文解讀:上海交大余祥課題組發(fā)布可遷移深度學習模型,鑒定多類型 RNA 修飾、顯著減少計算成本

研究內容:上海交通大學,聯合上海辰山植物園團隊,開發(fā)了可遷移深度學習模型 TandemMod,實現了在直接 RNA 測序 (DRS) 中鑒定多種類型的 RNA 修飾。

31

論文題目:Drug repositioning with adaptive graph convolutional networks, 2024.01

中文解讀:老藥新用,中南大學團隊發(fā)布 AdaDR,基于自適應圖卷積網絡進行藥物重定位

研究內容:中南大學研究團隊提出了一種名為 AdaDR 的自適應 GCN 方法,通過深度集成節(jié)點特征和拓撲結構來進行藥物重定位。

32

論文題目:Generative AI for designing and validating easily synthesizable and structurally novel antibiotics, 2024.03

中文解讀:千萬耐藥細菌感染病患福音!麥馬聯手斯坦福,用生成式 AI 開發(fā)新型抗生素

研究內容:麥克馬斯特大學和斯坦福大學的研究人員,開發(fā)了一種生成式 AI 模型 SyntheMol,可以基于近 300 億個分子的化學空間,設計出易于合成的新型化合物。
33

論文題目:Viruslmmu: a novel ensemble machine learning approach for viral immunogenicity prediction, 2023.11

中文解讀:疫苗研發(fā)新突破:北航團隊提出病毒抗原免疫原性預測新方法 VirusImmu

研究內容:北京航空航天大學團隊,開發(fā)了一種用于病毒抗原免疫原性預測的機器學習集成方法 (Viruslmmu),在預測病毒蛋白片段的免疫原性方面表現出巨大的潛力,為疫苗開發(fā)人員提供一個工具。

34

論文題目:UniKP: a unified framework for the prediction of enzyme kinetic parameters, 2023.12

中文解讀:中科院羅小舟團隊提出 UniKP 框架,大模型 + 機器學習高精度預測酶動力學參數

研究內容:中國科學院深圳先進技術研究院團隊提出了,基于酶動力學參數預測框架 (UniKP),實現多種不同的酶動力學參數的預測。

35

論文題目:Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS, 2024.01

中文解讀:自主研發(fā)!軍事醫(yī)學研究院團隊提出 MIDAS,可用于單細胞多組學數據馬賽克整合

研究內容:軍事醫(yī)學研究院團隊,提出了一種用于單細胞多組學數據馬賽克式整合及知識遷移的計算工具 MIDAS,首次實現了通用的單細胞多組學馬賽克數據的模態(tài)對齊、數據補全、批次校正等整合功能。

36

論文題目:ResGen is a pocket-aware 3D molecular generation model based on parallel multiscale modelling, 2023.09

中文解讀:比最優(yōu)技術快 8 倍:浙大侯廷軍等人提出 ResGen,基于蛋白質口袋的 3D 分子生成模型

研究內容:浙江大學與之江實驗室研究團隊提出了一種基于蛋白質口袋的 3D 分子生成模型——ResGen,與以往最優(yōu)技術相比,速度提升 8 倍,成功地生成了具有更低結合能和更高多樣性的類藥物分子。

37

論文題目:A principal odor map unifies diverse tasks in olfactory perception, 2023.08

中文解讀:Google 基于 GNN 開發(fā)氣味識別 AI,工作量相當于人類評價員連續(xù)工作 70 年

研究內容:Google Research 的分支 Osmo 公司基于圖神經網絡開發(fā)了一種氣味分析 AI。它可以根據化學分子的結構,對該分子的氣味進行描述,在 53% 的化學分子、55% 的氣味描述詞判斷中優(yōu)于人類。

38

論文題目:Machine learning enhances prediction of plants as potential sources of antimalarials, 2023.05

中文解讀:英國皇家植物園采用機器學習預測植物抗瘧性,將準確率從 0.46 提升至 0.67

研究內容:英國皇家植物園及圣安德魯斯大學的研究人員證明了機器學習算法能夠有效預測植物抗瘧性,準確率為 0.67,相較傳統(tǒng)試驗方法的 0.46,有明顯提升。

39

論文題目:Machine learning models to accelerate the design of polymeric long-acting injectables, 2023.01

中文解讀:橫向對比 11 種算法,多倫多大學推出機器學習模型,加速長效注射劑新藥研發(fā)

研究內容:多倫多大學研究人員開發(fā)了一個機器學習模型,可預測長效注射劑藥物釋放速率,提速藥物整體研發(fā)流程。

40

論文題目:Macrocyclization of linear molecules by deep learning to facilitate macrocyclic drug candidates discovery, 2023.07

中文解讀:華東理工李洪林課題組開發(fā) Macformer,加速大環(huán)類藥物發(fā)現

研究內容:華東理工大學團隊基于 Transformer 開發(fā)了 Macformer,成功將無環(huán)藥物菲卓替尼大環(huán)化,得到了藥效更強的新化合物,為藥物開發(fā)提供了新方法。

41

論文題目:A live-cell image-based machine learning strategy for reducing variability in PSC differentiation systems, 2023.06

中文解讀:北京大學研發(fā)基于機器學習的多能干細胞分化系統(tǒng),高效、穩(wěn)定制備功能性細胞

研究內容:北京大學聯合北京交通大學團隊研發(fā)了一個基于活細胞明場動態(tài)圖像和機器學習的分化系統(tǒng),能夠實時智能調節(jié)和優(yōu)化多能干細胞分化過程,實現對功能性細胞的高效、穩(wěn)定性生產。

42

論文題目:Predicting pharmaceutical inkjet printing outcomes using machine learning, 2023.12

中文解讀:藥物 3D 打印新突破:圣地亞哥大學用機器學習篩選噴墨打印生物墨水,準確率高達 97.22%

研究內容:圣地亞哥德孔波斯特拉大學以及倫敦大學學院的研究人員將機器學習模型應用于預測生物墨水可打印性,成功地提高了預測率。

43

論文題目:Deep learning-guided discovery of an antibiotic targeting Acinetobacter baumannii, 2023.05

中文解讀:AI 對抗超級細菌:麥克馬斯特大學利用深度學習發(fā)現新型抗生素 abaucin

研究內容:麥克馬斯特大學以及來自麻省理工學院的研究人員利用深度學習篩選了大約 7,500 個分子,找出了抑制鮑曼不動桿菌的新型抗生素。

44

論文題目:Discovery of Senolytics using machine learning, 2023.05

中文解讀:拒絕細胞衰老、遠離老年疾病,愛丁堡大學給細胞開出 3 張「AI 抗衰處方」

研究內容:愛丁堡大學聯合坎塔布里亞大學利用機器學習發(fā)現了三種抗衰藥—— Ginkgetin, Periplocin 及 Oleandrin,并驗證了其在人類細胞系中的抗衰作用。

45

論文題目:Rules and mechanisms governing G protein coupling selectivity of GPCRs, 2023.09

中文解讀:佛羅里達大學利用神經網絡,解密 GPCR-G 蛋白偶聯選擇性

研究內容:佛羅里達大學的研究者測定了 GPCRs 和 G 蛋白的結合選擇性,并開發(fā)了預測二者選擇性的算法,對這一選擇性的結構基礎進行了研究。

46

論文題目:Discovery of a structural class of antibiotics with explainable deep learning, 2023.12

中文解讀:「超級細菌」魔咒或將打破,MIT 利用深度學習發(fā)現新型抗生素

研究內容:MIT 的研究者們利用圖神經網絡 Chemprop 從大型化學庫中識別潛在的抗生素,并發(fā)現了一類新型抗生素。

評論
周磊磊
少師級
2025-02-03
老于學科普
學士級
已閱
2025-02-01
丁振奎
進士級
閱讀
2025-02-01