人工智能融合了計算機科學、數(shù)學、統(tǒng)計學、認知科學等多個學科,其發(fā)展高度依賴跨學科人才的培養(yǎng)。近年來,AI for Science 的崛起更是讓大家看到了人工智能與基礎學科深度融合的顛覆性潛力?,F(xiàn)如今,許多杰出的學者正是憑借其多學科背景,推動科學研究邁向新的高度。例如:
*華中科技大學黃宏副教授的學術經(jīng)歷橫跨廣播電視工程、信息工程、計算機科學,如今她專注于數(shù)據(jù)驅動的科學研究,包括數(shù)據(jù)挖掘、大數(shù)據(jù)分析、社交網(wǎng)絡分析等;
*上海人工智能實驗室 AI for Science 中心青年研究員周東展從物理學起步,轉向人工智能,現(xiàn)如今致力于 AI 在物質科學中的應用;
*上海交通大學自然科學研究院的助理研究員周冰心,本科主修金融,碩士攻讀數(shù)據(jù)分析,博士階段專注于機器學習、深度學習,如今,她正在用深度學習解決生物領域的問題,如基于深度學習算法的蛋白質設計和改造。
在第七期 Meet AI4S 直播中,HyperAI超神經(jīng)邀請到了黃宏副教授、周東展博士、周冰心博士,與 3 位學者共同探討 AI 在社會科學、物理化學、生命科學等領域的前沿發(fā)展,并分享了她們在選擇科研方向上的見解,以及對 AI 頂會的投稿經(jīng)驗。
HyperAI超神經(jīng)在不違原意的前提下,對 3 位老師的本次分享進行了整理匯總。
黃宏:我們的研究應該能真正解決實際問題
作為華中科技大學的副教授、博士生/碩士生導師,黃宏副教授在數(shù)據(jù)挖掘、大數(shù)據(jù)分析等領域深耕多年,并以第一/通訊作者身份在 TKDE、TKDD、WWW、IJCAI、WSDM 等國際頂級期刊和會議上發(fā)表多篇論文。然而,她的科研之路并非一帆風順。
回憶起讀研時的挫敗經(jīng)歷,黃宏副教授表示,她曾有一篇論文修改了 28 次,當改到第 25 次時,曾一度感到崩潰,后來,在朋友和導師的鼓勵下,她冷靜下來,重新審視論文,發(fā)現(xiàn)仍有許多細節(jié)需要完善,最終通過不斷調整和打磨,成功發(fā)表。
在黃宏副教授看來:「做科研的關鍵,是要看你文章的 idea 是否真正解決了某一方面的問題,是否提出了合理的研究動機」。基于這一理念,她的研究主要側重在兩個方向:第一,在大數(shù)據(jù)分析、數(shù)據(jù)挖掘上進行方法的創(chuàng)新;第二,基于數(shù)據(jù)驅動進行應用開發(fā),解決社會實際問題。
在方法創(chuàng)新領域,黃宏副教授團隊主要集中于圖神經(jīng)網(wǎng)絡與復雜系統(tǒng)的建模。她認為,在當下的大數(shù)據(jù)時代,為了更有效地挖掘數(shù)據(jù)價值,可以采用圖結構來表示周圍的事物,也就是將事物抽象建模為節(jié)點,并分析這些節(jié)點之間的關系,進而構建成圖結構。
此外,她們團隊也在做數(shù)據(jù)驅動的應用開發(fā),比如社交網(wǎng)絡分析。2009-2012 年間,社交網(wǎng)絡發(fā)展正值高峰期,微博、Twitter 和 Facebook 等平臺逐漸興起,這也促使黃宏副教授團隊利用這些平臺的數(shù)據(jù),分析網(wǎng)絡結構的發(fā)展,開展用戶推薦、輿情分析等工作。
「在新冠疫情期間,我們通過分析國際新聞媒體對中國的評論,研究外網(wǎng)對中國的態(tài)度變化,為理解外部立場提供了數(shù)據(jù)支撐」,黃宏副教授表示。
另一個有意思的研究案例是分析個人的社會經(jīng)濟地位,將其用于城市規(guī)劃。「我們與電信部門合作獲取用戶的手機流量日志數(shù)據(jù),通過分析用戶的 GPS 定位,識別出用戶的活動區(qū)域,并結合這些地區(qū)的房價信息,推測該地區(qū)在城市中的層級」。舉個簡單的例子,如果一個人頻繁出現(xiàn)在金融區(qū),可能意味著其社會經(jīng)濟地位較高,而常出現(xiàn)在學?;蚪逃龣C構附近,則其身份可能為學生或教育工作者?;诖耍芯咳藛T可以綜合評估個人的社會經(jīng)濟地位,從而為城市規(guī)劃提供參考。
在工業(yè)智能化方面,黃宏副教授團隊也在用人工智能技術,對工業(yè)設備進行故障自動識別與診斷,極大提高了設備維護的效率和準確性。
黃宏副教授總結:「你必須自己對你要做的研究感興趣」。在她看來,科研本質上是一個枯燥且需要極大耐心的過程,但如果你真正對它感興趣,就有自驅力堅持下去,「這也是我在招收學生時最看重的品質」。
周東展:讓 AI 像科學家一樣產(chǎn)生新的 idea
周東展博士也認同黃宏副教授的觀點:「如果沒有興趣的話,確實很難做出比較好的工作」。在她看來,科研方向選擇的關鍵點不在于判斷該領域是否「卷」或者是「熱門」,熱門領域依舊可以做出行業(yè)典范成果,小眾賽道也能去發(fā)現(xiàn)一些新的問題,我們應該突破舒適區(qū),避免同質化研究,選擇做出一些比較 solid 的成果。
目前,周東展博士的研究方向是將大語言模型、多模態(tài)模型等 AI 技術應用于物質科學。主要成果如下圖所示:
去年 1 月,上海人工智能實驗室推出了化學領域的大語言模型「書生·鑒原」,探索通用大模型與專業(yè)領域結合的前沿課題。化學語言模型在多項核心化學任務(分子和反應相關)上表現(xiàn)優(yōu)異,多項指標超過 GPT-4??紤]到化學研究中外部知識的重要性,團隊為語言模型加入檢索增強生成 (RAG) 機制,以減少模型幻覺問題??紤]到化學數(shù)據(jù)模態(tài)的多樣性,團隊進一步開發(fā)了多模態(tài)版本模型,該版本模型在分子識別和多模態(tài)化學推理等方面表現(xiàn)出色,多項指標超過 GPT-4v。考慮到使用科學工具對于模型的重要性,團隊開發(fā)了一個 Agent 工具包,集成超過 50 種化學工具,涵蓋搜索、計算、分子和反應等,讓模型更高效地執(zhí)行相關任務。
在以上研究的基礎上,實驗室團隊想要讓 AI 承擔更復雜的任務,而不是僅僅讓大語言模型停留在問答層面,于是團隊開始探討 AI 是否能像科學家一樣產(chǎn)生新的科研假設。
如上圖所示,就是讓 AI 在給定研究背景和問題的前提下,自動生成研究假設。例如,如果希望研究某種電池并尋找符合特定性質的材料和組分,只需要通過解耦研究背景與靈感,并結合 MOOSE-CHEM 系統(tǒng)及其內置的多智能體操作,就能夠生成高質量的科學想法。
研究發(fā)現(xiàn),科學假設的提出是一個復雜的推理過程,難以通過單一步驟直接生成。因此,團隊對這一過程進行了拆解,通過迭代搜索靈感和假設,并對生成的假設進行進一步檢索,確保最終形成的科學假設更加堅實且多樣化。
與此同時,團隊還構建了 Benchmark 評估生成的科學科學假設,如下圖所示,研究發(fā)現(xiàn),性能更優(yōu)的模型具備更強的檢索能力。
此外,研究還證實,在電化學相關任務中,模型能夠生成具有可執(zhí)行性的科學假設,而不僅是籠統(tǒng)的概念,比如,其科學假設包含材料的核心組成元素,如金屬釕、氮摻雜等。目前,實驗室團隊已經(jīng)在與相關課題組合作,希望推動該系統(tǒng)的落地應用,將其打造為一個真正的科研助手。
讓 AI 生成科研 idea,甚至推動科學創(chuàng)新,是實驗室團隊正在努力的方向?;仡欁陨淼膶W術經(jīng)歷,周東展坦言,其科研態(tài)度深受物理學家吳健雄的影響——「研究結果的偏差可能源自一個極小的細節(jié)問題」。因此,她始終強調,關注細節(jié)、深入推敲,是科研取得突破的關鍵。
周冰心:自研蛋白質模型在全球權威榜單上排名第一
在每個人的成長軌跡里,在每個人的成長軌跡里,可能都會有一位在學習、事業(yè)、乃至人生規(guī)劃上產(chǎn)生潛移默化影響的「偶像」。談及自己的「科研愛豆」,周冰心博士介紹道,「我之所以選擇做科研,很大程度上是受到了我博導的影響」,在周冰心的印象中,她的博導是一個非常有責任感的人,認真、耐心、平易近人、秒回學生信息,甚至會逐字逐句地幫她改代碼、一行行檢查公式推導?!肝蚁M椅磥砜梢韵裎业膶熞粯?,把培養(yǎng)學生視為一件非常重要的事」。
在科研方向的選擇上面,周冰心認為,沒有唯一的「正確道路」,關鍵在于找到最適合自己的路,并堅定地走下去?!高€是要看你更愿意做什么,以及你的風險承受能力如何。只要自己開心,就沒必要因為內卷或流行趨勢而盲目跟風」。
關于團隊近年來的一些研究,特別是 AI 在蛋白質改造方面的探索,周冰心也在本次直播中進行了分享。
在工業(yè)中,酶用于藥物開發(fā)、疾病監(jiān)測和塑料降解等。然而,天然蛋白質來源于自然界,有其特定的生活環(huán)境(如高壓高溫),未必符合工業(yè)需求,因此需通過改造提升其催化活性、熱穩(wěn)定性、結合親和力和底物選擇性等。
近年來,人工智能輔助蛋白質設計逐漸興起。如下圖所示,簡單來講,就是先讓自監(jiān)督模型學習大量蛋白質數(shù)據(jù)(序列、結構、進化信息),再拿少量和下游任務相關(預測蛋白質活性)的標簽數(shù)據(jù)集去訓練一個預測模型,根據(jù)具體需求(提升活性),對蛋白質的結構或序列進行重新優(yōu)化或全新設計。
當改造完一條蛋白質序列后,可以將其轉染到大腸桿菌、酵母等表達體系中,讓生物學團隊進行表達和純化。純化后的蛋白質會被用來測試其生物化學性質,如活性、穩(wěn)定性和結合親和力,這些特性取決于蛋白質的具體用途。在這個過程中,算法也可以提供幫助,比如預測給定蛋白質的表達性、溶解性和活性,最后只需要將算法推薦的蛋白質序列用于實驗,就可以進一步節(jié)省成本。
如下圖所示,周冰心團隊的工作集中在蛋白質工程的各個模塊上,包括但不限于從蛋白質結構推導序列、從功能推導序列等問題。「我們希望開發(fā)自己的工具,并探索如何將這些工具與后續(xù)的生物實驗結合,以形成一個完整的循環(huán),從而實現(xiàn)干實驗(計算模擬)與濕實驗(實際生物實驗)之間的迭代優(yōu)化」。
到目前為止,團隊開發(fā)的工具在干、濕實驗中均取得了優(yōu)異成績。例如,在全球的權威榜單 ProteinGym 上,其模型分別占據(jù)了第一和第二的位置。
此外,團隊開發(fā)的生長激素,實現(xiàn)了全球首個 AI 設計蛋白質真正意義的放大生產(chǎn)(5,000 升)。他們還成功改造了 EPS-G7 酶,提高了其特異性和催化活性,并將生產(chǎn)成本降低 90%,打破了進口壟斷限制。
除了單點或少數(shù)點位的改造,他們還整個生成了完整的蛋白質序列。例如,改造用于核酸剪切的 Ago 系列蛋白(高溫存活),讓其在常溫下也能保持良好的活性,適用于核酸試劑盒中的剪切工作。
AI 從業(yè)者與 Science 從業(yè)者之間的最大問題是溝通
值得一提的是,由于周冰心博士所在領域具備高度交叉性,為了促進 AI 從業(yè)者與 Science 從業(yè)者的溝通交流,他們團隊整理了大量數(shù)據(jù)、工具和下游任務檢測模塊,并將其整合成一個名為 VenusFactory 的工具庫。
在周冰心博士看來,溝通能力在 AI 與科學領域的合作中至關重要。「我剛開始涉足生物方向的交叉工作時,許多生物學的合作伙伴想要跟我們合作,但我聽不懂他們在說什么?,F(xiàn)在,我可以基于自己的理解,將他們提出的科學問題轉化為工程問題,尋找相應的算法來解決」。
周東展博士也認同這一觀點。她強調:「與高校、研究所或企業(yè)合作時,確保雙方在同一層面上理解問題非常關鍵。我們需要讓科學領域的合作伙伴了解 AI 技術的現(xiàn)狀,同時也要讓技術團隊明白最關鍵的問題是什么」。
黃宏副教授補充道,跨學科合作中掌握基礎知識非常重要。她回憶起自己與清華大學社會學系羅家德教授團隊的合作。在初期,社會學團隊提出研究問題,技術團隊提供數(shù)據(jù)分析支持并負責實驗設計。隨著時間的推移,技術團隊逐漸掌握了社會學的基本知識,開始獨立提出問題并與社會學團隊討論,這種思想碰撞催生了多項研究成果。
值得一提的是,近期正值 ICLR 2025 等頂會公布結果,同時也有多個重要會議仍未截稿,我們也借此機會讓老師們分享了一下各自對 AI 頂會的投稿經(jīng)驗,如下所示:
1. 細讀 Call for papers,明確不同頂會錄取文章的要求,防止失去投稿機會。
2. 關注文章細節(jié)問題,格式正確、圖要清晰、排版要好看。
3. 明確投稿截止時間,所有的實驗至少提前一周全部完成保證論文的完整性,降低審稿人的質疑空間。
4. 研究問題,文章 idea 是否真的解決了某一方面的問題;研究動機是否合理。
5. 論文寫作建議
* 論文提綱建議:第一,介紹背景。第二之前的研究是怎樣的、存在什么問題。第三,我們的工作是怎樣的,保證將你的 idea 傳輸給審稿人并讓他信服;
* 此外,保證文章的邏輯性,每一個 Research question 和后面的實驗驗證需要環(huán)環(huán)相扣,自圓其說。
6. 關于拒稿:拒稿很正常,審稿人的喜好五花八門,可以試試多投幾次。