科研人員正在測試這個開源模型執(zhí)行科研任務的能力——從數(shù)學一直到認知科學。
DeepSeek的模型能在一個對話機器人App上使用。來源:Mladen Antonov/AFP via Getty
近日,一家中國公司推出的DeepSeek-R1讓美國股市大幅震蕩——DeepSeek-R1是一款平價但強大的人工智能(AI)“推理”模型。
經(jīng)過反復測試,DeepSeek-R1回答數(shù)學和科學問題的能力與o1模型不相上下——o1是由美國加州舊金山OpenAI公司去年9月推出的一款模型,OpenAI的推理模型一直被視為行業(yè)頂尖水準。
雖然R1在科研人員想嘗試的各種任務上仍力有不逮,但它讓全球科學家有機會根據(jù)其學科內(nèi)的問題,量身訓練定制款的推理模型。
“基于它的絕佳表現(xiàn)和低成本,我們相信Deepseek-R1能鼓勵更多科學家在日??蒲泄ぷ髦惺褂么笳Z言模型(LLM),同時不用擔心成本問題?!泵绹砗ザ碇萘⒋髮WAI研究員Huan Sun說,“幾乎所有從事AI的同事和合作者都在談論它?!?br /> 開放季
對于科研人員來說,R1的平價和開源可能會改變傳統(tǒng):使用它的應用編程接口(API),就能以其專利競品收取的一小部分費用對這個模型提問;其在線對話機器人DeepThink(深度思考)的使用更是免費。科研人員還能在自己的服務器上下載這個模型,免費運行和拓展模型——這些都是閉源競品模型o1辦不到的。
從1月20日推出以來,“大量研究人員”基于R1或以R1為靈感,嘗試訓練自己的推理模型,加拿大不列顛哥倫比亞大學的AI研究員Cong Lu說道。這從開放科學AI資源庫Hugging Face的數(shù)據(jù)中便可看出——DeepSeek-R1的代碼就儲存在Hugging Face上。**在模型發(fā)布后的一周內(nèi),Hugging Face上各版本的R1下載量就超過300萬次,**包括獨立用戶已經(jīng)擴展過的模型。
科研任務
一些初步測試讓R1執(zhí)行數(shù)據(jù)型科研任務——這些任務選自生物信息、計算化學、認知神經(jīng)科學等領(lǐng)域的真實論文——結(jié)果R1的表現(xiàn)與o1不相上下**,**Sun說。她的團隊讓這兩個AI模型完成他們創(chuàng)建的一系列問題中的20個任務,這個系列被稱為ScienceAgentBench。這些任務包括數(shù)據(jù)分析和可視化,兩個模型只能答對其中約1/3的問題。用API運行R1的成本只有o1的1/13,但R1的“思考”時間比o1更長,Sun說。
R1在數(shù)學上也開始嶄露頭角。英國牛津大學數(shù)學家、計算科學家Frieder Simon讓這兩個模型給出泛函分析這一抽象領(lǐng)域的一個證明,發(fā)現(xiàn)R1的證明比o1的更好。但考慮到這類模型通常會犯的錯誤,如果想要從這些模型中獲益,研究人員本身就要具備鑒別證明水平的能力,他說。
R1令人激動的一大原因在于,它以“open-weight”(開放權(quán)重)的形式公開,說明其算法不同部分之間習得的關(guān)聯(lián)可以進一步拓展。下載了R1或其“蒸餾”小模型(也由DeepSeek發(fā)布)的科學家能通過額外訓練提升其能力,這也被稱為微調(diào)。如果有合適的數(shù)據(jù)集,科研人員或能通過訓練,提高該模型在特定科研步驟編寫代碼的能力。
能在本地系統(tǒng)下載并部署,也是R1的****加分項 **,**Sun說,因為這樣科研人員就能掌控他們的數(shù)據(jù)和研究結(jié)果?!皩τ谏婕懊舾泻碗[私數(shù)據(jù)的學科來說,比如醫(yī)學研究,這一點尤其重要?!?br /> 推理跨越
DeepSeek也攪動了AI科研領(lǐng)域,因為它指出了一條能優(yōu)化無數(shù)其他模型的道路,舊金山AI公司Anthropic的聯(lián)合創(chuàng)始人Jack Clark說。
DeepSeek通過將它的“推理”能力教授給其他大語言模型(LLM)——如Meta的Llama,創(chuàng)建了蒸餾模型。DeepSeek在1月22日在arXiv上發(fā)布的預印本論文揭示了這背后的方法:用整理好的來自DeepSeek-R1的80萬個逐步式“思維鏈”回答樣本,訓練這些大語言模型。
“現(xiàn)在網(wǎng)上有了一個開放權(quán)重的模型,你能用它讓其他足夠強大的基礎(chǔ)模型變身為一個AI推理器?!盋lark在他的簡報Import AI中寫道,“全球的AI能力又向前了一步?!?/p>
科研人員還在應用“強化學習”——用來創(chuàng)建DeepSeek-R1的試、錯、賞技術(shù)——來完善它在特定任務上的應用,Lu說。Lu去年聯(lián)合創(chuàng)建了“AI Scientist”,這是一個能完成一整套機器學習科研任務的模型,從掃描文獻到創(chuàng)建假說再到撰寫論文。通過定義適當?shù)摹蔼勝p信號”,科學家能朝著任何目標訓練這個模型,他說。
但DeepSeek-R1還遠談不上完美。對話機器人DeepThink在o1等大語言模型會“碰壁”的簡單任務上也失敗了,這類問題包括統(tǒng)計名字中含字母W的美國州的數(shù)量。Lu說:“也許有的人認為這個模型能把水變成酒,這只是炒作,但對于其實際能力來說,它確實是最棒的?!?br /> (原文作者:Elizabeth Gibney 翻譯:施普林格·自然上海辦公室 來源:自然系列)