我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題,結(jié)果……

科普中國
公眾科普,科學(xué)傳播。
收藏

近日,我國“深度求索”公司發(fā)布的具備深度思考和推理能力的開源大模型 DeepSeek-R1 受到了全世界的關(guān)注。

在 DeepSeek-R1 之前,美國 OpenAI 公司的 GPT-o1,Athropic 公司的 Claude,Google 公司的 Gemini,都號稱具備了深度思考和推理能力。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測試中,表現(xiàn)的確是驚才絕艷。

特別引起我們興趣的,是 Google 的專用模型 AlphaGeometry 在公認(rèn)高難度的國際奧林匹克數(shù)學(xué)競賽中取得了 28/42 的成績,獲得銀牌。學(xué)生時代我們也接觸過奧數(shù),深知能在此類國際奧賽中獲銀牌的選手,無一不是從小就體現(xiàn)出相當(dāng)數(shù)學(xué)天賦,且一路努力訓(xùn)練的高手。能夠達(dá)到這個水平的 AI,稱其為具備了強大的思考能力并不過分。自打那之后,我們就一直好奇,這些強大的 AI,它們的物理水平又如何?

1 月 17 日,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽。沒過兩天, DeepSeek-R1 的發(fā)布引爆 AI 圈,它自然成了我們測試的首選模型。此外我們測試的模型還包括:OpenAI 發(fā)布的 GPT-o1,Anthropic 發(fā)布的 Claude-sonnet。

下面是我們測試的方式:

1.整個測試由 8 段對話完成。

2.第一段對話的問題是“開場白”:交代需要完成的任務(wù),問題的格式,提交答案的格式等。通過 AI 的回復(fù)人工確認(rèn)其理解。

3.依次發(fā)送全部 7 道題目的題干,在收到回復(fù)后發(fā)送下一道題,中間無人工反饋意見。

4.每道題目的題干由文字描述和圖片描述兩部分組成(第三、五、七題無圖)。

5.圖片描述是純文本方式,描述的文本全部生成自 GPT-4o,經(jīng)人工校對。

6.每個大模型所拿到的文字材料是完全相同的(見附件)。

上述過程后,對于每個大模型我們獲得了 7 段 tex 文本,對應(yīng)于 7 道問題的解答。以下是我們采取的閱卷方式:

1.人工調(diào)整 tex 文本至可以用 Overleaf 工具編譯,收集編譯出的 PDF 文件作為答卷。

2.將 4 個模型的 7 道問題的解答分別發(fā)送給 7 位閱卷人組成的閱卷組。

3.閱卷組與“天目杯”競賽的閱卷組完全相同,且每位閱卷人負(fù)責(zé)的題目也相同。舉例:閱卷人 A 負(fù)責(zé)所有人類和 AI 答卷中的第一題;閱卷人 B 負(fù)責(zé)所有人類和 AI 答卷中的第二題,等等。

4.閱卷組匯總所有題目得分。

結(jié)果如何呢?請看下表。

圖片

結(jié)果點評:

1.DeepSeek-R1 表現(xiàn)最好?;A(chǔ)題(前三題分?jǐn)?shù)拿滿),第六題還得到了人類選手中未見到的滿分,第七題得分較低似乎是因為未能理解題干中“證明”的含義,僅僅重述了待證明的結(jié)論,無法得分。查看其思考過程,是存在可以給過程分的步驟的,但最后的答案中這些步驟都沒有體現(xiàn)。

圖片

2.GPT-o1 總分與 DeepSeek 相差無幾。在基礎(chǔ)題(二題、三題)中有計算錯誤導(dǎo)致的失分。相比于 DeepSeek,o1 的答卷更接近于人類的風(fēng)格,因此以證明題為主最后一題得分稍高。

圖片

3.Claude-sonnet 可謂“馬失前蹄”,在前兩題中連出昏招打了 0 分,但后續(xù)表現(xiàn)跟 o1 相當(dāng)接近,連扣分點都是類似的。

圖片

4.如果將 AI 的成績與人類成績相比較,則 DeepSeek-R1 可以進(jìn)入前三名(獲特優(yōu)獎),但與人類的最高分 125 分仍有較大差距;GPT-o1 進(jìn)入前五名(獲特優(yōu)獎),Claude-sonnet 前十名(獲優(yōu)秀獎)。

最后想聊幾句閱卷的主觀感想。首先是 AI 的思路是真的好,基本上沒有無法下手的題,甚至很多時候一下子就能找到正確的思路。但跟人類不同的是,它們在有正確的思路后,會在一些很簡單的錯誤里面打轉(zhuǎn)。比如通過看 R1 的第七題思考過程,就發(fā)現(xiàn)它一早就知道要用簡正坐標(biāo)來做,能想到這一步的考生幾乎 100%求解出了正確的簡正坐標(biāo)(一個簡單的矩陣對角化而已),但是 R1 似乎是在反復(fù)的猜測和試錯,到最后也沒有得到簡正坐標(biāo)的表達(dá)式。

還有就是所有的 AI 似乎都不理解一個“嚴(yán)密”的證明究竟意味著怎樣的要求,似乎認(rèn)為能在形式上湊出答案,就算是證明了。AI 如同人類,也會出現(xiàn)許多“偶然”錯誤。比如在正式的統(tǒng)一測試前,我們私下嘗試過多次,很多時候 Claude-sonnet 可以正確解出第一題的答案,但正式測試的那次它就偏偏做錯了。出于嚴(yán)謹(jǐn),我們也許應(yīng)該對同一道題測試多次然后取平均,但實在是有點麻煩……

圖片

策劃制作

來源丨中科院物理所(id:cas-iop)

責(zé)編丨楊雅萍

審校丨徐來、林林

本文封面圖片來自版權(quán)圖庫,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

評論
無為通達(dá)
少傅級
這次挑戰(zhàn)不僅驗證了DeepSeek在處理復(fù)雜物理問題上的潛力,也為我們提供了關(guān)于AI模型如何理解和解答科學(xué)競賽題的有價值見解??磥?,AI在科學(xué)領(lǐng)域的應(yīng)用前景越來越廣闊了!
2025-02-07
徐合國
舉人級
隨著人工智能技術(shù)的不斷發(fā)展,我們期待能夠看到更強大的模型出現(xiàn),它們或許能夠更好地模擬人類的思維過程,在處理復(fù)雜學(xué)術(shù)問題上取得更大的突破。同時,我們也應(yīng)該正確看待人工智能與人類智慧的關(guān)系,將兩者有機結(jié)合起來,讓人工智能成為推動科學(xué)研究和教育發(fā)展的有力助手,共同探索未知的科學(xué)領(lǐng)域 。
2025-02-07
科普科普知識的搖籃!
大學(xué)士級
近來,風(fēng)頭無兩的DeepSeek-R1與GPT-o1、Claude-sonnet等AI大模型,共同迎接中科院物理所“天目杯”競賽題的挑戰(zhàn)。隨著DeepSeek-R1脫穎而出,成績斐然。AI解題思路精妙,卻易在簡單處出錯,和人類頂尖水平相比,仍有進(jìn)步空間 。
2025-02-07