版權歸原作者所有,如有侵權,請聯(lián)系我們

數(shù)學掛科!原來AI也是個偏科生……

我是科學人
傳承科學精神,汲取榜樣力量
收藏

又是一年高考放榜時,當千萬考生和家長或欣喜或緊張地填寫志愿時——有一群特殊的“考生”,也剛剛結束了一場前所未有的高考之旅。

2024年,9款頂尖AI大模型參加了這場“特別的高考”,它們分別來自OpenAI、百度、阿里、騰訊、字節(jié)跳動等知名公司,以及百川智能、智譜AI、月之暗面科技和MiniMax等新銳企業(yè)。

人工智能挑戰(zhàn)高考

那么,在人類智力的試金石——高考面前,人工智能大模型的表現(xiàn)如何?是輕松考上北大清華,還是考大專都夠嗆?

考試結果顯示,大模型在文科領域的表現(xiàn)尤為出色,有的甚至可以遠超一本線;然而在理科領域表現(xiàn)不盡如人意,數(shù)學和理綜科目的分數(shù)普遍較低,反映出大模型在解決復雜數(shù)學問題和理解物理、化學概念上的挑戰(zhàn)。

親測高考,AI模型到底能拿幾分?

來看這場考試的一些有趣的細節(jié)展示。

這場考試,采用了難度極高的2024年新課標Ⅰ卷,也是高考大省河南省使用的全套考題,適用范圍覆蓋浙江、江蘇、山東、廣東、河北、福建等眾多省份。

考試的判分方式與人類考生一視同仁,無論是選擇題、填空題,還是多選題和解答題,都嚴格按照高考標準來評判。如選擇題和填空題只看最終結果,不考慮模型解題過程是否準確;多選題如提交錯誤答案為零分,如提交部分正確答案,則按相應比例給分;解答題由測試團隊參考標準答案,按照解題步驟算分等。

由于大模型回答的隨機性,每個大模型都作答了兩次,結果取平均分。除英語聽力默認滿分外,試卷其余部分均按照人類考生標準判分,其中作文由具有多年語文高考閱卷經(jīng)歷的骨干教師打分。當了多年語文老師,他還是第一次給Al寫作的文章打分。有意思的是,這份考卷的作文題目也和AI相關。

AI高考成績單

經(jīng)過激烈的角逐,OpenAI的ChatGPT(GPT-4o)脫穎而出,以文科562分、理科469.5分的優(yōu)異成績,成為這場AI高考的“狀元”。按照河南的高考分數(shù)線,GPT-4o的文科成績可以輕松超過一本線41分,在河南這個高考大省中,排名為8811,相當于人類考生的前2.45%。豆包542.5分的文科成績也穩(wěn)穩(wěn)超過一本線,緊隨其后的是537.5分的文心4.0,以及正好卡到文科一本錄取分數(shù)線521分的百小應。

理科中獲得最好成績的文心4.0, 總分只有478.5分,排名為202264,相當于前35.27%?;舅写竽P偷睦砜瞥煽兌家任目瓶偝煽兊土?0~80分。但從測試結果來看,大模型目前的智力水平找個二本的理科專業(yè)已經(jīng)綽綽有余。

“學霸”也有苦惱?AI也是偏科生

在這場別開生面的AI高考中,各大模型的表現(xiàn)各有千秋。在文科領域,它們展現(xiàn)了博聞強記的天賦,特別是GPT-4o、字節(jié)豆包、文心4.0和百川4.0,在歷史和政治科目中成績斐然。而GPT-4o文綜答出了237分的成績,在考生里已經(jīng)可以達到中上游水平。

英語是大模型表現(xiàn)最優(yōu)異的學科,9個大模型的平均分高達132分(滿分150),大部分大模型都可以做到客觀題接近滿分,而只在作文少量失分,這也是大模型表現(xiàn)最接近的學科。

在語文考試里,大模型的客觀題答分依然不錯,包括GPT-4o這個外國考生在內(nèi)基本都是滿分,差距也主要體現(xiàn)在寫作上。18 篇文章中有11篇超過48分,平均分在46.8分左右。文心4.0拿了48分,而豆包分數(shù)最高,拿了52分。

閱卷老師對大模型寫出作文的整體評價是——寫作能力已經(jīng)超過學生的平均水平。各大模型有不同的風格:文心4.0對名人名言信手拈來,儼然一位閱讀量巨大的學生;豆包對議題的討論深刻,體現(xiàn)了更好的邏輯能力……但它們也有缺陷:在深刻、豐富、有文采、有創(chuàng)意方面不足,尤其是結尾表達升華不夠,套路化明顯。

這次,大模型在數(shù)學考試中的表現(xiàn),顛覆了人們“數(shù)學一直都是計算機強項”的印象。因為在所有參與測試的9款大模型中,平均分僅為47分,GPT-4o在高考數(shù)學卷中取得了70分的成績,也就是說在這次考試中表現(xiàn)最好的大模型仍然在數(shù)學考試里掛了科,甚至連一半分都拿不到。除了GPT-4o,文心4.0和豆包分別以62.5分和61.5分的成績成為唯二平均分超過60分的模型。而其他6款模型的表現(xiàn)則不盡如人意。

這一結果不禁讓人懷疑,大模型在數(shù)學領域的能力是否真的不足?通過分析發(fā)現(xiàn):大模型在解決數(shù)學問題時,似乎只能應對那些推理步驟相對簡單的題目。例如,豆包在求導和三角函數(shù)問題上表現(xiàn)出色,能夠熟練運用相關公式和定理。然而,一旦問題變得復雜,涉及更深層次的推導和證明,大模型的表現(xiàn)就大打折扣。更令人意外的是,一些大模型在解題過程中甚至出現(xiàn)了將簡單問題復雜化的情況,特別是那些在PC端產(chǎn)品中加入了代碼解釋器的模型,在解題時常常陷入死循環(huán),這無疑影響了它們在數(shù)學測試中的得分。

不得不說,這場特別的AI高考不僅是對大模型能力的一次檢驗,更是對人工智能在教育領域應用潛力的一次探索。最直觀的總結是:人類沒有一敗涂地,而相較于幾年前AI還做不出小學生的題目,如今大模型甚至都能夠上一本了。這一進步,無疑是科技迅猛發(fā)展的一個縮影。

評論
科普lyjzgf
庶吉士級
這場特殊的AI高考不僅測試了大模型的能力,也揭示了人工智能在教育領域應用的潛力與局限,展示了科技進步的成果,同時也提示了未來發(fā)展的方向。
2024-07-03
東明縣陸圈鎮(zhèn) 油梅霞
學士級
AI在數(shù)學科目上的表現(xiàn)不佳,主要是因為它在處理高度抽象和邏輯推理問題上存在固有的局限性。這種局限性并不意味著AI是“偏科生”,而是反映了當前AI技術在特定領域的應用挑戰(zhàn)。
2024-07-03
演繹無限精彩!
大學士級
此次特別的AI高考,對于大模型的發(fā)展意義重大。它讓我們更加清晰地看到了大模型的優(yōu)勢和不足。未來,人工智能在教育領域如何進步與發(fā)展,值得人們期待。
2024-07-03