麻豆安全网址入口,888影视网

又是一年高考放榜時，當千萬考生和家長或欣喜或緊張地填寫志愿時——有一群特殊的“考生”，也剛剛結束了一場前所未有的高考之旅。

2024年，9款頂尖AI大模型參加了這場“特別的高考”，它們分別來自OpenAI、百度、阿里、騰訊、字節(jié)跳動等知名公司，以及百川智能、智譜AI、月之暗面科技和MiniMax等新銳企業(yè)。

人工智能挑戰(zhàn)高考

那么，在人類智力的試金石——高考面前，人工智能大模型的表現(xiàn)如何？是輕松考上北大清華，還是考大專都夠嗆？

考試結果顯示，大模型在文科領域的表現(xiàn)尤為出色，有的甚至可以遠超一本線；然而在理科領域表現(xiàn)不盡如人意，數(shù)學和理綜科目的分數(shù)普遍較低，反映出大模型在解決復雜數(shù)學問題和理解物理、化學概念上的挑戰(zhàn)。

親測高考，AI模型到底能拿幾分？

來看這場考試的一些有趣的細節(jié)展示。

這場考試，采用了難度極高的2024年新課標Ⅰ卷，也是高考大省河南省使用的全套考題，適用范圍覆蓋浙江、江蘇、山東、廣東、河北、福建等眾多省份。

考試的判分方式與人類考生一視同仁，無論是選擇題、填空題，還是多選題和解答題，都嚴格按照高考標準來評判。如選擇題和填空題只看最終結果，不考慮模型解題過程是否準確；多選題如提交錯誤答案為零分，如提交部分正確答案，則按相應比例給分；解答題由測試團隊參考標準答案，按照解題步驟算分等。

由于大模型回答的隨機性，每個大模型都作答了兩次，結果取平均分。除英語聽力默認滿分外，試卷其余部分均按照人類考生標準判分，其中作文由具有多年語文高考閱卷經(jīng)歷的骨干教師打分。當了多年語文老師，他還是第一次給Al寫作的文章打分。有意思的是，這份考卷的作文題目也和AI相關。

AI高考成績單

經(jīng)過激烈的角逐，OpenAI的ChatGPT（GPT-4o）脫穎而出，以文科562分、理科469.5分的優(yōu)異成績，成為這場AI高考的“狀元”。按照河南的高考分數(shù)線，GPT-4o的文科成績可以輕松超過一本線41分，在河南這個高考大省中，排名為8811，相當于人類考生的前2.45%。豆包542.5分的文科成績也穩(wěn)穩(wěn)超過一本線，緊隨其后的是537.5分的文心4.0，以及正好卡到文科一本錄取分數(shù)線521分的百小應。

理科中獲得最好成績的文心4.0，總分只有478.5分，排名為202264，相當于前35.27%?；舅写竽Ｐ偷睦砜瞥煽兌家任目瓶偝煽兊土?0～80分。但從測試結果來看，大模型目前的智力水平找個二本的理科專業(yè)已經(jīng)綽綽有余。

“學霸”也有苦惱？AI也是偏科生

在這場別開生面的AI高考中，各大模型的表現(xiàn)各有千秋。在文科領域，它們展現(xiàn)了博聞強記的天賦，特別是GPT-4o、字節(jié)豆包、文心4.0和百川4.0，在歷史和政治科目中成績斐然。而GPT-4o文綜答出了237分的成績，在考生里已經(jīng)可以達到中上游水平。

英語是大模型表現(xiàn)最優(yōu)異的學科，9個大模型的平均分高達132分（滿分150），大部分大模型都可以做到客觀題接近滿分，而只在作文少量失分，這也是大模型表現(xiàn)最接近的學科。

在語文考試里，大模型的客觀題答分依然不錯，包括GPT-4o這個外國考生在內(nèi)基本都是滿分，差距也主要體現(xiàn)在寫作上。18 篇文章中有11篇超過48分，平均分在46.8分左右。文心4.0拿了48分，而豆包分數(shù)最高，拿了52分。

閱卷老師對大模型寫出作文的整體評價是——寫作能力已經(jīng)超過學生的平均水平。各大模型有不同的風格：文心4.0對名人名言信手拈來，儼然一位閱讀量巨大的學生；豆包對議題的討論深刻，體現(xiàn)了更好的邏輯能力……但它們也有缺陷：在深刻、豐富、有文采、有創(chuàng)意方面不足，尤其是結尾表達升華不夠，套路化明顯。

這次，大模型在數(shù)學考試中的表現(xiàn)，顛覆了人們“數(shù)學一直都是計算機強項”的印象。因為在所有參與測試的9款大模型中，平均分僅為47分，GPT-4o在高考數(shù)學卷中取得了70分的成績，也就是說在這次考試中表現(xiàn)最好的大模型仍然在數(shù)學考試里掛了科，甚至連一半分都拿不到。除了GPT-4o，文心4.0和豆包分別以62.5分和61.5分的成績成為唯二平均分超過60分的模型。而其他6款模型的表現(xiàn)則不盡如人意。

這一結果不禁讓人懷疑，大模型在數(shù)學領域的能力是否真的不足？通過分析發(fā)現(xiàn)：大模型在解決數(shù)學問題時，似乎只能應對那些推理步驟相對簡單的題目。例如，豆包在求導和三角函數(shù)問題上表現(xiàn)出色，能夠熟練運用相關公式和定理。然而，一旦問題變得復雜，涉及更深層次的推導和證明，大模型的表現(xiàn)就大打折扣。更令人意外的是，一些大模型在解題過程中甚至出現(xiàn)了將簡單問題復雜化的情況，特別是那些在PC端產(chǎn)品中加入了代碼解釋器的模型，在解題時常常陷入死循環(huán)，這無疑影響了它們在數(shù)學測試中的得分。

不得不說，這場特別的AI高考不僅是對大模型能力的一次檢驗，更是對人工智能在教育領域應用潛力的一次探索。最直觀的總結是：人類沒有一敗涂地，而相較于幾年前AI還做不出小學生的題目，如今大模型甚至都能夠上一本了。這一進步，無疑是科技迅猛發(fā)展的一個縮影。

數(shù)學掛科！原來AI也是個偏科生……