版權歸原作者所有,如有侵權,請聯(lián)系我們

如果讓AI做你的高考語文題,它能得多少分?

中國科普博覽
中國科協(xié)、中科院攜手“互聯(lián)網(wǎng)+科普”平臺,深耕科普內(nèi)容創(chuàng)作
收藏

編者按:

本文主要是通過測試答題,分析大語言模型目前在做題特別是做語文題方面的表現(xiàn)。千萬不要試圖挑戰(zhàn)考試紀律,靠自己走出人生的每一步才是堅實有力的。正如文中所提到的,“朋友們千萬不要放棄學習,寄希望于以后一切用AI。堅持學習,你聰明的大腦帶給你的驚喜和回報才是最大的!”

圖片

(圖片來源:作者與AI對話的網(wǎng)頁截圖)

以上就是某AI獻給參加2023年高考的莘莘學子們的祝福,你感受到它對你滿滿的愛與期待了嗎?

高考要考察的領域和能力非常全面,大部分人都有相較之下的短板,筆者以前就因為缺乏與高考語文現(xiàn)代文閱讀出題人的“共鳴”,無法取得高分。

近來,從事腦科學研究的筆者產(chǎn)生了一個想法:如果讓類似GPT-4這樣強大的人工智能(Artificial Intelligence, AI)大語言模型(Large Language Model, LLM)去答語文高考題,它表現(xiàn)如何呢?

圖片

繁花似錦的夢想大學

(圖片來源:圖像生成類人工智能模型Midjourney)

Part.1

壓力為什么給到了大語言模型?

為什么是大語言模型才有較強的做題能力呢?為什么以前開發(fā)的自然語言處理(Natural Language Processing, NLP)的其他語言模型就沒這種能力?

一種說法是,大模型具備了涌現(xiàn)能力(emergent ability),指的是一種模型在訓練過程中,自動地學習到一些高級的、復雜的功能或行為,而這些功能或行為并沒有被直接編碼或指定。涌現(xiàn)能力是近期AI取得突破性進展最重要的核心技術,它使大模型在處理新的、未知的任務時表現(xiàn)更加出色,這是因為它可以自適應地學習到新的功能或行為,而不需要重新訓練或修改模型。

Part.2

人類為什么聰明、適應性強呢?

**有一種假說就是涌現(xiàn),**這種假說指的是:大腦中神經(jīng)元數(shù)目一旦突破某個具體的數(shù)目,大腦的包括邏輯思考能力在內(nèi)的各類功能就能上升一個檔次,這就是量變引發(fā)質(zhì)變的最佳例子。

因此當大語言模型訓練的參數(shù)量和喂它的文本數(shù)據(jù)不斷增長后,某天AI就“悟了”,從此語言能力就有一次爆發(fā)式的躍升,于是現(xiàn)在AI寫出來的作文,不仔細甄別的話,和普通高中生寫出來的作文難分伯仲。

圖片

大模型的涌現(xiàn)現(xiàn)象

(圖片來源:參考文獻[1])

涌現(xiàn)之后,大語言模型就具備了多模態(tài)的思維鏈路,可以構(gòu)建一個關于語言和意義的高維內(nèi)在表示,從而通過中間步驟的自然語言推理,來完成最終的輸出。

簡單來說,就是它會簡單的推理了。

光看開頭GPT-4的祝福,其實你很難辨別它是AI寫的還是人類寫的。雖然它還沒具備真正的意識或思維能力,但它的確使用了類似于人的思維推理過程來銜接上下文的語言。

GPT-4和之前很火的ChatGPT一樣,都是大語言模型,都是基于預訓練變換器(Generative Pre-trained Transformer, GPT)的架構(gòu)。如果將一個多步驟的問題分解為可以單獨解決的中間步驟,還會進一步提高大語言模型的表達推理能力。

圖片

大模型思維鏈能力的出現(xiàn)

(圖片來源:參考文獻[2])

好了,前面鋪墊了這么多大語言模型的優(yōu)秀之處,接下來是騾子是馬就要拉出來遛遛了。

那我們就用GPT-4來代替大語言模型出戰(zhàn),看看它能否在高考語文中替筆者一雪前恥!

圖片

去吧,GPT-4,開啟你的AI做題家征程!

(圖片來源:《假面騎士build》)

Part.3

答題開始!

本文會讓AI把2022年全國各省市的高考語文卷都做一遍,一共8套,分別是全國甲卷、全國乙卷、新高考I卷、新高考II卷、北京卷、天津卷、浙江卷和上海卷,然后統(tǒng)計它的最終成績。(因為OpenAI訓練大語言模型的文本資料全是2021年9月以前的,因此2022年的試卷對于它來說是全新未開封的。)

圖片

(圖片來源:作者與AI對話的網(wǎng)頁截圖)

筆者是浙江人,所以以浙江卷為例了。

第一大題是語言文字應用(20分),以下紫色框內(nèi)是提問,灰色框內(nèi)是它的回答:

圖片

正確答案:C

圖片

正確答案:2.B 3.B

圖片

正確答案:D

圖片

正確答案:①. 是因為它高于生活 ②. 實際上充滿了哲理 ③. 而將生活哲學適當夸張和戲劇化

遺憾的是,前4題均為選擇題,它只答對1題。

才做了4道題,我們就不得不宣告它已經(jīng)失去了沖擊高分的可能。

錯別字、拼音判斷,詞語、標點的運用,還有病句的甄別之類的題目,感覺AI都不是很擅長,可見語文的基本功不是很扎實!不過第5題補寫恰當語句確實做得挺不錯的,和答案要表達的意思基本一致,而且下定義和簡述題部分即便沒有給它需要的圖片它也能答出個所以然,可見它擅長的是對上下文的銜接和整體所要表達中心意思的概括總結(jié),而對細枝末節(jié)不甚考究。

也就是說,AI有一點語文素養(yǎng),但不多。

根據(jù)浙江卷賦分規(guī)則,第一大題扣12分,得分:8/20。

**接下來第二大題是現(xiàn)代文閱讀(30分),**將原文和問題都輸入進去后,AI的回答如下:

圖片

正確答案:7.A 8.A 9. ①士人:興趣從仕途轉(zhuǎn)向飲食,促進飲食發(fā)展。②技術:中華飲食歷史悠久,明清時代飲食技術得到大發(fā)展。③理論:長期的實踐經(jīng)驗發(fā)展成系統(tǒng)理論。

圖片

參考答案得分點:10. ①抑揚。②烘托。11. ①敦厚忠孝。②忍辱負重。③積極上進。④恪盡職守。12. ①舍小愛,取大愛。②舍私利,取大義。13. ①寫出敦厚媽對美好生活向往的迫切。②塑造敦厚甘守荒涼、一心奉獻的品格。

現(xiàn)代文閱讀的選擇題可悲得全錯了,簡答題也并沒有從原文中進行歸納,按標準答案批改的話,10分的小閱讀理解,它只拿了1分。

從大閱讀理解也可以看出,AI不會半點答題技巧,比如問藝術手法,正確答案是“抑揚”和“烘托”這兩種手法,AI辛辛苦苦答了一堆都沒扣到點子上,因此,只能得0分。

品格部分答出責任感和無私這兩點,只能說對原文最表面的內(nèi)容有一定理解,但缺乏深刻的認識,因此評價和藝術效果答得完全不對,可以說,AI面對較長的現(xiàn)代文,理解起來有些束手無策。

看來,AI只能分析文字本身體現(xiàn)的,無法深刻理解作者所要表達的內(nèi)涵。

參照標準答案,它在這個大題中綜合得分:4/30。

接下來第三大題是古代詩文閱讀(40分)。

你猜,它會答成什么樣?

圖片

(圖片來源:2022年浙江卷高考語文文言文部分)

圖片

正確答案:14.C 15.B 16.D

圖片

正確答案:17.AI斷的完全正確 18.(1) 那么(人們)將認為我是狠心的人,并且是吝惜(賞賜)爵位俸祿啊。(2) 知道(上面)那些情況有可以給予百姓(刑賞忠厚)的道理卻不給予,這也是存心傷害百姓罷了。

怎么樣,你是不是沒想到,AI的文言文居然不錯!3個選擇題里只錯1個,斷句全對!

只是最后一題文言文翻譯存在很多問題,比如文中“忍”和“愛”分別應該是“狠心的”和“吝惜”的意思,AI翻譯成了“忍受”和“喜愛”,很明顯有些望文生義,最后文言文處得分:13/20。

圖片

正確答案:19.①.勤政樓 ②.千秋節(jié) 20. 情感上王詩表達對昔日盛世懷念,杜詩抒發(fā)昔盛今衰之悲嘆;寫法上王詩運用細節(jié)描寫,杜詩運用擬人手法。

填空題是AI的強項,基本全對,即便古詩詞也不例外,但是對古詩情感和寫法上的理解和答題技巧還是差了點,得分:5/8。

圖片

圖片

正確答案:略

第三小題的文言文理解答得也不錯,和標準答案差了幾個小點而已,得分:4/6。

古詩文默寫5選3即可,GPT(1)(2)(4)句古詩詞是完全正確的,因此可以算全對,得分:6/6。

不過“潮平兩岸闊,無wind可依然”可太有“創(chuàng)意”了,不僅自己編造古詩詞,還中英摻雜……

最終古代詩文閱讀部分得分:28/40。

**那么最后一部分就是作文了,總分60分,**題目如下:

圖片

(圖片來源:2022年浙江卷高考語文作文部分)

2022年作文材料挺接地氣的,內(nèi)容和實例都給的非常具體,就事論事正是AI所擅長的,讓大家來看看AI的800字小作文:

圖片

(圖片來源:作者與AI對話的網(wǎng)頁截圖)

通篇看下來,感覺重復詞句太多了,而且引用材料中的內(nèi)容頻率很高,不過邏輯和語句還算通順,整體看來勉勉強強可以給個及格分36分。

這樣,AI在語文浙江卷滿分150分的情況下,最終得分為8+4+28+36=76分。

**不及格!**GPT只能微笑著打出“GG了”……

那么在挑戰(zhàn)浙江卷不及格的情況下,它在試做其他的高考語文卷時,又會是何種表現(xiàn)呢?貫徹筆者本人一向嚴厲的批卷標準,并且在最后作文統(tǒng)一只給及格分的情況下,其他高考語文卷的最終成績?nèi)缦聢D匯總所示:

圖片

(圖片來源:作者)

一共試做8套試卷,不及格率高達87.5%……

朋友們千萬不要放棄學習,寄希望于以后一切用AI,現(xiàn)在大語言模型人工智能其實對于文本的“理解”還遠遜于你們,它只是擅長“記憶”和“內(nèi)容概括”而已。

堅持學習,你聰明的大腦帶給你的驚喜和回報才是最大的!

Part.4

為什么AI語文考得不理想?它的其他科目怎么樣?

在批卷的過程中,筆者發(fā)現(xiàn),像文言文斷句、根據(jù)上下文填空一類的詞,GPT基本上全對,而在現(xiàn)代文閱讀和故事里面談到細節(jié)的情感和表達、寫作技巧時,AI很難得分,而且現(xiàn)代文字越多,它在這個大題里的得分就越低,說明它很難抓住重點。

為什么會這樣呢?

因為GPT系列本身的基礎架構(gòu)Transformer就不擅長處理長序列問題,盡管OpenAI的專家們使用了稀疏型Transformer來改進對于長文本的處理,降低計算復雜度,但現(xiàn)代文字數(shù)長了,它還是沒辦法將注意力集中到關鍵的點上。特別是散文,稀疏處理意味著它看一段跳個兩三段,通篇囫圇吞棗下來,可能連故事主線講了什么都難以概括,更不要說理解作者蘊含在文中的深意了。

而文言文之所以答得比現(xiàn)代文好,是因為其本身篇幅較短,有效規(guī)避了Transformer不擅長長序列處理的缺點,且文言文一個字通常能頂白話文兩三個字,因此信息豐富度更高,這就使AI通篇都能保持對關鍵點的注意力機制,從而有著對整體內(nèi)容的更好理解。

總之,AI沒有經(jīng)過系統(tǒng)的語文學習,不了解考試答題技巧,缺少對中文拼音與語法的細節(jié)掌握,更沒有對現(xiàn)代文和古詩詞中作者所要表達情感和精神內(nèi)涵的深刻感悟。

可能有人會好奇,如果讓GTP-4挑戰(zhàn)高考的其他科目,結(jié)果會怎樣呢?筆者的測試結(jié)果是:英語最高(畢竟算它的母語);數(shù)學和物理嘛,簡單的題還可以,題目字數(shù)一長,它就開始胡編亂造了,分數(shù)都挺低的;化學,生物和文綜類的結(jié)果一般般,和語文差別不大。

Part.5

放松心情,考運昌隆

今年的高考語文已落下帷幕,在這里由衷地祝愿各位考生都能發(fā)揮應有的實力,考上理想的大學!

作為經(jīng)歷過高考的“前輩”,有句真心話送給大家,高考只是人生的一個階段性總結(jié),分數(shù)的高低并不能和以后的成敗畫等號。人生是長跑,提高自己的認知,拓寬自己的眼界,把握時代的風向,做出正確的抉擇,付出持續(xù)的努力,這才是最重要的。

最后,祝各位考運昌??!

圖片

高考必勝!

(圖片來源:圖像生成類人工智能模型Midjourney)

參考文獻:

[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)

[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)

圖片

出品:科普中國

作者:錢昱(中科院腦科學與智能技術卓越創(chuàng)新中心)

監(jiān)制:中國科普博覽

本文僅代表作者觀點,不代表中國科普博覽立場

本文首發(fā)于中國科普博覽(kepubolan)

轉(zhuǎn)載請注明公眾號出處

圖片

轉(zhuǎn)載注明出處 未經(jīng)授權不得轉(zhuǎn)載

轉(zhuǎn)載授權、合作、投稿事宜,聯(lián)系webmaster@kepu.net.cn

評論
科普dgy12345
進士級
已讀
2023-06-08
聰明的小學生
太傅級
放松心情,考試昌隆!
2023-06-08
柳海霞
學士級
已閱讀
2023-06-08