版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

又一次巨大進(jìn)步!OpenAI o1登場(chǎng),它靠什么攻克復(fù)雜問題?

中國科普博覽
原創(chuàng)
中國科協(xié)、中科院攜手“互聯(lián)網(wǎng)+科普”平臺(tái),深耕科普內(nèi)容創(chuàng)作
收藏

出品:科普中國

作者:王琛(中國科學(xué)院計(jì)算技術(shù)研究所在讀博士)

監(jiān)制:中國科普博覽

編者按:為展現(xiàn)智能科技動(dòng)態(tài),科普中國前沿科技項(xiàng)目推出“人工智能”系列文章,一窺人工智能前沿進(jìn)展,回應(yīng)種種關(guān)切與好奇。讓我們共同探究,迎接智能時(shí)代。

在過去的兩年中,OpenAI的ChatGPT引爆全球。就在大家翹首以待GPT-5的發(fā)布時(shí),9月13日凌晨,OpenAI發(fā)布了OpenAI o1,致力于解決復(fù)雜問題的新推理模型。

(圖片來源:OpenAI官網(wǎng))

從比賽排名看OpenAI o1有多強(qiáng)大

上月初,OpenAI的首席執(zhí)行官Sam Altman發(fā)布了自家花園的草莓的照片。隨后,據(jù)知情人士的消息透露,OpenAI將發(fā)布新的AI模型,內(nèi)部代號(hào)為Strawberry(草莓)。

草莓模型的前身是Q*,Q*暗示其結(jié)合了兩種著名的人工智能方法——Q-learning和A*搜索。據(jù)傳Q*過于強(qiáng)大的能力使得研究人員擔(dān)心它會(huì)對(duì)人類構(gòu)成潛在的威脅,是此前 OpenAI內(nèi)亂風(fēng)波的關(guān)鍵原因之一。

Sam Altman發(fā)布的草莓照片

(圖片來源:Sam Altman 的 X(twitter) 賬號(hào))

OpenAI發(fā)布的OpenAI o1模型正是草莓模型。由于它在復(fù)雜推理問題上取得的重要進(jìn)步,OpenAI重新從1開始計(jì)數(shù),將新模型命名為OpenAI o1。據(jù)OpenAI發(fā)布的信息,OpenAI o1可以像人類一樣,在回答問題前使用更多時(shí)間思考。因此o1模型可以通過推理在科學(xué)、編程和數(shù)學(xué)領(lǐng)域解決比先前更難的問題。

與先前OpenAI最新的模型GPT-4o相比,OpenAI o1在數(shù)學(xué)競(jìng)賽、編程競(jìng)賽,以及博士基準(zhǔn)的科學(xué)問題中取得了顯著提高,展現(xiàn)了它在復(fù)雜推理任務(wù)中的強(qiáng)大能力。它在編程競(jìng)賽 (Codeforces) 中排名89%,在美國數(shù)學(xué)奧林匹克預(yù)選賽 (AIME) 中躋身全美前500名,并且在物理、生物、化學(xué)的基準(zhǔn)問題(GPQA)上的回答準(zhǔn)確度超過了人類博士。

OpenAI o1在數(shù)學(xué)、編程、科學(xué)問題上和GPT-4o的對(duì)比

(圖片來源:OpenAI官網(wǎng))

OpenAI o1的秘密武器——基于思維鏈的強(qiáng)化學(xué)習(xí)

OpenAI o1之所以能取得遠(yuǎn)超GPT-4o的推理能力,關(guān)鍵就在于它使用了基于思維鏈(Chain of Thought)的強(qiáng)化學(xué)習(xí)。就像人類在回答一個(gè)困難問題之前可能會(huì)進(jìn)行長(zhǎng)時(shí)間思考一樣,OpenAI o1在嘗試解決問題時(shí),也會(huì)使用思維鏈。通過思維鏈,模型會(huì)將任務(wù)分解成更為簡(jiǎn)單的步驟,一步一步進(jìn)行解決,這比讓模型直接輸出問題答案通常更加準(zhǔn)確。

其實(shí)思維鏈并不是一個(gè)新的概念,早在GPT-3發(fā)布以前,科研人員已經(jīng)發(fā)現(xiàn)了思維鏈可以引導(dǎo)大語言模型進(jìn)行推理。

大語言模型使用思維鏈的示例

(圖片來源:根據(jù)參考文獻(xiàn)2翻譯)

上圖的示例有兩組大語言模型的輸入和輸出,在輸入中,首先向模型輸入了一個(gè)計(jì)算網(wǎng)球個(gè)數(shù)的問答,然后向模型提問了一個(gè)類似的問題,讓模型計(jì)算蘋果的個(gè)數(shù)。

下方左側(cè)是直接的問答,模型給出了錯(cuò)誤的回答。下方右側(cè)是使用思維鏈的問答,研究人員對(duì)向模型輸入的關(guān)于網(wǎng)球個(gè)數(shù)的問答做了補(bǔ)充,向模型展示了得到網(wǎng)球個(gè)數(shù)的推理過程,再讓模型去回答蘋果的個(gè)數(shù)。

這一次,模型正確地通過推理計(jì)算出了蘋果的個(gè)數(shù)。這樣引導(dǎo)模型生成問題的一系列中間推理步驟的方法稱為思維鏈。通過思維鏈,可以讓大語言模型在解決問題時(shí)將推理步驟詳細(xì)、直觀地展示出來,不僅提升了大語言模型在解決推理問題時(shí)的準(zhǔn)確性,也讓大語言模型的回答有了可解釋性,不再是完全的黑盒。

在GPT-3發(fā)布之后,人們進(jìn)一步發(fā)現(xiàn)了這種提示(Prompt)的重要性。對(duì)于能力較強(qiáng)的大語言模型,在提問時(shí)甚至不需要給出類似前面計(jì)算網(wǎng)球個(gè)數(shù)的示例,只需要告訴模型“讓我們一步一步思考”(Let's think step by step),就可以提升模型處理復(fù)雜推理問題的能力。

以上的嘗試都是在向模型提問時(shí)加入引導(dǎo)。如果思維鏈如此有用,是否可以在模型構(gòu)建與訓(xùn)練時(shí)就將思維鏈固化在模型內(nèi)部呢?這就是OpenAI o1做出的嘗試。

OpenAI o1的強(qiáng)化學(xué)習(xí)與新的Scaling Law(尺度定律)

GPT模型在回答問題時(shí),本質(zhì)上是在進(jìn)行“文字接龍”,它依據(jù)訓(xùn)練時(shí)大量的統(tǒng)計(jì)概率數(shù)據(jù),估計(jì)出在模型的輸入下續(xù)寫怎樣的回答是最合適的。

為了讓大語言模型學(xué)習(xí)如何使用思維鏈,而不是僅依據(jù)概率進(jìn)行續(xù)寫,OpenAI o1使用了名為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)是指模型以“試錯(cuò)”的方法進(jìn)行學(xué)習(xí),在訓(xùn)練的過程中并不告訴模型標(biāo)準(zhǔn)結(jié)果是什么,而是告訴模型它結(jié)果的好壞程度。當(dāng)模型的結(jié)果是對(duì)的時(shí),模型會(huì)在以后的輸出中傾向于采取這種結(jié)果;當(dāng)模型的結(jié)果是錯(cuò)的時(shí),它在以后的輸出中傾向于避免這種結(jié)果。在經(jīng)過多輪的試錯(cuò)以后,模型會(huì)依據(jù)自身的經(jīng)驗(yàn)學(xué)習(xí)到一套判斷標(biāo)準(zhǔn)。

強(qiáng)化學(xué)習(xí)這種不給出標(biāo)準(zhǔn)答案的學(xué)習(xí)方式適用于復(fù)雜環(huán)境下的決策問題,例如機(jī)器人控制、金融交易、棋類游戲等領(lǐng)域。在這些領(lǐng)域中,我們往往無法給出一個(gè)標(biāo)準(zhǔn)意義上的正確答案,只能得知采取一個(gè)行動(dòng)后的結(jié)果。例如,機(jī)器人是否摔倒、金融交易是否獲利,游戲是否勝利。

強(qiáng)化學(xué)習(xí)的一個(gè)著名的案例是2016年Deepmind開發(fā)的圍棋AI AlphaGo。在圍棋領(lǐng)域中,可能的局面總數(shù)甚至超過了可觀測(cè)宇宙中的原子總數(shù),即使是頂尖圍棋高手也不能判斷出任意情況下最好的下法是什么。因?yàn)閲暹^于復(fù)雜,無法通過窮舉獲得最佳的下法。在 AlphaGo出現(xiàn)以前,人們一度認(rèn)為人工智能在圍棋上不可能戰(zhàn)勝人類。

AlphaGo使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,它自己和自己下棋,并從每一局棋的勝負(fù)中學(xué)習(xí)到經(jīng)驗(yàn)。并不需要人類告訴它哪一步是對(duì)的,也不需要學(xué)習(xí)任何過往人類的棋譜,它在短短數(shù)天的訓(xùn)練后就達(dá)到了人類棋手望塵莫及的水平。

在AlphaGo決策的過程中,它首先對(duì)局面進(jìn)行大致判斷,判斷在哪里下棋更有可能使自己獲勝。這種感覺或者說直覺,通常被人類稱之為棋感。在大致判斷出在哪里下棋更可能有利后,AlphaGo對(duì)這些不同下法的后續(xù)可能性進(jìn)行進(jìn)一步計(jì)算,并從中選擇最佳的下法。

因此,AlphaGo的實(shí)力主要有兩個(gè)影響因素,包括對(duì)局面進(jìn)行判斷的能力和對(duì)可能下法進(jìn)行計(jì)算的計(jì)算量。其中,模型的強(qiáng)化學(xué)習(xí)過程可以提升模型對(duì)局面進(jìn)行判斷的能力。

AlphaGo的自我對(duì)弈

(圖片來源:參考文獻(xiàn)1)

在OpenAI o1的訓(xùn)練中,通過強(qiáng)化學(xué)習(xí),OpenAI o1學(xué)會(huì)磨煉其思維鏈并完善其使用的策略,它學(xué)會(huì)將困難的問題分解為更簡(jiǎn)單的步驟,在分析過程中認(rèn)識(shí)并糾正錯(cuò)誤。這個(gè)過程極大地提高了模型的推理能力。

在學(xué)會(huì)了使用思維鏈之后,OpenAI o1的輸入不再需要人為引導(dǎo)它使用思維鏈。相反,OpenAI建議在使用OpenAI o1時(shí)保持提示的簡(jiǎn)單和直接,并避免使用思維鏈提示。

研究人員在對(duì)OpenAI o1的測(cè)試中發(fā)現(xiàn),增加強(qiáng)化學(xué)習(xí)訓(xùn)練的時(shí)間和在推理時(shí)增加更多的思考時(shí)間都可以讓模型的性能得到改善,這和前面提到的AlphaGo的實(shí)力的影響因素相一致。

OpenAI o1的Scaling Law

(圖片來源:OpenAI)

OpenAI 的研究人員在2020年發(fā)現(xiàn)了大語言模型的Scaling Law(尺度定律),大語言模型的性能會(huì)隨著模型大小、訓(xùn)練集大小、訓(xùn)練時(shí)的計(jì)算量的增加而增加。

OpenAI o1展現(xiàn)了新的Scaling Law,在提升模型性能方面,它還可以通過增加推理時(shí)間使得模型獲得更強(qiáng)的性能,這為未來大語言模型進(jìn)一步發(fā)展提供了新的可能。

OpenAI o1系列目前包含三個(gè)模型,o1,o1-preview,o1-mini。它們的模型大小不同,o1最大并且擁有最強(qiáng)的推理能力,o1-mini最小但在使用時(shí)消耗較小的成本。它們?cè)跀?shù)學(xué)競(jìng)賽上的表現(xiàn)如下圖所示,o1-mini在數(shù)學(xué)競(jìng)賽上的表現(xiàn)甚至強(qiáng)于o1-preview,但它在其他需要非STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))知識(shí)的任務(wù)上會(huì)表現(xiàn)較差。同時(shí),隨著推理時(shí)間的增加,三個(gè)模型的表現(xiàn)都會(huì)有所提升。

OpenAI o1不同版本的模型在數(shù)學(xué)競(jìng)賽上的表現(xiàn)

(圖片來源:OpenAI)

OpenAI o1會(huì)帶來更多安全問題嗎?

OpenAI o1模型的突破,無疑更進(jìn)一步提升了大語言模型的能力。OpenAI曾提出構(gòu)建通用人工智能(AGI)的五個(gè)階段,第一階段是實(shí)現(xiàn)可以和人交流的人工智能,第二階段是實(shí)現(xiàn)具有推理能力的人工智能。ChatGPT達(dá)到了第一階段的目標(biāo),而OpenAI o1的出現(xiàn)使得我們離第二階段更近了一步。

在OpenAI o1展現(xiàn)出強(qiáng)大推理能力的同時(shí),正如研究人員對(duì)Q*的擔(dān)心,人們不禁想問OpenAI o1是否會(huì)帶來更多的安全性問題。

OpenAI的報(bào)道中指出,思維鏈為提升模型的安全性提供了新的機(jī)會(huì)。在訓(xùn)練過程中,可以把人類的價(jià)值觀集成進(jìn)模型的思維鏈之中,讓模型拒絕執(zhí)行有害的行為。同時(shí),思維鏈可以讓我們以清晰的方式觀察模型的思維,從而增強(qiáng)模型的安全性。

未來,也許超乎想象

目前,OpenAI o1的preview版本和mini版本已經(jīng)開放給用戶使用,隨后也將添加瀏覽、文件和圖像上傳等實(shí)用的功能。它在真實(shí)的場(chǎng)景中的效果如何有待大家進(jìn)一步地體驗(yàn)和測(cè)試??偠灾琌penAI o1在推理能力上的重要進(jìn)步,或許意味著我們離通用人工智能更近了一步。未來人工智能將會(huì)走向何處,能否為造福人類社會(huì)帶來更大的貢獻(xiàn),讓我們繼續(xù)保持期待。

參考文獻(xiàn):

1.Silver, D., Schrittwieser, J., Simonyan, K. et al. Mastering the game of Go without human knowledge. Nature 550, 354–359 (2017). https://doi.org/10.1038/nature24270

2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
新風(fēng)科普????
學(xué)士級(jí)
OpenAI的o1模型,就像給AI吃了“智慧果”,讓它從簡(jiǎn)單問答跳到了深度思考。這不僅刷新了復(fù)雜問題解決的紀(jì)錄,更是在AI進(jìn)化樹上畫下了濃墨重彩的一筆。
2024-09-24
科普62676e0a3b983
少傅級(jí)
OpenAI o1在推理能力上的重要進(jìn)步,或許意味著我們離通用人工智能更近了一步,相信未來人工智能會(huì)為人類做出更大貢獻(xiàn)。
2024-09-24
新風(fēng)科普????
學(xué)士級(jí)
OpenAI的o1模型,就像是給AI配上了超級(jí)大腦,讓它在數(shù)學(xué)和編程等領(lǐng)域的復(fù)雜問題上一騎絕塵,展現(xiàn)出了超越以往模型的強(qiáng)大推理能力 。而它的秘訣,就在于采用了基于思維鏈的強(qiáng)化學(xué)習(xí)方法,讓模型在學(xué)習(xí)過程中不斷試錯(cuò)、自我修正,最終達(dá)到解決問題的目的。
2024-09-24