伊人99,天天看高清无码一区二区三区

出品：科普中國

作者：王琛（中國科學(xué)院計(jì)算技術(shù)研究所在讀博士）

監(jiān)制：中國科普博覽

編者按：為展現(xiàn)智能科技動(dòng)態(tài)，科普中國前沿科技項(xiàng)目推出“人工智能”系列文章，一窺人工智能前沿進(jìn)展，回應(yīng)種種關(guān)切與好奇。讓我們共同探究，迎接智能時(shí)代。

在過去的兩年中，OpenAI的ChatGPT引爆全球。就在大家翹首以待GPT-5的發(fā)布時(shí)，9月13日凌晨，OpenAI發(fā)布了OpenAI o1，致力于解決復(fù)雜問題的新推理模型。

（圖片來源：OpenAI官網(wǎng)）

從比賽排名看OpenAI o1有多強(qiáng)大

上月初，OpenAI的首席執(zhí)行官Sam Altman發(fā)布了自家花園的草莓的照片。隨后，據(jù)知情人士的消息透露，OpenAI將發(fā)布新的AI模型，內(nèi)部代號(hào)為Strawberry（草莓）。

草莓模型的前身是Q*，Q*暗示其結(jié)合了兩種著名的人工智能方法——Q-learning和A*搜索。據(jù)傳Q*過于強(qiáng)大的能力使得研究人員擔(dān)心它會(huì)對(duì)人類構(gòu)成潛在的威脅，是此前 OpenAI內(nèi)亂風(fēng)波的關(guān)鍵原因之一。

Sam Altman發(fā)布的草莓照片

（圖片來源：Sam Altman 的 X(twitter) 賬號(hào)）

OpenAI發(fā)布的OpenAI o1模型正是草莓模型。由于它在復(fù)雜推理問題上取得的重要進(jìn)步，OpenAI重新從1開始計(jì)數(shù)，將新模型命名為OpenAI o1。據(jù)OpenAI發(fā)布的信息，OpenAI o1可以像人類一樣，在回答問題前使用更多時(shí)間思考。因此o1模型可以通過推理在科學(xué)、編程和數(shù)學(xué)領(lǐng)域解決比先前更難的問題。

與先前OpenAI最新的模型GPT-4o相比，OpenAI o1在數(shù)學(xué)競(jìng)賽、編程競(jìng)賽，以及博士基準(zhǔn)的科學(xué)問題中取得了顯著提高，展現(xiàn)了它在復(fù)雜推理任務(wù)中的強(qiáng)大能力。它在編程競(jìng)賽 (Codeforces) 中排名89%，在美國數(shù)學(xué)奧林匹克預(yù)選賽 (AIME) 中躋身全美前500名，并且在物理、生物、化學(xué)的基準(zhǔn)問題（GPQA）上的回答準(zhǔn)確度超過了人類博士。

OpenAI o1在數(shù)學(xué)、編程、科學(xué)問題上和GPT-4o的對(duì)比

（圖片來源：OpenAI官網(wǎng)）

OpenAI o1的秘密武器——基于思維鏈的強(qiáng)化學(xué)習(xí)

OpenAI o1之所以能取得遠(yuǎn)超GPT-4o的推理能力，關(guān)鍵就在于它使用了基于思維鏈（Chain of Thought）的強(qiáng)化學(xué)習(xí)。就像人類在回答一個(gè)困難問題之前可能會(huì)進(jìn)行長(zhǎng)時(shí)間思考一樣，OpenAI o1在嘗試解決問題時(shí)，也會(huì)使用思維鏈。通過思維鏈，模型會(huì)將任務(wù)分解成更為簡(jiǎn)單的步驟，一步一步進(jìn)行解決，這比讓模型直接輸出問題答案通常更加準(zhǔn)確。

其實(shí)思維鏈并不是一個(gè)新的概念，早在GPT-3發(fā)布以前，科研人員已經(jīng)發(fā)現(xiàn)了思維鏈可以引導(dǎo)大語言模型進(jìn)行推理。

大語言模型使用思維鏈的示例

（圖片來源：根據(jù)參考文獻(xiàn)2翻譯）

上圖的示例有兩組大語言模型的輸入和輸出，在輸入中，首先向模型輸入了一個(gè)計(jì)算網(wǎng)球個(gè)數(shù)的問答，然后向模型提問了一個(gè)類似的問題，讓模型計(jì)算蘋果的個(gè)數(shù)。

下方左側(cè)是直接的問答，模型給出了錯(cuò)誤的回答。下方右側(cè)是使用思維鏈的問答，研究人員對(duì)向模型輸入的關(guān)于網(wǎng)球個(gè)數(shù)的問答做了補(bǔ)充，向模型展示了得到網(wǎng)球個(gè)數(shù)的推理過程，再讓模型去回答蘋果的個(gè)數(shù)。

這一次，模型正確地通過推理計(jì)算出了蘋果的個(gè)數(shù)。這樣引導(dǎo)模型生成問題的一系列中間推理步驟的方法稱為思維鏈。通過思維鏈，可以讓大語言模型在解決問題時(shí)將推理步驟詳細(xì)、直觀地展示出來，不僅提升了大語言模型在解決推理問題時(shí)的準(zhǔn)確性，也讓大語言模型的回答有了可解釋性，不再是完全的黑盒。

在GPT-3發(fā)布之后，人們進(jìn)一步發(fā)現(xiàn)了這種提示（Prompt）的重要性。對(duì)于能力較強(qiáng)的大語言模型，在提問時(shí)甚至不需要給出類似前面計(jì)算網(wǎng)球個(gè)數(shù)的示例，只需要告訴模型“讓我們一步一步思考”(Let's think step by step)，就可以提升模型處理復(fù)雜推理問題的能力。

以上的嘗試都是在向模型提問時(shí)加入引導(dǎo)。如果思維鏈如此有用，是否可以在模型構(gòu)建與訓(xùn)練時(shí)就將思維鏈固化在模型內(nèi)部呢？這就是OpenAI o1做出的嘗試。

OpenAI o1的強(qiáng)化學(xué)習(xí)與新的Scaling Law（尺度定律）

GPT模型在回答問題時(shí)，本質(zhì)上是在進(jìn)行“文字接龍”，它依據(jù)訓(xùn)練時(shí)大量的統(tǒng)計(jì)概率數(shù)據(jù)，估計(jì)出在模型的輸入下續(xù)寫怎樣的回答是最合適的。

為了讓大語言模型學(xué)習(xí)如何使用思維鏈，而不是僅依據(jù)概率進(jìn)行續(xù)寫，OpenAI o1使用了名為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)是指模型以“試錯(cuò)”的方法進(jìn)行學(xué)習(xí)，在訓(xùn)練的過程中并不告訴模型標(biāo)準(zhǔn)結(jié)果是什么，而是告訴模型它結(jié)果的好壞程度。當(dāng)模型的結(jié)果是對(duì)的時(shí)，模型會(huì)在以后的輸出中傾向于采取這種結(jié)果；當(dāng)模型的結(jié)果是錯(cuò)的時(shí)，它在以后的輸出中傾向于避免這種結(jié)果。在經(jīng)過多輪的試錯(cuò)以后，模型會(huì)依據(jù)自身的經(jīng)驗(yàn)學(xué)習(xí)到一套判斷標(biāo)準(zhǔn)。

強(qiáng)化學(xué)習(xí)這種不給出標(biāo)準(zhǔn)答案的學(xué)習(xí)方式適用于復(fù)雜環(huán)境下的決策問題，例如機(jī)器人控制、金融交易、棋類游戲等領(lǐng)域。在這些領(lǐng)域中，我們往往無法給出一個(gè)標(biāo)準(zhǔn)意義上的正確答案，只能得知采取一個(gè)行動(dòng)后的結(jié)果。例如，機(jī)器人是否摔倒、金融交易是否獲利，游戲是否勝利。

強(qiáng)化學(xué)習(xí)的一個(gè)著名的案例是2016年Deepmind開發(fā)的圍棋AI AlphaGo。在圍棋領(lǐng)域中，可能的局面總數(shù)甚至超過了可觀測(cè)宇宙中的原子總數(shù)，即使是頂尖圍棋高手也不能判斷出任意情況下最好的下法是什么。因?yàn)閲暹^于復(fù)雜，無法通過窮舉獲得最佳的下法。在 AlphaGo出現(xiàn)以前，人們一度認(rèn)為人工智能在圍棋上不可能戰(zhàn)勝人類。

AlphaGo使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，它自己和自己下棋，并從每一局棋的勝負(fù)中學(xué)習(xí)到經(jīng)驗(yàn)。并不需要人類告訴它哪一步是對(duì)的，也不需要學(xué)習(xí)任何過往人類的棋譜，它在短短數(shù)天的訓(xùn)練后就達(dá)到了人類棋手望塵莫及的水平。

在AlphaGo決策的過程中，它首先對(duì)局面進(jìn)行大致判斷，判斷在哪里下棋更有可能使自己獲勝。這種感覺或者說直覺，通常被人類稱之為棋感。在大致判斷出在哪里下棋更可能有利后，AlphaGo對(duì)這些不同下法的后續(xù)可能性進(jìn)行進(jìn)一步計(jì)算，并從中選擇最佳的下法。

因此，AlphaGo的實(shí)力主要有兩個(gè)影響因素，包括對(duì)局面進(jìn)行判斷的能力和對(duì)可能下法進(jìn)行計(jì)算的計(jì)算量。其中，模型的強(qiáng)化學(xué)習(xí)過程可以提升模型對(duì)局面進(jìn)行判斷的能力。

AlphaGo的自我對(duì)弈

（圖片來源：參考文獻(xiàn)1）

在OpenAI o1的訓(xùn)練中，通過強(qiáng)化學(xué)習(xí)，OpenAI o1學(xué)會(huì)磨煉其思維鏈并完善其使用的策略，它學(xué)會(huì)將困難的問題分解為更簡(jiǎn)單的步驟，在分析過程中認(rèn)識(shí)并糾正錯(cuò)誤。這個(gè)過程極大地提高了模型的推理能力。

在學(xué)會(huì)了使用思維鏈之后，OpenAI o1的輸入不再需要人為引導(dǎo)它使用思維鏈。相反，OpenAI建議在使用OpenAI o1時(shí)保持提示的簡(jiǎn)單和直接，并避免使用思維鏈提示。

研究人員在對(duì)OpenAI o1的測(cè)試中發(fā)現(xiàn)，增加強(qiáng)化學(xué)習(xí)訓(xùn)練的時(shí)間和在推理時(shí)增加更多的思考時(shí)間都可以讓模型的性能得到改善，這和前面提到的AlphaGo的實(shí)力的影響因素相一致。

OpenAI o1的Scaling Law

（圖片來源：OpenAI）

OpenAI 的研究人員在2020年發(fā)現(xiàn)了大語言模型的Scaling Law（尺度定律），大語言模型的性能會(huì)隨著模型大小、訓(xùn)練集大小、訓(xùn)練時(shí)的計(jì)算量的增加而增加。

OpenAI o1展現(xiàn)了新的Scaling Law，在提升模型性能方面，它還可以通過增加推理時(shí)間使得模型獲得更強(qiáng)的性能，這為未來大語言模型進(jìn)一步發(fā)展提供了新的可能。

OpenAI o1系列目前包含三個(gè)模型，o1，o1-preview，o1-mini。它們的模型大小不同，o1最大并且擁有最強(qiáng)的推理能力，o1-mini最小但在使用時(shí)消耗較小的成本。它們?cè)跀?shù)學(xué)競(jìng)賽上的表現(xiàn)如下圖所示，o1-mini在數(shù)學(xué)競(jìng)賽上的表現(xiàn)甚至強(qiáng)于o1-preview，但它在其他需要非STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）知識(shí)的任務(wù)上會(huì)表現(xiàn)較差。同時(shí)，隨著推理時(shí)間的增加，三個(gè)模型的表現(xiàn)都會(huì)有所提升。

OpenAI o1不同版本的模型在數(shù)學(xué)競(jìng)賽上的表現(xiàn)

（圖片來源：OpenAI）

OpenAI o1會(huì)帶來更多安全問題嗎？

OpenAI o1模型的突破，無疑更進(jìn)一步提升了大語言模型的能力。OpenAI曾提出構(gòu)建通用人工智能（AGI）的五個(gè)階段，第一階段是實(shí)現(xiàn)可以和人交流的人工智能，第二階段是實(shí)現(xiàn)具有推理能力的人工智能。ChatGPT達(dá)到了第一階段的目標(biāo)，而OpenAI o1的出現(xiàn)使得我們離第二階段更近了一步。

在OpenAI o1展現(xiàn)出強(qiáng)大推理能力的同時(shí)，正如研究人員對(duì)Q*的擔(dān)心，人們不禁想問OpenAI o1是否會(huì)帶來更多的安全性問題。

OpenAI的報(bào)道中指出，思維鏈為提升模型的安全性提供了新的機(jī)會(huì)。在訓(xùn)練過程中，可以把人類的價(jià)值觀集成進(jìn)模型的思維鏈之中，讓模型拒絕執(zhí)行有害的行為。同時(shí)，思維鏈可以讓我們以清晰的方式觀察模型的思維，從而增強(qiáng)模型的安全性。

未來，也許超乎想象

目前，OpenAI o1的preview版本和mini版本已經(jīng)開放給用戶使用，隨后也將添加瀏覽、文件和圖像上傳等實(shí)用的功能。它在真實(shí)的場(chǎng)景中的效果如何有待大家進(jìn)一步地體驗(yàn)和測(cè)試?？偠灾琌penAI o1在推理能力上的重要進(jìn)步，或許意味著我們離通用人工智能更近了一步。未來人工智能將會(huì)走向何處，能否為造福人類社會(huì)帶來更大的貢獻(xiàn)，讓我們繼續(xù)保持期待。

參考文獻(xiàn)：

1.Silver, D., Schrittwieser, J., Simonyan, K. et al. Mastering the game of Go without human knowledge. Nature 550, 354–359 (2017). https://doi.org/10.1038/nature24270

2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

又一次巨大進(jìn)步！OpenAI o1登場(chǎng)，它靠什么攻克復(fù)雜問題？

又一次巨大進(jìn)步！OpenAI o1登場(chǎng)，它靠什么攻克復(fù)雜問題？