智能體(AI Agent)是一種能夠自主行動(dòng)、感知環(huán)境、做出決策并與環(huán)境交互的計(jì)算機(jī)系統(tǒng)或?qū)嶓w,通常依賴大型語(yǔ)言模型作為其核心決策和處理單元,具備獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。作為未來(lái)大模型最主流的使用方式,智能體備受業(yè)界關(guān)注。2024年智能體技術(shù)被納入《國(guó)家人工智能產(chǎn)業(yè)綜合標(biāo)準(zhǔn)化體系建設(shè)指南(征求意見(jiàn)稿)》,在標(biāo)準(zhǔn)引領(lǐng)下未來(lái)智能體技術(shù)將高質(zhì)量發(fā)展并助推大模型加速賦能千行百業(yè)。本文通過(guò)闡述智能體技術(shù)、應(yīng)用現(xiàn)狀及產(chǎn)品演進(jìn),分析了智能體技術(shù)未來(lái)發(fā)展方向和面臨的挑戰(zhàn)。
1、智能體技術(shù)
1.1 智能體工作原理
大腦(Brain):大腦主要由一個(gè)大型語(yǔ)言模型LLM組成,不僅存儲(chǔ)知識(shí)和記憶,還承擔(dān)著信息處理和決策等功能,并可以呈現(xiàn)推理和規(guī)劃的過(guò)程,能很好地應(yīng)對(duì)未知任務(wù)。感知(Perception):感知模塊的核心目的是將智能體的感知空間從純文字領(lǐng)域擴(kuò)展到包括文字、聽(tīng)覺(jué)和視覺(jué)模式在內(nèi)的多模態(tài)領(lǐng)域。
行動(dòng)(Action):在智能體的構(gòu)建過(guò)程中,行動(dòng)模塊接收大腦模塊發(fā)送的行動(dòng)序列,并執(zhí)行與環(huán)境互動(dòng)的行動(dòng)。
1.2 智能體技術(shù)特點(diǎn)
大模型通常通過(guò)Prompt(提示)與用戶進(jìn)行交互,輸出效果受限于用戶提問(wèn)的清晰度。信息處理方面,僅處理靜態(tài)或流式數(shù)據(jù)輸入,不涉及直接的環(huán)境交互,不能自主地采取行動(dòng)。技術(shù)應(yīng)用方面,行業(yè)知識(shí)缺乏、易出現(xiàn)幻覺(jué)、提示詞工程學(xué)習(xí)門檻高成為大模型破圈的阻礙。而基于大模型的智能體,其設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)對(duì)環(huán)境的有效互動(dòng),通過(guò)感知模塊收集環(huán)境信息,并通過(guò)行動(dòng)模塊來(lái)改變環(huán)境狀態(tài),整合了感知、決策、行動(dòng)等多個(gè)環(huán)節(jié),因而智能體在自主能力、決策能力、協(xié)作交互等方面展現(xiàn)出優(yōu)勢(shì),彌補(bǔ)了大模型的不足,成為人工智能界的“行動(dòng)派”。
2、智能體技術(shù)應(yīng)用
根據(jù)面向的對(duì)象、流程不同,智能體主要應(yīng)用在三種場(chǎng)景:
2.1 單智能體應(yīng)用
一個(gè)特定的環(huán)境中,僅有一個(gè)智能體進(jìn)行感知、學(xué)習(xí)和行動(dòng),需要獨(dú)立地與環(huán)境進(jìn)行交互,并根據(jù)環(huán)境的反饋來(lái)優(yōu)化其行為策略,以實(shí)現(xiàn)預(yù)設(shè)的目標(biāo)??蓱?yīng)用在交互性質(zhì)場(chǎng)景,如游戲AI(如圍棋、電子游戲等)、自動(dòng)駕駛汽車、機(jī)器人控制等。單智能體系統(tǒng)的復(fù)雜性相對(duì)較低,某些任務(wù)中更容易實(shí)現(xiàn)和部署。
2.2 多智能體系統(tǒng)
由多個(gè)智能體(軟件程序、機(jī)器人或其他具有自治性的實(shí)體)組成的復(fù)雜的分布式系統(tǒng),每個(gè)智能體都具有自己的感知、決策和行動(dòng)能力,并且可以與其他智能體進(jìn)行通信、信息共享、交互和協(xié)作,以實(shí)現(xiàn)共同的目標(biāo)或任務(wù)。通常后端設(shè)定不同角色的智能體,前端通過(guò)對(duì)話鏈協(xié)同工作,能夠完成單個(gè)智能體難以完成或無(wú)法完成的任務(wù),具有更高的靈活性、可擴(kuò)展性和魯棒性??蓱?yīng)用在分布式控制、智能交通、智能制造、自然語(yǔ)言處理等領(lǐng)域。
2.3 智能體平臺(tái)
構(gòu)建智能體系統(tǒng)的集成化平臺(tái),用戶在平臺(tái)上定義并部署各類智能體,平臺(tái)通過(guò)策略性流程,優(yōu)化智能體組合以適應(yīng)特定任務(wù)需求,各智能體可扮演不同專業(yè)角色,在任務(wù)協(xié)商和角色分配后,協(xié)同執(zhí)行任務(wù)并完成結(jié)果整合。適用于智能體開(kāi)發(fā)、企業(yè)定制化解決方案場(chǎng)景。
3、智能體產(chǎn)品演進(jìn)從時(shí)間維度智能體主流產(chǎn)品的演進(jìn)大致可劃分為三個(gè)階段:
3.1 構(gòu)建智能體框架階段
內(nèi)2023年3月AutoGPT框架項(xiàng)目發(fā)布,包括需求下發(fā)、自主運(yùn)行、結(jié)果輸出三個(gè)核心模塊。功能上主要是通過(guò)Prompt向ChatGPT下發(fā)任務(wù),ChatGPT通過(guò)大模型對(duì)語(yǔ)義內(nèi)容理解,輸出詳細(xì)的解決方案,經(jīng)過(guò)邏輯判斷選擇優(yōu)先執(zhí)行的步驟,生成可執(zhí)行的操作或指令,并調(diào)用外部資源或工具完成指令操作。AutoGPT框架把大模型的自然語(yǔ)言理解、內(nèi)容生成、邏輯推理等核心能力外推到具體場(chǎng)景,輔以感知與行動(dòng)技術(shù),有端到端解決問(wèn)題的潛力,被認(rèn)為是大模型落地的重要模式。
3.2 GPTs智能體雛形階段
2023年11月OpenAI推出Assistant API,后續(xù)發(fā)布GPTs服務(wù),允許用戶構(gòu)建個(gè)人自定義GPT助手,無(wú)需編碼,用戶通過(guò)上傳個(gè)人數(shù)據(jù)以及自定義訓(xùn)練,能實(shí)現(xiàn)垂類模型的快速搭建,大幅度降低AI應(yīng)用的創(chuàng)作門檻,進(jìn)一步推高智能體的熱潮。
3.3 個(gè)人智能體孵化階段
2023年12月聯(lián)想公布了個(gè)人智能體“小樂(lè)同學(xué)”的進(jìn)展。個(gè)人智能體,基于內(nèi)嵌于終端的本地大模型打造,精準(zhǔn)理解用戶意圖,并將意圖轉(zhuǎn)換為相應(yīng)的任務(wù)組合,分解任務(wù)并識(shí)別任務(wù)完成的路徑,通過(guò)查詢本地知識(shí)庫(kù)、調(diào)用設(shè)備API以及合適的模型或應(yīng)用來(lái)執(zhí)行相應(yīng)的任務(wù),并將相應(yīng)的結(jié)果返回給智能體,智能體完成整合后反饋給用戶。與云端模型能力相比,整個(gè)過(guò)程完全不用上云,不侵犯用戶個(gè)人隱私,并對(duì)硬件有很強(qiáng)的控制能力。
4、發(fā)展方向和面臨的挑戰(zhàn)
在不久的將來(lái),智能體將成為AI OS系統(tǒng)的最小工作單元,嵌入自主智能體的軟件極有可能改變現(xiàn)有的使用方式,從用戶適應(yīng)軟件變成軟件適應(yīng)用戶習(xí)慣,真正成為個(gè)人助理。進(jìn)而系統(tǒng)級(jí)別的智能體有望直接操作App或者子智能體,在PC、手機(jī)、自動(dòng)駕駛領(lǐng)域預(yù)計(jì)有廣泛的應(yīng)用場(chǎng)景。盡管大語(yǔ)言模型智能體已經(jīng)取得了重要的進(jìn)展,但是在實(shí)際應(yīng)用中仍然面臨安全、倫理、計(jì)算資源消耗、復(fù)雜工具使用、多智能體交互機(jī)制、模型適配方法、面向真實(shí)世界的智能體模擬等一系列技術(shù)挑戰(zhàn)。
【參考文獻(xiàn)】
[1] 《國(guó)家人工智能產(chǎn)業(yè)綜合標(biāo)準(zhǔn)化體系建設(shè)指南(征求意見(jiàn)稿)》, 工信部,2024
[2] 《2023年人工智能體(AI Agent)開(kāi)發(fā)與應(yīng)用全面調(diào)研:概念、原理、開(kāi)發(fā)、應(yīng)用、挑戰(zhàn)、展望》,AI前沿,2023
[3] 《什么是Agent智能體?Agent智能體和大模型有什么區(qū)別?|商派》,商派,2024,https://www.shopex.cn/news/archives/17685.html
[4] 《成果|大模型驅(qū)動(dòng)的自主智能體與群體智能》,AIGC最前線,2024
[5] 《單智能體(Single Agent)是指什么》,行業(yè)百科,2024
[6] 《多智能體系統(tǒng)是指什么》,行業(yè)百科,2024
[7] 《AI Agent發(fā)展現(xiàn)狀、行業(yè)結(jié)構(gòu)與趨勢(shì)分析》,天翼智庫(kù),2024
[8] 《AutoGPT:自動(dòng)化GPT原理及應(yīng)用實(shí)踐》,學(xué)習(xí)猿地,2023
[9] 《AI 時(shí)代,為什么「智能體」將成為第一入口》,極客公園,2024
[10] 《2023年度十大前沿科技趨勢(shì)報(bào)告》,量子位智庫(kù),2023
[11] 《大語(yǔ)言模型》,AIBOX,2024
作者:高靜
單位:中國(guó)移動(dòng)研究院業(yè)務(wù)研究所