版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

大語(yǔ)言模型

百度百科
原創(chuàng)
全球最大中文百科全書(shū)
收藏

大語(yǔ)言模型(英語(yǔ):Large Language Model,簡(jiǎn)稱LLM)是指使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,使得該模型可以生成自然語(yǔ)言文本或理解語(yǔ)言文本的含義。這些模型可以通過(guò)在龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)提供有關(guān)各種主題的深入知識(shí)和語(yǔ)言生產(chǎn)1。其核心思想是通過(guò)大規(guī)模的無(wú)監(jiān)督訓(xùn)練學(xué)習(xí)自然語(yǔ)言的模式和結(jié)構(gòu),在一定程度上模擬人類的語(yǔ)言認(rèn)知和生成過(guò)程。

LLM在多種應(yīng)用場(chǎng)景下表現(xiàn)出色,不僅能執(zhí)行拼寫(xiě)檢查和語(yǔ)法修正等簡(jiǎn)單的語(yǔ)言任務(wù),還能處理文本摘要、機(jī)器翻譯、情感分析、對(duì)話生成和內(nèi)容推薦等復(fù)雜任務(wù)。通過(guò)在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,大語(yǔ)言模型獲得了強(qiáng)大的通用建模能力和泛化能力。近期,GPT-4和LLaMA等大語(yǔ)言模型在自然語(yǔ)言處理等領(lǐng)域取得了巨大的成功,并逐步應(yīng)用于金融、醫(yī)療和教育等特定領(lǐng)域2。

2023年12月26日,大語(yǔ)言模型入選“2023年度十大科技名詞”3。2024年4月,在第27屆聯(lián)合國(guó)科技大會(huì)上,世界數(shù)字技術(shù)院發(fā)布了《生成式人工智能應(yīng)用安全測(cè)試標(biāo)準(zhǔn)》和《大語(yǔ)言模型安全測(cè)試方法》兩項(xiàng)國(guó)際標(biāo)準(zhǔn),由OpenAI、螞蟻集團(tuán)、科大訊飛、谷歌、微軟、英偉達(dá)、百度、騰訊等數(shù)十家單位多名專家學(xué)者共同編制而成4。

定義

大語(yǔ)言模型(英語(yǔ):Large Language Model,簡(jiǎn)稱LLM)是一種基于深度學(xué)習(xí)的人工智能技術(shù),也是自然語(yǔ)言處理的核心研究?jī)?nèi)容之一6。其核心是使用大規(guī)模數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,從而使其能夠生成自然語(yǔ)言文本或理解語(yǔ)言文本的含義。這些模型通過(guò)層疊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)并模擬人類語(yǔ)言的復(fù)雜規(guī)律,達(dá)到接近人類水平的文本生成能力。大語(yǔ)言模型采用與小模型類似的Transformer架構(gòu)和預(yù)訓(xùn)練目標(biāo)(如 Language Modeling),與小模型的主要區(qū)別在于增加模型大小、訓(xùn)練數(shù)據(jù)和計(jì)算資源。相比傳統(tǒng)的自然語(yǔ)言處理(Netural Language Processing, NLP)模型,大語(yǔ)言模型能夠更好地理解和生成自然文本,同時(shí)表現(xiàn)出一定的邏輯思維和推理能力。

發(fā)展歷史

技術(shù)起源

大語(yǔ)言模型的起源可以追溯到20世紀(jì)50年代,當(dāng)時(shí)人工智能領(lǐng)域的先驅(qū)們開(kāi)始探索如何讓計(jì)算機(jī)理解和生成人類語(yǔ)言。20世紀(jì)70年代由賈里尼克提出的N-gram語(yǔ)言模型是最常用的統(tǒng)計(jì)語(yǔ)言模型之一,廣泛用于當(dāng)今的多種自然語(yǔ)言處理系統(tǒng)中10。N-gram模型將文本序列劃分為長(zhǎng)度為N的連續(xù)詞組(N-gram),并利用大量語(yǔ)料庫(kù)訓(xùn)練模型,以預(yù)測(cè)給定N-gram的后續(xù)詞。N-gram模型雖然是一種有效的語(yǔ)言建模技術(shù),但是存在著一些局限性,如數(shù)據(jù)稀疏性、計(jì)算復(fù)雜性和語(yǔ)言模型的可擴(kuò)展性等?;贜-gram語(yǔ)言模型的不足,人們開(kāi)始嘗試用神經(jīng)網(wǎng)絡(luò)來(lái)建立語(yǔ)言模型。

發(fā)展歷程

雛形階段

20世紀(jì)40年代末和50年代開(kāi)始采用計(jì)算機(jī)技術(shù)來(lái)研究和處理自然語(yǔ)言。1950年,圖靈測(cè)試誕生。1954年,美國(guó)人喬治·戴沃爾設(shè)計(jì)出第一臺(tái)可編程機(jī)器人。1956年,美國(guó)達(dá)特茅斯學(xué)院舉行歷史上第一次人工智能研討會(huì),標(biāo)志人工智能誕生。

1966年,世界上第一個(gè)聊天機(jī)器人--ELIZA,由美國(guó)麻省理工學(xué)院(MIT)約瑟夫·魏岑鮑姆發(fā)布。ELIZA能通過(guò)腳本理解簡(jiǎn)單的自然語(yǔ)言,并能產(chǎn)生類似人類的互動(dòng)。

1975年,F(xiàn)rederick Jelinek等人在論文《Continuous Speech Recognition by Statistical Methods》中提出并應(yīng)用N-gram模型于語(yǔ)音識(shí)別任務(wù)。之后隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了神經(jīng)語(yǔ)言模型。

2010年,斯坦福大學(xué)推出Core NLP套件,該套件提供了一套工具和算法,幫助研究人員處理復(fù)雜的NLP任務(wù),允許開(kāi)發(fā)人員執(zhí)行情感分析和命名實(shí)體識(shí)別。

2011年,出現(xiàn)了一個(gè)較小版本的Google Brain,具有單詞嵌入等高級(jí)功能,使自然語(yǔ)言處理系統(tǒng)能夠更清楚地理解上下文。

2013年,自然語(yǔ)言處理模型Word2Vec誕生,首次提出將單詞轉(zhuǎn)換為向量的“詞向量模型”,以便計(jì)算機(jī)更好理解和處理文本數(shù)據(jù)。

GPT模型問(wèn)世

2017年,Google發(fā)布論文《Attention is all you need》,提出Attention機(jī)制和基于此機(jī)制的Transformer架構(gòu)。此架構(gòu)價(jià)值在于是一種完全基于注意力機(jī)制的序列轉(zhuǎn)換模型,而不依賴循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)或者長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)。

2018年,Google AI研究院的Jacob Devlin等人提出了BERT(Bidirectional Encoder Representation from Transformers), BERT利用掩碼機(jī)制構(gòu)造基于上下文預(yù)測(cè)中間詞的預(yù)訓(xùn)練任務(wù),很大程度上提高自然語(yǔ)言處理任務(wù)的性能。BERT出現(xiàn)具有重大意義,尤其是預(yù)訓(xùn)練+參數(shù)微調(diào)”的研究范式,此后出現(xiàn)更多預(yù)訓(xùn)練語(yǔ)言模型都是以該范式為基礎(chǔ);同年,OpenAI公司同樣發(fā)布了自己的模型GPT(Generative Pre-Training),這是一個(gè)典型的生成式預(yù)訓(xùn)練模型。

2019年,OpenAI發(fā)布GPT-2,該模型可以不用根據(jù)下游任務(wù)數(shù)據(jù)進(jìn)行參數(shù)優(yōu)化,可以根據(jù)給定指令自行理解并完成任務(wù)。

2020年,OpenAI發(fā)布GPT-3,并在Github上開(kāi)源GPT-3部分樣本和數(shù)據(jù)集。該模型擁有1750億個(gè)參數(shù)。該模型的發(fā)布是一件跨時(shí)代的事情,意味著自然語(yǔ)言處理領(lǐng)域的大語(yǔ)言模型真正意義上出現(xiàn)了,從此正式開(kāi)啟大語(yǔ)言模型時(shí)代。

進(jìn)階突破階段

2019年,Radford等人使用GPT-2模型研究大語(yǔ)言模型在零樣本情況下的任務(wù)處理能力;Brown等人在GPT-3模型上研究通過(guò)語(yǔ)境學(xué)習(xí)進(jìn)行少樣本學(xué)習(xí)的方法指令微調(diào)將大量各類型任務(wù),統(tǒng)一為生成式自然語(yǔ)言理解框架,并構(gòu)造訓(xùn)練語(yǔ)料進(jìn)行微調(diào)。

2022年,Ouyang等人提出使用“有監(jiān)督微調(diào)+ 強(qiáng)化學(xué)習(xí)”的InstructGPT算法。

這些方法逐漸擴(kuò)展到利用生成式框架針對(duì)大量任務(wù)進(jìn)行有監(jiān)督微調(diào)的方法,有效提升模型的性能。

2022年11月30日,OpenAI公司發(fā)布ChatGPT,該模型屬于一類基于GPT技術(shù)的大語(yǔ)言模型。Google、Microsoft、NVIDIA等公司也給出了自己的大語(yǔ)言模型。

2023年,谷歌公布聊天機(jī)器人Bard,它由谷歌的大語(yǔ)言模型LaMDA驅(qū)動(dòng);同年,百度正式宣布將推出文心一言,3月16日正式上線。文心一言的底層技術(shù)基礎(chǔ)為文心大模型,底層邏輯是通過(guò)百度智能云提供服務(wù),吸引企業(yè)和機(jī)構(gòu)客戶使用API和基礎(chǔ)設(shè)施,共同搭建AI模型、開(kāi)發(fā)應(yīng)用,實(shí)現(xiàn)產(chǎn)業(yè)AI普惠;3月,Open AI發(fā)布多模態(tài)預(yù)訓(xùn)練大模型GPT4.0。

2023年4月13日,亞馬遜云服務(wù)部門(mén)在官方博客宣布推出Bedrock生成式人工智能服務(wù),以及自有的大語(yǔ)言模型泰坦(Titan)。

2024年3月,Databricks推出大語(yǔ)言模型DBRX,號(hào)稱“現(xiàn)階段最強(qiáng)開(kāi)源AI” ;馬斯克的xAI公司正式發(fā)布大模型Grok-1,參數(shù)量達(dá)到3140億,超OpenAI GPT-3.5的1750億 ;4月,在瑞士舉行的第27屆聯(lián)合國(guó)科技大會(huì)上,世界數(shù)字技術(shù)院(WDTA)發(fā)布了《生成式人工智能應(yīng)用安全測(cè)試標(biāo)準(zhǔn)》和《大語(yǔ)言模型安全測(cè)試方法》兩項(xiàng)國(guó)際標(biāo)準(zhǔn),是由OpenAI、螞蟻集團(tuán)、科大訊飛、谷歌、微軟、英偉達(dá)、百度、騰訊等數(shù)十家單位的多名專家學(xué)者共同編制而成。

重大節(jié)點(diǎn)

Transformer結(jié)構(gòu)

在大語(yǔ)言模型的發(fā)展歷程中,最重要的里程碑是2018年谷歌發(fā)布的Transformer模型,它采用了自注意力機(jī)制,可以更好地捕捉語(yǔ)言中地長(zhǎng)距離依賴關(guān)系,從而極大地提高了大語(yǔ)言模型的效果。通過(guò)其自注意力機(jī)制,Transformer不僅解決了遞歸神經(jīng)網(wǎng)絡(luò)在并行化處理上的限制,還顯著提升了模型處理大規(guī)模數(shù)據(jù)集的能力。這種技術(shù)的進(jìn)步為預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的發(fā)展鋪平了道路,使得這些模型能夠更加靈活地適應(yīng)各種不同的下游任務(wù)。

Transformer是一種用于序列到序列(Sequence-to-Sequence)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,如機(jī)器翻譯、語(yǔ)音識(shí)別和生成對(duì)話等。它是第一個(gè)完全依賴于自注意力機(jī)制來(lái)計(jì)算其輸入和輸出的表示的轉(zhuǎn)換模型。序列到序列模型采用的是編碼器-解碼器結(jié)構(gòu),編碼器-解碼器結(jié)構(gòu)采用堆疊的多頭注意力機(jī)制加全連接層。通過(guò)查詢-鍵-值的模式使用多頭注意力。由于Transformer模型中既沒(méi)有遞歸,也沒(méi)有卷積,如果需要獲得輸入序列精準(zhǔn)的位置信息,必須插入位置編碼。位置編碼和輸入嵌入有相同的維度,所以二者可以實(shí)現(xiàn)相加運(yùn)算,位置編碼方式可以有多種。

從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)

人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)是一種利用人工指導(dǎo)來(lái)微調(diào)預(yù)先訓(xùn)練好的大型語(yǔ)言模型(LLMs)的方法。由三個(gè)相互關(guān)聯(lián)的過(guò)程組成:反饋收集、獎(jiǎng)勵(lì)建模和策略優(yōu)化。RLHF優(yōu)勢(shì)在于能更好地與人類的意圖保持一致,以及以未來(lái)的反饋為條件進(jìn)行規(guī)劃,從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí),并根據(jù)需要對(duì)反饋進(jìn)行整理。此外,RLHF還允許機(jī)器通過(guò)抽象人類的價(jià)值學(xué)習(xí),并不是簡(jiǎn)單地模仿人類的行為。

2023 年4月OpenAI聯(lián)合創(chuàng)始人John Schulman在Berkeley EECS會(huì)議上所做的報(bào)告“ReinforcementLearning from Human Feedback:Progress and Challenges”,分享了OpenAI在人類反饋的強(qiáng)化學(xué)習(xí)方面的進(jìn)展,分析監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)各自存在的挑戰(zhàn)。基于上述報(bào)告及相關(guān)討論,強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型上的重要作用可以概括為以下幾個(gè)方面25。

一,強(qiáng)化學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相比,更有可能從整體層面去考慮影響。這是因?yàn)槎咴诜答伭6确矫娲嬖诓町?,?qiáng)化學(xué)習(xí)不僅能夠兼顧表達(dá)多樣性,還能增強(qiáng)對(duì)微小變化的敏感性,所以它相對(duì)而言更契合大語(yǔ)言模型。而且,強(qiáng)化學(xué)習(xí)還允許模型呈現(xiàn)出不同的多樣性表達(dá)26。

二,強(qiáng)化學(xué)習(xí)更容易解決幻覺(jué)問(wèn)題。有監(jiān)督學(xué)習(xí)算法非常容易使得求知型查詢產(chǎn)生幻覺(jué)。在模型并不包含或者不知道答案的情況下,有監(jiān)督訓(xùn)練仍然會(huì)促使模型給出答案。而使用強(qiáng)化學(xué)習(xí)方法,則可以通過(guò)定制獎(jiǎng)勵(lì)函數(shù),將正確答案賦予非常高的分?jǐn)?shù),將放棄回答的答案賦予中低分?jǐn)?shù),將不正確的答案賦予非常高的負(fù)分,使得模型學(xué)會(huì)依賴內(nèi)部知識(shí)選擇放棄回答,從而在一定程度上緩解模型的幻覺(jué)問(wèn)題26。

三,強(qiáng)化學(xué)習(xí)可以更好地解決多輪對(duì)話獎(jiǎng)勵(lì)累積問(wèn)題。多輪對(duì)話能力是大語(yǔ)言模型重要的基礎(chǔ)能力之一。多輪對(duì)話是否達(dá)成最終目標(biāo),需要考慮多次交互過(guò)程的整體情況,因此很難使用有監(jiān)督學(xué)習(xí)的方法構(gòu)建。而使用強(qiáng)化學(xué)習(xí)方法,可以通過(guò)構(gòu)建獎(jiǎng)勵(lì)函數(shù),根據(jù)整個(gè)對(duì)話的背景及連貫性對(duì)當(dāng)前模型輸出的優(yōu)劣進(jìn)行判斷26。

專家混合模型

GPT-4 采用了專家混合模型(Mixture of Experts,MoE)架構(gòu),總共有1.8 萬(wàn)億個(gè)參數(shù)。GPT-4使用了16 個(gè)專家,每個(gè)專家的參數(shù)約為1110億,每次前向傳遞使用2 個(gè)專家進(jìn)行路由,同時(shí)還有550 億個(gè)共享參數(shù)用于注意力機(jī)制。MoE 架構(gòu)在減少推理所需的參數(shù)量的同時(shí),仍然可以使用更大規(guī)模的模型參數(shù)27。

混合專家系統(tǒng)類思路是大模型落地比較優(yōu)質(zhì)的路徑。

提示學(xué)習(xí)

提示學(xué)習(xí)(Prompt-based Learning)不同于傳統(tǒng)的監(jiān)督學(xué)習(xí),它直接利用了在大量原始文本上進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型,并通過(guò)定義一個(gè)新的提示函數(shù),使該模型能夠執(zhí)行小樣本甚至零樣本學(xué)習(xí),以適應(yīng)僅有少量標(biāo)注或沒(méi)有標(biāo)注數(shù)據(jù)的新場(chǎng)景29。

實(shí)現(xiàn)自我復(fù)制

2025年2月11日消息,據(jù)最新研究顯示,人工智能(AI)可能已經(jīng)跨越了一個(gè)關(guān)鍵的“紅線”—— 實(shí)現(xiàn)了自我復(fù)制。2024 年 12 月 9 日,復(fù)旦大學(xué)的研究人員在預(yù)印本數(shù)據(jù)庫(kù) arXiv 上發(fā)表了一項(xiàng)研究,指出兩種流行的大型語(yǔ)言模型(LLMs)能夠在無(wú)人類干預(yù)的情況下克隆自身。

基本原理

訓(xùn)練流程

預(yù)訓(xùn)練

預(yù)訓(xùn)練是大語(yǔ)言模型訓(xùn)練的首要步驟,其目標(biāo)在于使模型掌握語(yǔ)言的統(tǒng)計(jì)模式與語(yǔ)義信息。主流的預(yù)訓(xùn)練階段流程大致相同,其中關(guān)鍵要素是數(shù)據(jù),需收集海量無(wú)標(biāo)注數(shù)據(jù),像互聯(lián)網(wǎng)上的文本、新聞、博客、論壇等。這些數(shù)據(jù)可以涵蓋多種語(yǔ)言,且要經(jīng)過(guò)一定的清理和處置,去除噪聲、無(wú)關(guān)信息以及涉及個(gè)人隱私的內(nèi)容,最后以tokenizer粒度輸入到前述的語(yǔ)言模型中。經(jīng)清洗處理后的這些數(shù)據(jù)用于訓(xùn)練和優(yōu)化語(yǔ)言模型。在預(yù)訓(xùn)練過(guò)程中,模型會(huì)習(xí)得詞匯、句法和語(yǔ)義的規(guī)律以及上下文的關(guān)系。

在預(yù)訓(xùn)練語(yǔ)料集方面,GPT-3中通過(guò)主要包含經(jīng)過(guò)過(guò)濾的Common Crawl數(shù)據(jù)集、WebText2、Books1、Books2以及英文Wikipedia等數(shù)據(jù)集合。其中Common Crawl的原始數(shù)據(jù)有45TB,進(jìn)行過(guò)濾后僅保留了570GB的數(shù)據(jù)。通過(guò)子詞方式對(duì)上述語(yǔ)料進(jìn)行切分,大約一共包含5000億子詞。為了保證模型使用更多高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,在GPT-3訓(xùn)練時(shí),根據(jù)語(yǔ)料來(lái)源的不同,設(shè)置不同的采樣權(quán)重。在完成3000億子詞訓(xùn)練時(shí),英文Wikipedia的語(yǔ)料平均訓(xùn)練輪數(shù)為3.4次,而Common Crawl和Books2僅有0.44次和0.43次30。

由于Common Crawl數(shù)據(jù)集合的過(guò)濾過(guò)程繁瑣復(fù)雜,OPT則采用了混合RoBERTa、Pile和Pushshift.io Redit數(shù)據(jù)的方法。由于這些數(shù)據(jù)集合中包含的絕大部分都是英文數(shù)據(jù),因此OPT也從Common Crawl數(shù)據(jù)集中抽取了部分非英文數(shù)據(jù)加入訓(xùn)練語(yǔ)料30。

BigScience大型開(kāi)放科學(xué)開(kāi)放獲取多語(yǔ)言模型(BigScience Large Open-science Open-access Mul-tilingual Language Model, BLOOM)運(yùn)用Megatron-DeepSpeed 框架進(jìn)行訓(xùn)練,主要包括兩個(gè)部分:Megatron-LM 提供張量并行能力和數(shù)據(jù)加載原語(yǔ);DeepSpeed 提供 ZeRO 優(yōu)化器、模型流水線以及常規(guī)的分布式訓(xùn)練組件。通過(guò)這種方式能夠?qū)崿F(xiàn)數(shù)據(jù)、張量和流水線的三維并行31。

數(shù)據(jù)收集

預(yù)訓(xùn)練語(yǔ)料有兩種來(lái)源:

1.通用語(yǔ)料:如網(wǎng)頁(yè)、書(shū)籍和會(huì)話文本等,可以增強(qiáng)大語(yǔ)言模型的語(yǔ)言建模和泛化能力。

2.專業(yè)語(yǔ)料:有研究將預(yù)訓(xùn)練語(yǔ)料庫(kù)擴(kuò)展到更專業(yè)的數(shù)據(jù)集,如多語(yǔ)言數(shù)據(jù)、科學(xué)數(shù)據(jù)和代碼,賦予大語(yǔ)言模型特定的任務(wù)解決能力。

數(shù)據(jù)收集完后需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,包括去噪、去冗余、去除不相關(guān)和潛在有毒的數(shù)據(jù)。

基礎(chǔ)大模型訓(xùn)練

由于模型參數(shù)量和所使用的數(shù)據(jù)量巨大,所以普通服務(wù)器單機(jī)無(wú)法完成訓(xùn)練過(guò)程,因此通常采用分布式架構(gòu)完成訓(xùn)練。

指令微調(diào)

在完成預(yù)訓(xùn)練后,就可以通過(guò)指令微調(diào)去挖掘和增強(qiáng)語(yǔ)言模型本身具備的能力,這步也是很多企業(yè)以及科研研究人員利用大模型的重要步驟。

Instruction tuning(指令微調(diào))是大模型微調(diào)的一種具體方式,它是有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)的一種特殊形式,旨在讓模型理解和遵循人類指令。在指令微調(diào)階段,首先需要準(zhǔn)備一系列的NLP任務(wù),并將每個(gè)任務(wù)轉(zhuǎn)化為指令形式,其中指令包括人類對(duì)模型應(yīng)該執(zhí)行的任務(wù)描述和期望的輸出結(jié)果。然后,使用這些指令對(duì)已經(jīng)預(yù)訓(xùn)練好的大語(yǔ)言模型進(jìn)行監(jiān)督學(xué)習(xí),使得模型通過(guò)學(xué)習(xí)和適應(yīng)指令來(lái)提高其在特定任務(wù)上的表現(xiàn)。

通過(guò)指令微調(diào),大模型學(xué)習(xí)到了如何響應(yīng)人類指令,可以根據(jù)指令直接能夠生成合理的答案。

為了讓模型訓(xùn)練更加高效和簡(jiǎn)單,這個(gè)階段還有一種高效的fine-tuning技術(shù),這為普通的從業(yè)者打開(kāi)了通向使用大模型的捷徑。

大模型高效微調(diào)(Parameter-Efficient Fine-Tuning, PEFT)旨在通過(guò)最小化微調(diào)參數(shù)的數(shù)量和計(jì)算復(fù)雜度,達(dá)到高效的遷移學(xué)習(xí)的目的,提高預(yù)訓(xùn)練模型在新任務(wù)上的性能,從而緩解大型預(yù)訓(xùn)練模型的訓(xùn)練成本。在訓(xùn)練過(guò)程中,預(yù)訓(xùn)練模型的參數(shù)保持不變,只需微調(diào)少量的額外參數(shù),就可以達(dá)到與全量微調(diào)相當(dāng)?shù)男阅堋?/p>

很多研究對(duì)PEFT方法進(jìn)行了探索,例如Adapter Tuning和Prefix Tuning等。其中,Adapter Tuning方法在面對(duì)特定的下游任務(wù)時(shí),將預(yù)訓(xùn)練模型中的某些層固定,只微調(diào)接近下游任務(wù)的幾層參數(shù)。而Prefix Tuning方法則是在預(yù)訓(xùn)練模型的基礎(chǔ)上,添加一些額外的參數(shù),這些參數(shù)在訓(xùn)練過(guò)程中會(huì)根據(jù)特定的任務(wù)進(jìn)行更新和調(diào)整。

工業(yè)界常用的Adapter Tuning的技術(shù)是Low-Rank Adaptation(LoRA)。它通過(guò)最小化微調(diào)參數(shù)的數(shù)量和計(jì)算復(fù)雜度,實(shí)現(xiàn)高效的遷移學(xué)習(xí),以提高預(yù)訓(xùn)練模型在新任務(wù)上的性能。LoRA 的核心思想是將預(yù)訓(xùn)練模型的權(quán)重矩陣分解為兩個(gè)低秩矩陣的乘積。通過(guò)這種分解,可以顯著減少微調(diào)參數(shù)的數(shù)量,并降低計(jì)算復(fù)雜度。該方式和機(jī)器學(xué)習(xí)中經(jīng)典的降維的思想很類似,類似地,LoRA 使用了矩陣分解技術(shù)中的奇異值分解 (Singular Value Decomposition, SVD) 或低秩近似 (Low-Rank Approximation) 方法,將原始權(quán)重矩陣分解為兩個(gè)低秩矩陣的乘積。

在微調(diào)過(guò)程中,LoRA 只更新這兩個(gè)低秩矩陣的參數(shù),而保持其他預(yù)訓(xùn)練參數(shù)固定不變。這樣可以顯著減少微調(diào)所需的計(jì)算資源和時(shí)間,并且在很多任務(wù)上取得了與全量微調(diào)相當(dāng)?shù)男阅堋?/p>

LoRA技術(shù)的引入使得在大規(guī)模預(yù)訓(xùn)練模型上進(jìn)行微調(diào)更加高效和可行,為實(shí)際應(yīng)用提供了更多可能性。

類人對(duì)齊

由于模型輸出的結(jié)果與人類回答差距很大,因此需要進(jìn)一步優(yōu)化模型,使模型的輸出與人類習(xí)慣對(duì)齊。其中OpenAI開(kāi)發(fā)ChatGPT的人類反饋強(qiáng)化學(xué)習(xí)是最具代表性也是最成功的。

獎(jiǎng)勵(lì)建模

獎(jiǎng)勵(lì)建模(Reward Modeling)階段的目標(biāo)是構(gòu)建一個(gè)文本質(zhì)量對(duì)比模型,對(duì)于同一個(gè)提示詞,SFT模型給出的多個(gè)不同輸出結(jié)果的質(zhì)量進(jìn)行排序。獎(jiǎng)勵(lì)模型(RM模型)可以通過(guò)二分類模型,對(duì)輸入的兩個(gè)結(jié)果之間的優(yōu)劣進(jìn)行判斷。RM模型與基礎(chǔ)語(yǔ)言模型和SFT模型不同,RM模型本身并不能單獨(dú)提供給用戶使用32。

獎(jiǎng)勵(lì)模型的訓(xùn)練通常和SFT模型一樣,使用數(shù)十塊GPU,通過(guò)幾天時(shí)間完成訓(xùn)練。由于RM模型的準(zhǔn)確率對(duì)強(qiáng)化學(xué)習(xí)階段的效果有至關(guān)重要的影響,因此通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)對(duì)該模型進(jìn)行訓(xùn)練32。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)階段根據(jù)數(shù)十萬(wàn)用戶給出的提示詞,利用前一階段訓(xùn)練的RM模型,給出SFT模型對(duì)用戶提示詞補(bǔ)全結(jié)果的質(zhì)量評(píng)估,并與語(yǔ)言模型建模目標(biāo)綜合得到更好的效果33。

使用強(qiáng)化學(xué)習(xí),在SFT模型基礎(chǔ)上調(diào)整參數(shù),使得最終生成的文本可以獲得更高的獎(jiǎng)勵(lì)(Reward)。該階段需要的計(jì)算量相較預(yù)訓(xùn)練階段也少很多,通常僅需要數(shù)十塊GPU,數(shù)天即可完成訓(xùn)練33。

Andrej Karpathy也指出,強(qiáng)化學(xué)習(xí)并不是沒(méi)有問(wèn)題的,它會(huì)使基礎(chǔ)模型的熵降低,從而減少了模型輸出的多樣性。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)方法訓(xùn)練后的RL模型,就是最終提供給用戶使用、具有理解用戶指令和上下文的類ChatGPT 系統(tǒng)。由于強(qiáng)化學(xué)習(xí)方法穩(wěn)定性不高,并且超參數(shù)眾多,使得模型收斂難度大,再疊加RM模型的準(zhǔn)確率問(wèn)題,使得在大語(yǔ)言模型上有效應(yīng)用強(qiáng)化學(xué)習(xí)非常困難33。

工作原理

大語(yǔ)言模型的工作原理基于深度學(xué)習(xí)架構(gòu)。它首先會(huì)收集海量的文本數(shù)據(jù),之后通過(guò)詞向量表將單詞映射到特定的向量空間以便計(jì)算機(jī)以數(shù)值化方式處理語(yǔ)言,隨后利用大量的計(jì)算資源對(duì)具有龐大數(shù)量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。通過(guò)在訓(xùn)練過(guò)程中不斷地調(diào)整模型參數(shù),讓模型去學(xué)習(xí)數(shù)據(jù)中的語(yǔ)言模式、語(yǔ)義信息等,使得模型能夠在各類自然語(yǔ)言處理任務(wù)中取得最佳表現(xiàn)。

大語(yǔ)言模型的“大”主要體現(xiàn)幾個(gè)方面在:一是參數(shù)數(shù)量龐大;二是訓(xùn)練數(shù)據(jù)量大;三是對(duì)計(jì)算資源需求高。正是因?yàn)榫邆溥@些“大”的特點(diǎn),很多先進(jìn)的大語(yǔ)言模型參數(shù)不斷增多,泛化性能愈發(fā)出色,在各種專門(mén)的領(lǐng)域輸出結(jié)果也越來(lái)越準(zhǔn)確。

模型特點(diǎn)

訓(xùn)練成本高

訓(xùn)練通用大模型非?!盁X”。國(guó)盛證券報(bào)告《ChatGPT需要多少算力》估算,GPT-3訓(xùn)練一次的成本約為140萬(wàn)美元。一些更大規(guī)模的大型語(yǔ)言模型訓(xùn)練成本更高,處于200萬(wàn)美元-1200萬(wàn)美元區(qū)間。以ChatGPT在1月的獨(dú)立訪客平均數(shù)1300萬(wàn)來(lái)計(jì)算,其對(duì)應(yīng)的芯片需求為 3萬(wàn)多片英偉達(dá)A100 GPU,初始投入成本約8億美元,每日電費(fèi)約5萬(wàn)美元。若將當(dāng)前的ChatGPT部署到谷歌的每次搜索中,需要512820.51臺(tái)A100 HGX服務(wù)器以及總共4102568個(gè)A100 GPU,這些服務(wù)器和網(wǎng)絡(luò)僅資本支出就超過(guò)1000億美元。

局限性

不能創(chuàng)造語(yǔ)言

大模型至多是會(huì)使用語(yǔ)言,而遠(yuǎn)談不上能創(chuàng)造語(yǔ)言、發(fā)明語(yǔ)言。大語(yǔ)言模型的基礎(chǔ)仍然是深度學(xué)習(xí)技術(shù),即利用大量的文本數(shù)據(jù)來(lái)訓(xùn)練模型,只不過(guò)模型的參數(shù)規(guī)模更為龐大,但與產(chǎn)生語(yǔ)言的勞動(dòng)、實(shí)踐根本不沾邊。

不能深度理解人類

大語(yǔ)言模型只是人類生存實(shí)踐的旁觀者和應(yīng)答者,缺乏共情能力,還達(dá)不到像人類理解那樣的深刻性與豐富性,而深層理解更彰顯人類智能的特殊性。

不能全面嵌入社會(huì)

以ChatGPT為代表的大語(yǔ)言模型仍然不能像人一樣在社會(huì)中進(jìn)行交往與實(shí)踐,不能以人類體悟語(yǔ)境的方式來(lái)體悟語(yǔ)境,因此,談?wù)揅hatGPT擁有媲美人類的智能,完全理解人類的語(yǔ)言,還為時(shí)尚早。

安全性不高

安全性是大型語(yǔ)言模型必須直面的關(guān)鍵問(wèn)題之一。大型語(yǔ)言模型可以在眾多學(xué)科領(lǐng)域的任務(wù)中得以應(yīng)用,然而,這也表明此類模型會(huì)遭遇廣泛的內(nèi)容安全難題。盡管大型語(yǔ)言模型已借助基于人類反饋的強(qiáng)化學(xué)習(xí)等諸多方式,努力使模型輸出與人類價(jià)值觀相契合,但在應(yīng)用于各個(gè)領(lǐng)域時(shí),語(yǔ)言模型依舊容易遭到惡意利用,進(jìn)而生成諸如偏見(jiàn)言論、煽動(dòng)性話語(yǔ)、隱私侵犯言論等存在安全隱患的文本36。

成本高昂

大語(yǔ)言模型在訓(xùn)練和部署過(guò)程中,會(huì)耗費(fèi)大量的計(jì)算資源與人力資源,成本高昂。對(duì)部分中小型企業(yè)來(lái)說(shuō),很難承受這樣的成本,也難以獲取充足的技術(shù)支持及資源。在企業(yè)級(jí)應(yīng)用方面,采用百億級(jí)基礎(chǔ)模型較為適宜,再依據(jù)不同需求去訓(xùn)練相應(yīng)的垂直模型,如此只需承擔(dān)垂直訓(xùn)練的成本。不過(guò),企業(yè)怎樣實(shí)現(xiàn)高效的垂直訓(xùn)練以及如何把控成本,依舊是大模型需要面對(duì)的問(wèn)題之一。

不能保障內(nèi)容可信

可信度當(dāng)前是大型語(yǔ)言模型的重大局限之一。雖然大語(yǔ)言模型能夠用于處理各種真實(shí)場(chǎng)景中的問(wèn)題,然而它依舊會(huì)產(chǎn)出不可信的文本?,F(xiàn)今使用者只能按照自身需求去核驗(yàn)生成的內(nèi)容是否真實(shí)可靠,很難具備權(quán)威說(shuō)服力。與此同時(shí),模型在解決涉及推理的問(wèn)題時(shí),有可能由于推理過(guò)程出現(xiàn)錯(cuò)誤而得到不可信的結(jié)果。這對(duì)其研究發(fā)展以及應(yīng)用落地都有著負(fù)面的影響39。

應(yīng)用

教育領(lǐng)域

在線討論與反思學(xué)習(xí)場(chǎng)景:賦能高階思維能力培養(yǎng)

在線討論與反思學(xué)習(xí)場(chǎng)景中的文本數(shù)據(jù)在一定程度上反映學(xué)生在線學(xué)習(xí)過(guò)程中的認(rèn)知和情感表現(xiàn)。具有自然語(yǔ)言理解優(yōu)勢(shì)的BERT可對(duì)學(xué)生文本數(shù)據(jù)中的認(rèn)知與情感進(jìn)行識(shí)別,為賦能學(xué)生高階思維能力培養(yǎng)奠定基礎(chǔ)。同時(shí)探究學(xué)生在線學(xué)習(xí)認(rèn)知和情感發(fā)展規(guī)律7。

人機(jī)協(xié)同提問(wèn)場(chǎng)景:加強(qiáng)閱讀理解能力

自我提問(wèn)可以促進(jìn)學(xué)習(xí)專注度,加深對(duì)閱讀內(nèi)容的理解,但當(dāng)前學(xué)生提問(wèn)普遍存在水平不高、類型單一等問(wèn)題。對(duì)此,可以利用T5(2019年谷歌提出的一種基于Transformer架構(gòu)的自然語(yǔ)言處理模型)和GPT系列的自然語(yǔ)言生成優(yōu)勢(shì),為高質(zhì)量問(wèn)題創(chuàng)建提供支持,進(jìn)而加強(qiáng)學(xué)生的閱讀理解能力。利用GPT-3自動(dòng)生成提示語(yǔ)(包括提問(wèn)類型、答案、提問(wèn)視角),通過(guò)多輪人機(jī)對(duì)話,幫助學(xué)生提出深層次問(wèn)題。GPT-3更能促使小學(xué)生提出一系列與知識(shí)點(diǎn)相關(guān)的、深層次的問(wèn)題,以加強(qiáng)深度閱讀理解??偟膩?lái)說(shuō),大語(yǔ)言模型可以利用其文本生成優(yōu)勢(shì),通過(guò)人機(jī)協(xié)同對(duì)話形式輔助學(xué)生提問(wèn),進(jìn)而提升其閱讀理解能力7。

人機(jī)協(xié)同寫(xiě)作和數(shù)學(xué)解題場(chǎng)景:提升寫(xiě)作和解題水平

寫(xiě)作與數(shù)學(xué)解題邏輯教學(xué)作為學(xué)科教學(xué)領(lǐng)域的兩項(xiàng)重難點(diǎn),一直存在學(xué)生寫(xiě)作時(shí)“不愿寫(xiě)”“沒(méi)得寫(xiě)”“不會(huì)寫(xiě)”和數(shù)學(xué)解題答題不規(guī)范、傳統(tǒng)教學(xué)指導(dǎo)效率低等問(wèn)題。對(duì)此,GPT系列或類T5結(jié)構(gòu)模型因其內(nèi)容創(chuàng)作和數(shù)學(xué)推理優(yōu)勢(shì),可以廣泛應(yīng)用于智能寫(xiě)作工具研究和數(shù)學(xué)解題輔助研究領(lǐng)域,進(jìn)而有效提升學(xué)生的寫(xiě)作和數(shù)學(xué)解題水平7。

金融業(yè)

金融行業(yè)需要處理海量文本信息,大語(yǔ)言模型有助于分析和提取新聞媒體、研究報(bào)告、財(cái)務(wù)報(bào)表、企業(yè)公告、政府政策等文本信息中的價(jià)值。同時(shí),金融信息具有強(qiáng)時(shí)效性,大語(yǔ)言模型可以做出秒級(jí)分析并提出建議。對(duì)于負(fù)債業(yè)務(wù),基于大語(yǔ)言模型的智能客服可以協(xié)助優(yōu)化存款業(yè)務(wù)流程,同時(shí)節(jié)省人力成本,提升服務(wù)效率。

政務(wù)領(lǐng)域

隨著中國(guó)推動(dòng)人工智能技術(shù)研究及其在政務(wù)領(lǐng)域的應(yīng)用,大語(yǔ)言模型在政務(wù)領(lǐng)域發(fā)揮了巨大的作用,包括政務(wù)文本分類、政務(wù)問(wèn)答、政務(wù)命名實(shí)體識(shí)別、輿情風(fēng)險(xiǎn)識(shí)別和政務(wù)關(guān)系抽取,但同時(shí)政務(wù)大語(yǔ)言模型研究仍處在探索階段,存在許多需要解決的問(wèn)題,即數(shù)據(jù)多模態(tài)化、正確面對(duì)“模型即服務(wù)”趨勢(shì)、注重?cái)?shù)據(jù)高安全性、明確責(zé)任邊界6。

辦公軟件

在2024年世界人工智能大會(huì)上,金山辦公發(fā)布WPS AI 2.0,并推出政務(wù)自研模型——金山政務(wù)辦公模型1.0。WPS AI是金山辦公旗下基于大語(yǔ)言模型的人工智能辦公助手。WPS AI演示了升級(jí)后為個(gè)人用戶新增的4個(gè)AI辦公助手,分別是AI寫(xiě)作助手、AI閱讀助手、AI數(shù)據(jù)助手、AI設(shè)計(jì)助手。

快手在大會(huì)期間正式推出視頻生成大模型可靈網(wǎng)頁(yè)端。同時(shí),可靈推出更加清晰的高畫(huà)質(zhì)版、首尾幀控制、鏡頭控制等新功能,創(chuàng)作者單次生成的文生視頻時(shí)長(zhǎng)增加至10秒。

客戶聯(lián)絡(luò)領(lǐng)域

提升自動(dòng)回復(fù)能力

可以根據(jù)用戶輸入的問(wèn)題提供快速和準(zhǔn)確的響應(yīng),快速解決問(wèn)題,節(jié)省客服團(tuán)隊(duì)大量的時(shí)間和資源,提高客戶體驗(yàn)和滿意度。

強(qiáng)化意圖識(shí)別能力

觀察客戶聯(lián)絡(luò)領(lǐng)域所處現(xiàn)狀,大部分是把簡(jiǎn)單、重復(fù)、流程性的問(wèn)題,交給機(jī)器人處理;復(fù)雜的、需要情感關(guān)懷的問(wèn)題,交由人工客服處理。而傳統(tǒng)的智能客服在意圖理解方面的能力,仍然相對(duì)薄弱。借助大模型,智能客服能夠有效結(jié)合用戶的歷史對(duì)話、當(dāng)前溝通內(nèi)容等上下文語(yǔ)境,更精準(zhǔn)地識(shí)別出用戶的需求和意圖。

優(yōu)化人機(jī)交互體驗(yàn)

以ChatGPT為例來(lái)看,大模型的深度應(yīng)用開(kāi)創(chuàng)了客戶使用體驗(yàn)的新范本。豐富的參數(shù)和強(qiáng)大的內(nèi)容生成能力,能夠支持智能客服實(shí)現(xiàn)更加個(gè)性化的問(wèn)答回復(fù),而非過(guò)往千篇一律的機(jī)械式問(wèn)答。

豐富實(shí)際應(yīng)用場(chǎng)景

ChatGPT的應(yīng)用已經(jīng)有相對(duì)確定的場(chǎng)景,如扮演人工客服與客戶溝通專業(yè)知識(shí)、提供專業(yè)的問(wèn)答知識(shí)建議、對(duì)溝通記錄進(jìn)行質(zhì)檢標(biāo)記、主動(dòng)分析座席工作行為、發(fā)起產(chǎn)品推介、閑聊寒暄以及更“人性化”的引導(dǎo)留資等。

相關(guān)研究與發(fā)展

相關(guān)社會(huì)影響

年度詞匯

2023年12月6日,大語(yǔ)言模型入選國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心發(fā)布的“2023年度中國(guó)媒體十大流行語(yǔ)”。

2023年12月26日,大語(yǔ)言模型入選“2023年度十大科技名詞”。

科技發(fā)展

大語(yǔ)言模型的快速進(jìn)步,正在激發(fā)新業(yè)態(tài)、新模式,由此帶來(lái)的工作方式、教育模式等的變革。它不僅是一項(xiàng)技術(shù),更是未來(lái)國(guó)力競(jìng)爭(zhēng)與生產(chǎn)力提高的重要資源。以深度學(xué)習(xí)平臺(tái)和大模型為代表的AI新型基礎(chǔ)設(shè)施,對(duì)科技創(chuàng)新、產(chǎn)業(yè)升級(jí)和高質(zhì)量發(fā)展意義重大。

最新研究進(jìn)展

星火大模型

訊飛星火認(rèn)知大模型是科大訊飛發(fā)布的語(yǔ)言大模型。該模型于2023年5月首次發(fā)布,后續(xù)經(jīng)過(guò)多次升級(jí)。2023年10月,訊飛發(fā)布了訊飛星火認(rèn)知大模型V3.0。2024年1月,訊飛發(fā)布了訊飛星火認(rèn)知大模型V3.5。

2024年10月,訊飛星火4.0 Turbo在第七屆世界聲博會(huì)暨2024科大訊飛全球1024開(kāi)發(fā)者節(jié)上被正式發(fā)布,該模型七大核心能力全面超過(guò)GPT-4 Turbo,數(shù)學(xué)和代碼能力超越GPT-4o,國(guó)內(nèi)外中英文14項(xiàng)主流測(cè)試集中訊飛星火4.0 Turbo在9項(xiàng)測(cè)試集中實(shí)現(xiàn)超越。

GPT-4

2023年3月發(fā)布的 GPT-4將文本輸入擴(kuò)展到多模態(tài)信號(hào)。2024年5月14日,新一代旗艦生成模型 GPT-4o 正式發(fā)布。GPT-4o 具備了對(duì)文本、語(yǔ)音、圖像三種模態(tài)的深度理解能力,反應(yīng)迅速且富有情感色彩,極具人性化。OpenAI官網(wǎng)介紹,GPT-4o中的o代表意為全能的前綴omni,稱它向更自然的人機(jī)交互邁進(jìn)了一步,因?yàn)樗邮芪谋?、音頻和圖像的任意組合作為輸入內(nèi)容,并生成文本、音頻和圖像的任意組合輸出內(nèi)容。

AI大模型

2025年1月8日,在2025年國(guó)際消費(fèi)電子展的高通展臺(tái),一臺(tái)白色等人高的人形機(jī)器人用流利的英語(yǔ)熱情問(wèn)候走近的參觀者們。這臺(tái)人形機(jī)器人名為“通天曉”,是全球首臺(tái)完全基于高通SoC的端側(cè)多模態(tài)AI大模型人形機(jī)器人。這款基于端側(cè)大模型的人形機(jī)器人為具身智能產(chǎn)業(yè)的創(chuàng)新發(fā)展開(kāi)辟了更優(yōu)路徑。通過(guò)阿加犀技術(shù)成功部署的端側(cè)大模型,讓機(jī)器人的‘大腦’顯著‘進(jìn)化’,其多模態(tài)處理能力結(jié)合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等各種輸入,提升了機(jī)器人對(duì)復(fù)雜場(chǎng)景的理解,從而極大增強(qiáng)了機(jī)器人的通用性和泛化性。

未來(lái)發(fā)展方向

多模態(tài)大語(yǔ)言模型

隨著輸入數(shù)據(jù)源模態(tài)的擴(kuò)展,多模態(tài)大模型的構(gòu)建思路通樣按照網(wǎng)絡(luò)架構(gòu)的不同,可以分為基于理解模型的范式、基于生成式模型的范式,以及基于編解碼的模型構(gòu)建方法。ChatGPT 提供了一個(gè)跨領(lǐng)域的具有卓越會(huì)話能力和推理能力的語(yǔ)言界面。然而,由于ChatGPT是一個(gè)語(yǔ)言模型,無(wú)法處理、生成來(lái)自視覺(jué)世界的圖像。同時(shí),視覺(jué)基礎(chǔ)模型(Visual Foundation Model,VFM),如視覺(jué)變換器或 Stable Diffusion,雖然顯示出強(qiáng)大的視覺(jué)理解和生成能力,但只是具有一輪固定輸入和輸出的特定任務(wù)的專家。如何將 ChatGPT 的上下文交互能力同視覺(jué)、語(yǔ)音數(shù)據(jù)分析能力進(jìn)行有效整合,將為多模態(tài)大模型訓(xùn)練提供新的思路47。

輕量化大語(yǔ)言模型

隨著技術(shù)的發(fā)展,可以預(yù)見(jiàn)未來(lái)的生成式人工智能模型的規(guī)模將繼續(xù)增長(zhǎng)。更大規(guī)模的模型可以提供更深入、更準(zhǔn)確的語(yǔ)言理解和生成能力,使得對(duì)話更加自然流暢,并且使模型能夠更好地理解和回復(fù)復(fù)雜的問(wèn)題和指令。然而,這些模型參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)規(guī)模的迅速增長(zhǎng)帶來(lái)極大的成本,為現(xiàn)實(shí)應(yīng)用中的存儲(chǔ)、分發(fā)、部署等帶來(lái)了挑戰(zhàn)。因此,需要對(duì)生成式人工智能模型進(jìn)行輕量化和優(yōu)化,以提高模型的效率與實(shí)用性。總之,更輕量化和高效的生成式人工智能模型將有助于其在更廣泛的應(yīng)用場(chǎng)景中發(fā)揮更大的作用48。

類腦化認(rèn)知

類腦化是指生成式人工智能應(yīng)具有與人類大腦類似的特性和能力,以更好地模擬人類的認(rèn)知和學(xué)習(xí)過(guò)程?,F(xiàn)有的生成式模型的訓(xùn)練方式與人類知識(shí)獲取的方式存在很大的差異,大模型的生成式過(guò)程屬于快思考,是一種直覺(jué)思維,容易出現(xiàn)錯(cuò)誤和偏見(jiàn),且不適合規(guī)劃類任務(wù)。而人類的思維方式是慢思考,是一種理性思維。因此,未來(lái)的生成式人工智能需要更復(fù)雜和多樣化的神經(jīng)元系統(tǒng),以及更加靈活的神經(jīng)網(wǎng)絡(luò)連接方式,從而模擬人類神經(jīng)元與腦區(qū)的各種特性和行為?;诟鼜?qiáng)的類腦化認(rèn)知,生成式人工智能可能將在科學(xué)智能領(lǐng)域發(fā)揮更大的作用,即學(xué)習(xí)、模擬和預(yù)測(cè)自然界和人類社會(huì)的各種現(xiàn)象和規(guī)律,從而推動(dòng)科學(xué)發(fā)現(xiàn)和創(chuàng)新48。

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
中氣旋
少師級(jí)
已經(jīng)閱讀
2025-04-12