在2023年初,Chat GPT 似乎掀起了一股AI大模型風(fēng)。從 2 月以來,國內(nèi)多家公司也推出了自己的大模型。
我們熟悉的有百度的文心一言、阿里的通義千問、華為的盤古、騰訊的混元,等等。除此之外,很多的科技企業(yè)、學(xué)校機(jī)構(gòu)都在制作自己的大模型。比如,北京智源研究院的悟道 2.0,中科院自動(dòng)化所的紫東太初、復(fù)旦大學(xué)的 MOSS、清華大學(xué)的 ChatGLM。
這么多大模型的名字聽著就讓人覺得頭暈。如果這些機(jī)構(gòu)全部集中精力做一個(gè)模型,其實(shí)不是更容易成功?
圖源:unsplash.com
這么想自然有一定道理。但縱觀人工智能的發(fā)展史。多種技術(shù)、多條路線共同探索,也是讓人工智能能夠快速發(fā)展,能夠一次又一次沖破“寒冬”的原因之一。
想了解技術(shù)多元化對人工智能發(fā)展的好處,首先要從符號(hào)主義與連接主義說起。
讓計(jì)算機(jī)“變聰明”
在 1956 年“達(dá)特茅斯會(huì)議”上,人工智能作為一門新興的學(xué)科被確立下來。一代代科學(xué)家們投入到了讓計(jì)算機(jī)“變聰明”的研究道路上。但“變聰明”這件事太過抽象,具體要如何實(shí)現(xiàn)呢?
其實(shí)早在達(dá)特茅斯會(huì)議之前,人們就已經(jīng)開始探索了。而在這個(gè)過程中,出現(xiàn)了幾條不同的路線,其中“符號(hào)主義”和“連接主義”是兩種重要且有代表性的路線。
符號(hào)主義的想法是人的智能主要體現(xiàn)在高層的推理方面:“智能的基礎(chǔ)是知識(shí),智能的核心是知識(shí)的表示與推理”。而知識(shí)和邏輯推理可以轉(zhuǎn)化成數(shù)學(xué)符號(hào)來表示,而它們的推理、運(yùn)算過程,同樣可以用數(shù)學(xué)公式符號(hào)來表達(dá)(正因如此,這一學(xué)派才被稱為“符號(hào)主義”)。
符號(hào)主義最典型的技術(shù)是“專家系統(tǒng)”。專家系統(tǒng)背后的想法是,把某個(gè)領(lǐng)域的知識(shí)、邏輯以符號(hào)的形式表示出來,整理成知識(shí)庫和推理機(jī)。根據(jù)輸入的條件,專家系統(tǒng)能用知識(shí)庫里面的知識(shí)和推理機(jī)里既定的邏輯推理方法,一步步推理得出知識(shí)庫中沒有但是又正確結(jié)果。
在 1955 年,一款名叫“邏輯理論家”的程序出現(xiàn)了,這款程序,能夠推演《數(shù)學(xué)原理》里面 52 個(gè)定理中的 38 個(gè),并且對一些定理還給出了更簡潔的證明方法。
這個(gè)程序,甚至被一些人稱為“第一個(gè)人工智能程序”。自人工智能出現(xiàn)很長一段時(shí)間里,符號(hào)主義都在人工智能領(lǐng)域占據(jù)重要地位,甚至“人工智能”這個(gè)詞也是符號(hào)學(xué)派為主的科學(xué)家們起的新名字。
當(dāng)然,在符號(hào)主義大大發(fā)展的同時(shí),其他賦予計(jì)算機(jī)“智力”的探索也沒有停止,比如連接主義也在同步發(fā)展。
連接主義與人工神經(jīng)網(wǎng)絡(luò)
連接主義有點(diǎn)類似于仿生學(xué),是通過從底層到上層的方法來研究并且模仿人類大腦的結(jié)構(gòu),進(jìn)而解釋人類的智力行為。
連接主義認(rèn)為,微觀的神經(jīng)節(jié)之間的活動(dòng)最終涌現(xiàn)出了宏觀認(rèn)知智能。這個(gè)思路也比較符合其他科學(xué)領(lǐng)域的從下到上的方法論:比如用底層的物理知識(shí)來解釋高層的化學(xué)反應(yīng)原理一樣。它的發(fā)展,催生出了今天人工智能領(lǐng)域最重要的技術(shù)之一——人工神經(jīng)網(wǎng)絡(luò)。
圖源:unsplash.com
1943 年,沃倫·麥克洛克和沃爾特·皮茨提出了一種類似于生物神經(jīng)元的數(shù)學(xué)模型——MP神經(jīng)元模型。這個(gè)模型其實(shí)就是模仿神經(jīng)元細(xì)胞,對輸入的信號(hào)進(jìn)行處理,并給出特定的信息。
在 1949 年,神經(jīng)心理學(xué)家赫布發(fā)現(xiàn),人類大腦中的神經(jīng)元之間傳遞的信號(hào)強(qiáng)度并不是一成不變的而是“可塑的”。這個(gè)理論,后來被人們稱為“赫布規(guī)則”,在人工神經(jīng)網(wǎng)絡(luò)的發(fā)展上具有重要地位。
在MP神經(jīng)元模型和赫布規(guī)則的基礎(chǔ)上,1958 年,羅森布拉特建立了感知器模型,這個(gè)模型被稱為最早的“具有學(xué)習(xí)能力”的人工神經(jīng)網(wǎng)絡(luò)。這個(gè)神經(jīng)網(wǎng)絡(luò)被美國海軍寄予厚望,并持重金打造了硬件機(jī)器,希望它能成為新一代的神經(jīng)計(jì)算機(jī)。這個(gè)項(xiàng)目是美國海軍的重要項(xiàng)目。
但由于當(dāng)時(shí)的算力和技術(shù)的限制,人們很快就發(fā)現(xiàn),感知器的功能太有限了,只能解決非常簡單的線性分類問題。
麻省理工大學(xué)的馬文·閔斯基(Marvin Minsky)和西莫·帕波特 (Seymour Papert) (也是少兒編程最早的倡導(dǎo)者)寫書公開聲稱“人工神經(jīng)網(wǎng)絡(luò)用處非常有限,甚至連簡單的‘異或’問題都無法解決?!?/p>
在二十世紀(jì)六十年代末,人工神經(jīng)網(wǎng)絡(luò)的研究陷入了低谷。而幾乎就在同一時(shí)期,投資者們也開始意識(shí)到,之前人們期待的“人工智能大爆發(fā)”并未到來。
比如 1958 年時(shí)候,就有科學(xué)家認(rèn)為,10 年之內(nèi),我們就能讓計(jì)算機(jī)成為國際象棋冠軍(實(shí)際上這件事在 1997 年才實(shí)現(xiàn)比預(yù)計(jì)晚了將近 30 年)。在 1970 年,有科學(xué)家認(rèn)為“ 3~8 年之內(nèi),就能有一臺(tái)普通人智力的機(jī)器人?!钡@顯然是做不到的,直到今天我們都無法造出這樣一臺(tái)機(jī)器。
這些“美好的未來”并未實(shí)現(xiàn),使得政府和投資者們也大大削減了研發(fā)經(jīng)費(fèi),人工智能迎來了第一個(gè)寒冬。
AI 寒冬
但好在人工智能領(lǐng)域有多條技術(shù)路線。在寒冬之下,連接主義的人工神經(jīng)網(wǎng)絡(luò)發(fā)展艱難,符號(hào)主義的專家系統(tǒng)卻悄然興起。
在 1972 年,一款叫 MYCIN 的專家系統(tǒng)出現(xiàn)了,它能夠基于病人的癥狀,推理出合適的治療方案。
圖源:unsplash.com
比如,MYCIN 里面記錄了多種內(nèi)科疾病的癥狀和病因,同時(shí)還有每種疾病適用什么樣的藥物,哪些藥物之間會(huì)相互反應(yīng)。如果一個(gè)人拉肚子了,只要輸入對應(yīng)的癥狀(比如體溫、血常規(guī)數(shù)據(jù)、持續(xù)時(shí)間等等),MYCIN 就能推理出他所患的疾病,并且開具合適的藥物。
MYCIN 給出的治療方案“可接受性評(píng)分”跟人類專家的相差無幾(MYCIN為65%,五位人類專家為 42.5%~62.5% )。
除了 MYCIN,另一款名叫 XCON 的專家系統(tǒng)幫助 DEC 公司每年節(jié)省上千萬美元的成本( XCON 可以理解成一種專業(yè)的訂單處理系統(tǒng))??吹綄<蚁到y(tǒng)有實(shí)打?qū)嵉慕?jīng)濟(jì)效益,其他公司也在二十世紀(jì)八十年代開始效仿,紛紛建立自己的專家系統(tǒng)以節(jié)約成本。
但隨著專家系統(tǒng)的普及,它的弊端也逐漸顯現(xiàn),比如,專家系統(tǒng)知識(shí)庫里的知識(shí)也不會(huì)自動(dòng)更新,專家系統(tǒng)的維護(hù)成本很高。
專家系統(tǒng)很快就陷入了僵局,而在此時(shí),連接主義的人工神經(jīng)網(wǎng)絡(luò)迎來了自己的“文藝復(fù)興。
在二十世紀(jì)七八十年代,陸續(xù)有科學(xué)家發(fā)現(xiàn)了“反向傳播算法”的重要性。在 1982 年,保羅·韋布斯將反向傳播算法應(yīng)用到多層感知器中,這對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展非常重要,我們今天的人工神經(jīng)網(wǎng)絡(luò),幾乎都離不開反向傳播算法。
由此可以看出,無論在人工智能的寒冬還是復(fù)興時(shí)期,符號(hào)主義和連接主義的研究都在繼續(xù),這給人工智能技術(shù)取得飛躍和突破提供了條件。如果沒有這些多元化的研究為基礎(chǔ),人工智能的研究可能會(huì)深陷在某一條道路中難以前進(jìn)。
當(dāng)然了,除了人工智能技術(shù)本身,其他行業(yè)的突破,同樣也會(huì)促進(jìn)人工智能領(lǐng)域的發(fā)展。比如,在二十世紀(jì)九十年代以后,芯片技術(shù)飛速發(fā)展,計(jì)算機(jī)的算力得以迅速提升,這對人工智能的發(fā)展來說也至關(guān)重要。
比如二十世紀(jì)九十年代以前,即便有了反向傳播算法,想訓(xùn)練層數(shù)非常多的(超過 5 層)的深度神經(jīng)網(wǎng)絡(luò)會(huì)非常困難,因此人工神經(jīng)網(wǎng)絡(luò)一度也被支持向量機(jī)所取代。而在 2000 年前后,GPU 的出現(xiàn)讓人工神經(jīng)網(wǎng)絡(luò)(主要是深度神經(jīng)網(wǎng)絡(luò))的訓(xùn)練速度大幅提升,再加上互聯(lián)網(wǎng)的普及帶來了大量可供AI學(xué)習(xí)的數(shù)據(jù),深度學(xué)習(xí)技術(shù)開始嶄露頭角。
BERT 與 GPT
到了人工智能技術(shù)飛速發(fā)展的今天,多元化的研究依然能帶來意想不到的突破。比如今天我們所熟悉的 ChatGPT,正是多種研究齊頭并進(jìn)的受益者。
在 2017 年,Google Brain 的科學(xué)家們發(fā)表了一篇名為《Attention Is All You Needed》的論文,提出了 Transformer 模型。
簡單的說,Transformer 是一種能夠讓計(jì)算機(jī)更好地“讀懂”人類語言的模型。它引入了“注意力”和“自注意力”機(jī)制,類似于我們看書時(shí)候,會(huì)把注意力集中在比較難理解的片段、詞句上,并且綜合上下文的意思,來理解這些片段、詞句。
基于 Transformer 人們繼續(xù)開發(fā)了多種大模型,在 2018 年 Google 推出了 BERT 模型。在同一年,Open AI 也推出了 GPT 模型,這兩個(gè)模型有很多相似之處,但也有一些區(qū)別。
簡單的說 BERT 更擅長于理解文本中的詞義,而 GPT 更擅長于生成文本。
BERT 能夠從一個(gè)單詞的前后兩側(cè)來理解它的含義,有點(diǎn)像考試中的填空題。比如:“我的寵物是一只會(huì)叫的(),它愛啃骨”。BERT 非常擅長從空格的前后判斷出,這里的詞最可能是“狗”。
而GPT則是單向的,像我們閱讀一樣從左到右分析,并且預(yù)測出下一個(gè)單詞。比如“我的寵物是一只會(huì)叫的狗,它愛()”,GPT 能夠根據(jù)前文信息補(bǔ)全后面的內(nèi)容。
BERT 出現(xiàn)之后,因?yàn)樗谡Z義理解方面有著非常優(yōu)秀的表現(xiàn),在自然語言處理方面大放異彩。而在 2018 年到 2020 年,GPT 模型并沒有像今天這樣受人關(guān)注,但它的研究沒有因此停步。
在 2019 年、2020 年,Open A I相繼推出了 GPT 2.0、GPT 3.0。在 GPT 3.0 的時(shí)候,GPT 的參數(shù)達(dá)到了 1750 億,訓(xùn)練樣本超過 40TB,GPT 3.0 涌現(xiàn)出了比之前的 GPT 模型更強(qiáng)的理解力和生成能力。
在 GPT3.5 又加入了人類標(biāo)記的訓(xùn)練方法,性能又有了進(jìn)一步的提升。而在 Chat GPT 出現(xiàn)之后,越來越多的人了解到了 GPT 這項(xiàng)技術(shù),這也再次把人工智能推到了人類技術(shù)發(fā)展的舞臺(tái)中央。
每一項(xiàng)研究都值得重視
由此可以看出,在整個(gè)人工智能發(fā)展的過程中,多元化的研究和發(fā)展給人工智能技術(shù)帶來了更多的可能性。比如在二十世紀(jì)六十年代到九十年代,專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)同步發(fā)展,一項(xiàng)技術(shù)陷入困境,會(huì)有其他技術(shù)興起。
對于整個(gè)人工智能領(lǐng)域是如此,而如果聚焦于大模型這樣的領(lǐng)域也是如此。在自然語言處理領(lǐng)域,科學(xué)家們也并沒有因?yàn)?BERT 的效果突出,就冷落了 GPT。這才給了 Chat GPT 在 2023 年讓人們?nèi)吮M皆知的機(jī)會(huì)。
除了 GPT 和 BERT,在大模型領(lǐng)域還有很多模型在研究、發(fā)展中。這些模型中的某項(xiàng)技術(shù)、某些成果可能在未來會(huì)給自然語言處理甚至是這個(gè) AI 行業(yè)帶來顛覆性的改變。
因此,回到最開頭的問題,如果所有的公司、機(jī)構(gòu)集中精力和資源去訓(xùn)練一個(gè)模型,確實(shí)有機(jī)會(huì)造出一個(gè)超級(jí)大模型。但在這個(gè)過程中,可能會(huì)失去一部分寶貴的“技術(shù)多樣性”。各個(gè)公司的商業(yè)化考量,可能也會(huì)在客觀上促成 AI 的多元化發(fā)展。
參考文獻(xiàn)
[1]中國大百科全書
https://www.zgbk.com/ecph/words?SiteID=1&ID=216644&SubID=81535
[2]斯坦福哲學(xué)百科全書
https://plato.stanford.edu/archives/fall2018/entries/connectionism/#DesNeuNet
[3]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J].Bulletin of Mathematical Biophysics, 1943, 5: 115-133.
[4]HEBB D O The Organization of Behavior: A Neuropsychological Theory[M].Lawrence Erlbaum Associates, New Jersey, 1949.
[5]ROSENBLATT F. The perceptron: Probabilistic model for information storage and organization in the brain[J].Psychological Review, 1958, 65(6): 386-408.
[6]Simon & Newell 1958, p. 7?8 quoted in Crevier 1993, p. 108.
[7]Yu VL, Fagan LM, Wraith SM, Clancey WJ, Scott AC, Hannigan J, Blum RL, Buchanan BG, Cohen SN. Antimicrobial selection by a computer. A blinded evaluation by infectious diseases experts. JAMA. 1979 Sep 21;242(12):1279-82. PMID: 480542.
[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
策劃制作
作者丨秦曾昌 北京航空航天大學(xué)教授
田達(dá)瑋 科普作者
審核丨于旸 騰訊安全玄武實(shí)驗(yàn)室負(fù)責(zé)人
策劃丨徐來 崔瀛昊
責(zé)編丨一諾