GPT4技術(shù)原理三:重整化群與生成式AI
雖然微軟科學(xué)家Bubeck宣稱傳統(tǒng)機器學(xué)習(xí)已經(jīng)不存在了,但是 AI 物理學(xué)還是實打?qū)嵗^續(xù)存在的,而且還有可能在大模型時代爆發(fā)。本文是GPT4技術(shù)原理探索系列第三篇,探討一下重整化群與大模型的訓(xùn)練和生成的背后機理。
“熟讀唐詩三百首,不會作詩也會謅”- 魯迅
魯迅先生可能很謙虛說這話不是他說的,但是卻不經(jīng)意間道出了大模型成功的真實邏輯。在熟讀天下文章三百T之后,大模型開始會謅“人話”了,而且頭頭是道。保守派學(xué)者認為大模型不過是“一本正經(jīng)的胡說八道”,但仔細想想誰又不是”一本正經(jīng)的胡說八道”呢?李白的詩句最典型:“白發(fā)三千丈,緣愁似個長”,“危樓高百尺,手可摘星辰”,“桃花潭水深千尺,不及汪倫送我情”,“飛流直下三千尺,疑是銀河落九天”,哪句不是一本正經(jīng)的胡說八道?而且保守派學(xué)者沒有深入研究 AI 物理學(xué),就妄下結(jié)論,本身不也是某種意義上的“一本正經(jīng)的胡說八道”?!
言歸正傳,GPT4技術(shù)原理二:相變與涌現(xiàn)中我們提到,重整化群(下文簡稱RG: Renormalization Group) 是研究不同尺度下對稱性破缺與重建過程的核心數(shù)學(xué)手段。借助RG,人們可以在不同尺度上分析、觀察系統(tǒng)的特性。這是分層次結(jié)構(gòu)化的認知思想,人們每天都在實踐。
為更好的理解RG,我們需要回顧一下”群(Group)“這一看似高深的數(shù)學(xué)概念。筆者大二還在學(xué)習(xí)數(shù)學(xué)分析、線性代數(shù)的時候,誤選了數(shù)學(xué)系研究生課程《李群與外微分》,還退不了,只好硬著頭皮一頭霧水的聽完。全程窘迫但是一個巨大的收益是,從此筆者不再對各種花樣玄妙的數(shù)學(xué)概念心生畏懼,即使仍然敬佩。實話實說,很多玄妙的概念是因為翻譯導(dǎo)致的,比如這里的”群(Group)“,比如”重整化“。
重整化群,李群,微信群,QQ群,這里”群“其實本質(zhì)都是一個意思,英文是Group。就是一“組”什么事物,因為某種意義需要放在一起。群有群約定的規(guī)范,有了規(guī)范才具備這里的”某種意義“。這些約定的規(guī)范決定了群與群的不同,也就是這些約定的規(guī)范定義了群。記得當(dāng)年筆者為了理解什么是群,翻遍了圖書館能見到的中文著作,一個比一個復(fù)雜抽象,滿篇的公式,沒有見到特別直觀intuitive的闡釋。
那數(shù)學(xué)上的群到底是什么意思呢?其實本質(zhì)很簡單。數(shù)學(xué)上的群,就是定義了一組變換(Transformation),或者也可以叫操作(Operation)。群成員是一組Operator 或者 Transformer,你聯(lián)想到了大模型的Transformer? 酷,不過這里還是泛指變換,我們下文再談跟LLM Transformer的關(guān)系。如果我們用G 表示群,則G(X)就表示將群定義的變換或操作作用在對象X上。有別于微信群的群,數(shù)學(xué)上定義了這一組Operator ( 這里我們用E,A,B表示這些Operator ) 之間應(yīng)該滿足的關(guān)系:
任何兩個operator相乘(AB)的結(jié)果還是群中的operator。相乘就是一個operator作用完,另一個operator再作用在其結(jié)果上, AB 就是B先作用,然后A作用;
存在單位operator E, 就是此operator作用在對象上,對象不變,E(X) = X;
如果AB=BA=E, 我們稱AB互逆, 每個operator 都得存在逆;
(AB)C = A(BC) 滿足可以互相結(jié)合,先算括弧里的,這個估計大家都熟;
你可能還是覺得operator聽起來玄乎抽象的,筆者為寫好此篇介紹,又去清華圖書館數(shù)學(xué)專著中尋覓,找到一本英文的最直觀的講群的書,劍橋大學(xué)出版社去年出版,作者是MIT學(xué)者?!禔n Introduction to Groups and their Matrices for Science Students》,筆者覺得本書作者Robert Kolenkow 是能夠化繁為簡,深入淺出娓娓道來的大師。大家可以支持他一下。本文不是小紅書種草文,是發(fā)自內(nèi)心的佩服,筆者真期望大二時候看到這本書。
引用一個書中的經(jīng)典例子,正三角形的旋轉(zhuǎn),E 是轉(zhuǎn)0°,A是轉(zhuǎn)120°,B是轉(zhuǎn)240°。大家看看這三個Operator組成的群是不是滿足上述的約束?好的,這個就是經(jīng)典的Abelian Group。
大家可以自行閱讀此書哈,書中詳述了這些變換存在對應(yīng)的數(shù)學(xué)上的矩陣表述。筆者在”迷人的數(shù)據(jù)與香農(nóng)的視角“一文中整理過:” 任何一個mxn的矩陣A, 都可以分解成三個矩陣的乘積, UEV’, U,V都是正交基組成的方陣,E是對角陣(可以不是方陣)“,”想象空間中的一個點(也可以叫向量)到另一個點的運動,也就是從一個向量變成另一個向量。其間發(fā)生了什么?從幾何意義上看,不過是一個向量分解到V上,然后分別做E描述的拉伸,再分解到U上。這個點到點的運動系統(tǒng)對外展現(xiàn)的信息用A表達了出來,而A中蘊含的動作是,在某些特定方向上的拉伸,也就是這個UEV中包含了A的潛變量,描述了運動的尺度與角度,在賦范空間,還會有長度,距離,體積這樣的概念。“
矩陣對應(yīng)著某種變換,群中定義的這些變換可以轉(zhuǎn)化為相應(yīng)的矩陣形式。這里注意我們提到這個變換是從一個固定坐標(biāo)系角度觀察事物(x,y) 旋轉(zhuǎn)拉伸變成了(x',y'),而從另一個角度看來,(x, y)其實也可以認為沒變,變得是觀察者的新坐標(biāo)系(X,Y) 變?yōu)椋╔',Y')。這個不起眼的”腦筋急轉(zhuǎn)彎“帶來了我們觀察世界翻天覆地的認知變化。也就是,事物(比如一幅圖像,一篇文字,一段語音)可能在其原始的坐標(biāo)系(坐標(biāo)系的維度通??梢灶惐仁挛锏淖杂啥龋┍憩F(xiàn)為極其復(fù)雜的形態(tài),而在另一個坐標(biāo)系(比如低維度或者說低自由度)下面表現(xiàn)為及其簡單的形態(tài)。復(fù)雜是終極的簡單。
筆者在”薛定諤的佛與深度學(xué)習(xí)中的因果“中提到,“事物由不同層次的隨機變量展現(xiàn)出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決于該隨機變量的條件概率分布”。底層的多個獨立的隨機變量,如果都服從高斯分布,根據(jù)上文描述的特性,可以推斷,一層層堆疊構(gòu)成上層的隨機變量之后,仍然服從高斯分布。而這個多個獨立的服從高斯分布的隨機變量的堆疊過程,就是典型的高斯過程。高斯過程是高斯概率分布在隨機函數(shù)空間的表現(xiàn)形式。
聰明的你可能很快注意到,這里說的不同層次的隨機變量有很好的性質(zhì),就是服從“高斯分布”。比如人們認識一張人臉,從眼角、眉梢、到額頭、五官,臉型,神態(tài)都可以捕獲不同層面的信息。濃眉大眼是你,神采奕奕也是你,都是從臉上蘊含的信息讀取出來的。這些“眼角、眉梢、到額頭、五官,臉型,神態(tài)”都可以是隨機變量,但他們大都是圍繞平均樣態(tài)的些許偏離,都是符合大數(shù)定律的偏離。而大數(shù)定律體現(xiàn)出這些變量的高斯分布規(guī)律。這些高斯分布的不同層次的隨機變量疊加就構(gòu)成了這張臉。認知這張臉的學(xué)習(xí)過程,是逐層提取這些潛在隨機變量的過程,而生成人臉圖像的過程就是逐層采樣恢復(fù)并堆疊這些隨機變量的過程。
這里,如果用Z代表這張臉,借助我們剛才學(xué)會的群的數(shù)學(xué)形式可以表達為:G(Z) = G1G2G3G…Gn( Z )。這里的G1到Gn對應(yīng)不同層次上Operation 或者說Transformation,也就是在各個層次的潛變量(“眼角、眉梢、到額頭、五官,臉型,神態(tài)”)構(gòu)成的新坐標(biāo)系里面的矩陣代表的變換。大家知道,這些潛變量都是對應(yīng)著簡單的高斯分布的,其實都是個隨機函數(shù),Gx(Z)也就是Z這張臉在這些潛變量函數(shù)基張成的空間中的樣子。概率分布是歸一的,也就是normalize, 反復(fù)的normalize就是renormalize. 大家看看,“重整化”翻譯的多么誤導(dǎo)。但約定俗成,我們只能用這個。這其實就是重整化群學(xué)習(xí)和生成圖像的本質(zhì)。簡單是終極的復(fù)雜。
在”漂亮國的核潛艇與深度學(xué)習(xí)的內(nèi)卷“(此文是筆者多年感悟的重要總結(jié),請一定認真多讀幾遍)一文中,筆者總結(jié)過:玻爾茲曼機 Boltzmann Machine 踐行了重整化群 Renormalization Group 的思想,事實上,在神經(jīng)網(wǎng)絡(luò)中引入隱含節(jié)點就是尺度重整化。每一次尺度變換后,自由能保持不變。F =-lnZ, 這里Z是配分函數(shù),是一個能量(不同能級上粒子數(shù))的概率分布,Z不變,即能量的概率分布不變。重整化群給出了損失函數(shù),也就是不同層的F自由能的差異,或者說兩個能量概率分布的“距離”, 訓(xùn)練就是來最小化這個距離。
我們中科院的學(xué)者對這一領(lǐng)域有重要的貢獻。上圖是RGFlow論文(https://arxiv.org/abs/2010.00029)中的最重要的一張圖。對一張圖像,重整化從細顆粒度到粗顆粒度,逐層提取潛變量Zn, 提取圖像中蘊含的各層次的結(jié)構(gòu);而生成圖像的過程就是從粗粒度,對潛變量的高斯概率分布進行采樣,重建下一個層次的結(jié)構(gòu)(類似你跟別人描述這個人濃眉大眼)。重整化的群變換Gn 在生成過程中用到 Gn的逆。GPT 和其他大語言模型的使用的Transformer其實就可以類比這些重整化的群變換G,但是目前沒有看到學(xué)術(shù)研究Transformer 是否嚴(yán)格有逆,也就是是否構(gòu)成嚴(yán)格意義上的群。
這是RGFlow 訓(xùn)練與生成模型的刨面圖,當(dāng)這個RG 模型看到過海量的人臉之后,它提取了來自廣泛樣本的人臉的各個層次的結(jié)構(gòu)信息。生成的時候從中采樣即可,記住,這些結(jié)構(gòu)信息都是體現(xiàn)為聯(lián)合概率分布,這些采樣都是在高斯的堆疊的聯(lián)合概率分布中采樣,然后通過RG 的operation 的逆運算,算出你想要的圖像。仔細體會一下,如果這個技術(shù)應(yīng)用于文本,也就是熟讀文章300T, 出口成章也就不足為奇了。有些自媒體剪刀漿糊講的預(yù)測下一個單詞,其實就是采樣生成技術(shù)。魯迅先生說的是對的。
然而,機械的熟讀文章300T ,沒有涌現(xiàn)也是做不到如李白一樣文思泉涌的。上篇筆者提到:RG提供了一種研究微觀細節(jié)如何產(chǎn)生較大尺度新涌現(xiàn)特性的方法。其實當(dāng)初科學(xué)家將RG用于研究連續(xù)相變臨界現(xiàn)象時,發(fā)現(xiàn)系統(tǒng)在不同尺度上,臨界點附近表現(xiàn)出的自相似,能用RG很好的描述。RG成為連續(xù)相變合理有效的理論表述,而連續(xù)相變則成為RG的物理基礎(chǔ),重整化群的不穩(wěn)定不動點對應(yīng)了相變的發(fā)生。
根據(jù)“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機理“ 中的計劃,下篇我們看看Transformer與能量模型,RG可以作為其有效的建模方法。
作者:王慶法 麻省理工學(xué)院物理系學(xué)者,數(shù)據(jù)領(lǐng)域?qū)<?,首席?shù)據(jù)官聯(lián)盟專家組成員