想象一下,如果人工智能(AI)模型能像人腦一樣,規(guī)模小,耗能少,但具備同樣復(fù)雜功能,那現(xiàn)階段 AI 模型訓(xùn)練的耗能大、難理解的瓶頸是不是就能解決了?
中國科學(xué)院自動化研究所李國齊、徐波研究員團(tuán)隊聯(lián)合清華大學(xué)、北京大學(xué)等團(tuán)隊便在這一方面取得了突破——
他們借鑒大腦神經(jīng)元復(fù)雜動力學(xué)特性,提出了“基于內(nèi)生復(fù)雜性”的類腦神經(jīng)元模型構(gòu)建方法,而非基于 Scaling Law 去構(gòu)建更大、更深和更寬的神經(jīng)網(wǎng)絡(luò)。這種方法不僅改善了傳統(tǒng)模型通過向外拓展規(guī)模帶來的計算資源消耗問題,還保持了性能,內(nèi)存使用量減少了 4 倍,處理速度提高了 1 倍。
研究論文以“Network model with internal complexity bridges artificial intelligence and neuroscience”為題,發(fā)表在權(quán)威期刊 Nature Computational Science 上。共同通訊作者為中國科學(xué)院自動化所李國齊研究員、徐波研究員,北京大學(xué)田永鴻教授。共同一作是清華大學(xué)錢學(xué)森班的本科生何林軒(自動化所實習(xí)生),數(shù)理基科班本科生徐蘊輝(自動化所實習(xí)生),清華大學(xué)精儀系博士生何煒華和林逸晗。
李國齊解釋說,構(gòu)建更大、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)的流行方法,稱為“基于外生復(fù)雜性”,消耗了大量的能源和計算能力,同時缺乏可解釋性。相比之下,擁有 1000 億個神經(jīng)元和 1000 萬億個突觸連接的人腦僅需 20 瓦的功率即可高效運行。
加州大學(xué)圣克魯斯分校 Jason Eshraghian 團(tuán)隊在評論文章中表示,這一發(fā)現(xiàn)暗示了 AI 發(fā)展的潛在轉(zhuǎn)變。盡管大語言模型(LLM)的成功展示了通過大量參數(shù)計數(shù)和復(fù)雜架構(gòu)的外部復(fù)雜性的力量,但這項新的研究表明,增強內(nèi)部復(fù)雜性可能提供了改善 AI 性能和效率的替代路徑。
他們還表示,AI中的內(nèi)部與外部復(fù)雜性之爭仍然開放,兩種方法在未來發(fā)展中都可能發(fā)揮作用。通過重新審視和深化神經(jīng)科學(xué)與 AI 之間的聯(lián)系,我們可能會發(fā)現(xiàn)構(gòu)建更高效、更強大,甚至更“類腦”的 AI 系統(tǒng)的新方法。
效果怎么樣?
本研究首先展示了脈沖神經(jīng)網(wǎng)絡(luò)神經(jīng)元 LIF(Leaky Integrate and Fire)模型和 HH(Hodgkin-Huxley)模型在動力學(xué)特性上存在等效性,進(jìn)一步從理論上證明了 HH 神經(jīng)元可以和四個具有特定連接結(jié)構(gòu)的時變參數(shù) LIF 神經(jīng)元(tv-LIF)動力學(xué)特性等效。
基于這種等效性,團(tuán)隊通過設(shè)計微架構(gòu)提升計算單元的內(nèi)生復(fù)雜性,使 HH 網(wǎng)絡(luò)模型能夠模擬更大規(guī)模 LIF 網(wǎng)絡(luò)模型的動力學(xué)特性,在更小的網(wǎng)絡(luò)架構(gòu)上實現(xiàn)與之相似的計算功能。進(jìn)一步,團(tuán)隊將由四個 tv-LIF 神經(jīng)元構(gòu)建的“HH 模型”(tv-LIF2HH)簡化為 s-LIF2HH 模型,通過仿真實驗驗證了這種簡化模型在捕捉復(fù)雜動力學(xué)行為方面的有效性。
圖|一種從 tv-LIF 過渡到 HH 的方法,它將外部連接的復(fù)雜性收斂到單個神經(jīng)元的內(nèi)部。
在多樣化的輸入下,s-LIF2HH 和 HH 網(wǎng)絡(luò)的尖峰率和時間相似,尖峰活動的近似仍然存在,減少了計算成本并增強了生物可塑性,使得模型更適用于基于反向傳播的訓(xùn)練。
對于方波、正弦波、三角波和鋸齒波輸入的平均相對誤差分別為 3.3%,7.3%,5.8% 和 8.7%,均低于10%。這些不同輸入下的結(jié)果確認(rèn)了 s-LIF2HH 和 HH 模型產(chǎn)生了相似的尖峰計數(shù),并且在發(fā)放時間上緊密對齊,展示了整體發(fā)放模式的相似性。這種普遍性意味著 HH 和 s-LIF2HH 模型之間的近似動力學(xué)在不同任務(wù)中持續(xù)存在。
圖|高精度仿真案例的等效圖。
單個 HH 神經(jīng)元的增強信息處理能力補償了更簡單的拓?fù)浣Y(jié)構(gòu);因此,HH 神經(jīng)元的內(nèi)部復(fù)雜性與 s-LIF2HH 子網(wǎng)絡(luò)的外部復(fù)雜性相當(dāng)。具有更大內(nèi)部復(fù)雜性的模型可以與具有更大外部復(fù)雜性的模型相匹配,而僅僅增加網(wǎng)絡(luò)規(guī)模無法彌合這些與更簡單模型之間的差距。
HH 和 s-LIF2HH 模型表現(xiàn)相似,都明顯優(yōu)于 LIF;4×LIF 略優(yōu)于 LIF,而 b-ANN 略遜色但仍可比較。HH 和 s-LIF2HH 網(wǎng)絡(luò)由于其復(fù)雜的結(jié)構(gòu),在時序信息提取方面具有強大的能力,這優(yōu)于僅僅增加網(wǎng)絡(luò)規(guī)模。
研究團(tuán)隊還進(jìn)行了魯棒性測試,以補充驗證 HH 和 s-LIF2HH 網(wǎng)絡(luò)的可比性。結(jié)果表明,HH 和 s-LIF2HH 網(wǎng)絡(luò)具有相似的噪聲魯棒性,而魯棒性源自 HH 神經(jīng)元的動態(tài)復(fù)雜性和 s-LIF2HH 的復(fù)雜拓?fù)?,而不僅僅是神經(jīng)元數(shù)量。這表明,模型內(nèi)部復(fù)雜性與外部復(fù)雜性之間具有等效性,并且它們在深度學(xué)習(xí)任務(wù)中比具有簡單動力學(xué)增加規(guī)模的模型有更加明顯的優(yōu)勢。
圖|深度學(xué)習(xí)任務(wù)中的表征能力和魯棒性。
HH 網(wǎng)絡(luò)的 FLOPs 高于 LIF 網(wǎng)絡(luò),但與相同結(jié)構(gòu)的 s-LIF2HH 網(wǎng)絡(luò)相比大約低 50%,這表明層間連接對總 FLOPs 的貢獻(xiàn)大于神經(jīng)元操作。HH 和 LIF 網(wǎng)絡(luò)的可訓(xùn)練參數(shù)數(shù)量相同,而與 s-LIF2HH 網(wǎng)絡(luò)相比,可訓(xùn)練參數(shù)數(shù)量大約減少 25%。
由于 HH 網(wǎng)絡(luò)需要較少的計算,因此其時間消耗也相應(yīng)較低。HH-fc 和 HH-conv 網(wǎng)絡(luò)在推理過程中分別比 s-LIF2HH-fc 和 s-LIF2HH-conv 網(wǎng)絡(luò)大約快 30% 和 45%,在訓(xùn)練過程中分別大約快 36% 和 52%。盡管 HH 和 s-LIF2HH 網(wǎng)絡(luò)比 LIF 網(wǎng)絡(luò)慢,但 HH 網(wǎng)絡(luò)使用較少的計算資源,且比 s-LIF2HH 網(wǎng)絡(luò)快。這些結(jié)果表明,與 s-LIF2HH 網(wǎng)絡(luò)相比,HH 網(wǎng)絡(luò)提供了顯著的計算效率,證明了將外部復(fù)雜性轉(zhuǎn)化為內(nèi)部復(fù)雜性可以提高深度學(xué)習(xí)模型的效率。
圖|計算資源和統(tǒng)計指標(biāo)分析。
HH 網(wǎng)絡(luò)的 I (X, Z) 與 LIF 網(wǎng)絡(luò)相當(dāng),但遠(yuǎn)低于 s-LIF2HH 網(wǎng)絡(luò)。相反,HH 網(wǎng)絡(luò)的 I (Z, Y) 與 s-LIF2HH 網(wǎng)絡(luò)相似,但優(yōu)于 LIF 網(wǎng)絡(luò)。這表明 HH 模型與 s-LIF2HH 模型相比具有較低的復(fù)雜性但相似的表示能力,與 LIF 模型相比具有類似的復(fù)雜性但更好的表示能力。
不足與展望
這項研究為構(gòu)建更高效、更強大的 AI 系統(tǒng)提供了新的思路,并為將神經(jīng)科學(xué)成果應(yīng)用于 AI 研究提供了理論支持。
但是,研究也存在一定的局限性。例如,HH 和 s-LIF2HH 模型在深度學(xué)習(xí)實驗中具有不同的脈沖模式,這表明模擬中近似的動態(tài)特性可能不是它們可比性的良好解釋。這種現(xiàn)象可能源于它們基本單元(HH 神經(jīng)元和 s-LIF2HH 子網(wǎng)絡(luò))固有的相似復(fù)雜性。
此外,由于神經(jīng)元非線性和脈沖機制的局限性,本研究僅在小型網(wǎng)絡(luò)中進(jìn)行了,未來將研究更大規(guī)模的網(wǎng)絡(luò)和單個網(wǎng)絡(luò)中多種神經(jīng)元模型的影響。
目前,研究團(tuán)隊已開展對更大規(guī)模 HH 網(wǎng)絡(luò),以及具備更大內(nèi)生復(fù)雜性的多分支多房室神經(jīng)元的研究,有望進(jìn)一步提升大模型計算效率與任務(wù)處理能力,實現(xiàn)在實際應(yīng)用場景中的快速落地。
內(nèi)部復(fù)雜性小的模型方法可能為開發(fā)更高級和混合的 AI 提供了一條有希望的途徑。未來,研究團(tuán)隊表示,他們希望更多研究人員關(guān)注復(fù)雜性這一主題,并利用神經(jīng)科學(xué)的發(fā)現(xiàn)進(jìn)行 AI 研究。