版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

站在香農(nóng)與玻爾茲曼肩上,看深度學(xué)習(xí)的術(shù)與道

中啟行
企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

站在香農(nóng)與玻爾茲曼肩上,看深度學(xué)習(xí)的術(shù)與道

在《迷人的數(shù)據(jù)與香農(nóng)的視角》一文中,我介紹了自己的“頓悟”:事物由不同層次的隨機(jī)變量展現(xiàn)出來(lái)的信息來(lái)表達(dá),不同層次上的隨機(jī)變量攜帶不同的信息,共同組合影響上一層的隨機(jī)變量的信息表達(dá),而隨機(jī)變量對(duì)外表達(dá)的信息則取決于該隨機(jī)變量的條件概率分布。不少朋友贊同,同行更認(rèn)為與深度學(xué)習(xí)相通。

如果真正理解了這句話(huà)的涵義,你其實(shí)已經(jīng)理解了深度學(xué)習(xí)的精髓。例如識(shí)別一個(gè)人,體形、膚色、臉型、眼睛、鼻梁、嘴角等等,都是表征這個(gè)人的隨機(jī)變量,用機(jī)器學(xué)習(xí)的術(shù)語(yǔ)叫特征,有顯式有隱式。不同輪廓,不同血型,不同氣質(zhì),不同性格,不同的IQ、EQ..., 不同層次的信息綜合地表達(dá)了這個(gè)人。這種層級(jí)化的表達(dá),大可以描述宇宙系統(tǒng),小可以描述雨滴、微生物。

香農(nóng)基于概率分布定義的信息熵,是對(duì)觀測(cè)到的事物隨機(jī)變量不確定度的描述,熵增加,不確定度增加;熵減小,不確定度減小。例如人臉,臉型有不同的取值可能性,眼睛大小、位置,睫毛長(zhǎng)短,以及相互位置都有不同的取值范圍與可能性。當(dāng)這些不同特征的可能取值被一 一觀測(cè)到之后,我們也就逐步認(rèn)清了這張臉。也就是如果通過(guò)觀測(cè)發(fā)現(xiàn),某個(gè)東西走路像鴨子,叫起來(lái)像鴨子,看起來(lái)像鴨子,ok, 我們就認(rèn)為它是鴨子。

這里提到了觀測(cè),這是獲取事物信息,從而認(rèn)識(shí)事物的唯一途徑。人們需要盡可能多的了解這個(gè)事物不同層次的特征,盡量詳盡,詳盡到可以把他/她/它從與他/她/它極其相似的事物中區(qū)別出來(lái),也就是窮盡這些隨機(jī)變量的可能性之后,他仍然有別于其他。說(shuō)起來(lái)很拗口,這些信息被記錄成數(shù)據(jù),也某種程度上解釋了為什么大數(shù)據(jù)如此火熱,大其實(shí)是足夠,足夠詳盡,足夠深層次,足夠及時(shí),去識(shí)別一個(gè)事物。大數(shù)據(jù)公司常用的套路是忽悠做360度客戶(hù)畫(huà)像,我們需要想想什么是360度,你的親朋好友多少度了解你,你自己360度了解自己?jiǎn)幔?能畫(huà)出3.6度嗎?

觀測(cè)是有誤差的,而且很多情況下沒(méi)法直接進(jìn)行,比如計(jì)算湖泊中魚(yú)的平均長(zhǎng)度,但不同體長(zhǎng)的魚(yú)在湖水中的分布不清楚,如何撈出來(lái)量量呢? 馬爾科夫說(shuō)這好辦,你構(gòu)造一個(gè)概率分布遷移的鏈,從初始分布 P0, 經(jīng)過(guò) n 次 轉(zhuǎn)移概率為P 的轉(zhuǎn)移之后,肯定收斂于穩(wěn)態(tài)分布 Pn。沒(méi)明白? Gibbs懂了,發(fā)明了Gibbs采樣方法。不過(guò)這里的轉(zhuǎn)移矩陣是需要滿(mǎn)足細(xì)致平穩(wěn)條件的,也就是互相轉(zhuǎn)移的概率相等,否則就不穩(wěn)定了(敲黑板),記住“平穩(wěn)”這個(gè)前提。

幾位哈佛物理學(xué)家在最近的論文中《Why does deep and cheap learning work so well?》,對(duì)上文的分層隨機(jī)表達(dá)方式做了理論梳理,在我看來(lái),簡(jiǎn)直就是神總結(jié),讓你不得不佩服哈佛大學(xué)物理學(xué)者的功力之深厚。不少計(jì)算機(jī)科學(xué)家嘚吧嘚的多少層花式神經(jīng)網(wǎng)絡(luò)架構(gòu),隨機(jī)梯度優(yōu)化求解,說(shuō)不清的無(wú)厘頭正則化,都是“術(shù)”,在這里找到了作為其理論基礎(chǔ)的“道”。論文作者用下圖來(lái)概括深度學(xué)習(xí)領(lǐng)域的三類(lèi)最典型問(wèn)題,無(wú)監(jiān)督學(xué)習(xí)(Unsupervided learning),有監(jiān)督學(xué)習(xí)的分類(lèi)(Classification)與預(yù)測(cè)(Prediction), 論文中看似有typo , AI 可能認(rèn)不出來(lái)。這三類(lèi)問(wèn)題歸根結(jié)底都是用神經(jīng)網(wǎng)絡(luò)來(lái)近似概率分布:想象一個(gè)(x,y)的聯(lián)合概率分布,或y發(fā)生條件下,x的條件概率分布,或互換,訓(xùn)練的過(guò)程就是找到這個(gè)近似概率分布函數(shù)的過(guò)程。

流行的深度學(xué)習(xí)算法怎么求解這些概率分布的呢? 我們先把這些隨機(jī)變量的觀測(cè)數(shù)據(jù)(訓(xùn)練數(shù)據(jù))所包含的香農(nóng)信息熵算一下,并且認(rèn)定這是系統(tǒng)最大可能的信息展現(xiàn)(最大似然),然后最小化剩余的部分,就是求極大極小值,而且是用數(shù)值的方法,這里有不少的假設(shè),比如凸函數(shù),比如李普希茲連續(xù)(也可以理解成某種意義上的平穩(wěn)假設(shè)),不少的算“術(shù)”,比如拉格朗日乘子,比如隨機(jī)梯度下降,都是“賞心悅目”的微積分。通過(guò)對(duì)這個(gè)香農(nóng)熵的方式適當(dāng)約束,你能得到熟悉的最小二乘法,大學(xué)物理實(shí)驗(yàn)的時(shí)候擬合直線(xiàn)你肯定用過(guò)。

通過(guò)訓(xùn)練尋找這些概率分布函數(shù),其中隱含著一個(gè)基本假設(shè),就是系統(tǒng)是處于相對(duì)穩(wěn)定狀態(tài)的,一個(gè)急速演進(jìn)中的開(kāi)放系統(tǒng),概率的方法應(yīng)該是不適合的。例如機(jī)器翻譯,對(duì)于相對(duì)穩(wěn)定的事物的語(yǔ)言描述,AI翻譯應(yīng)該能夠勝任,對(duì)于新的網(wǎng)絡(luò)流形語(yǔ),或小眾的新生事物,前幾年例如甄嬛傳,基于統(tǒng)計(jì)的AI翻譯或許就沒(méi)那么得心應(yīng)手了。周鴻祎在360營(yíng)銷(xiāo)盛典上總結(jié)AI 在直播中的表現(xiàn)的時(shí)候說(shuō),''計(jì)算機(jī)就把所有的錐子臉都定義成美女"。

又比如玻爾茲曼機(jī),基于哈密爾頓自由能的分布其實(shí)都是有隱含的系統(tǒng)相對(duì)穩(wěn)定假設(shè)的(玻爾茲曼分布是“平衡態(tài)”氣體分子的能量分布律)。對(duì)于非穩(wěn)定系統(tǒng),就得求助于普利高津了。所以,當(dāng)我們?yōu)锳I的不斷進(jìn)步的“智能”歡呼的時(shí)候,一定要冷靜的認(rèn)識(shí)到它可能不適用的情境,請(qǐng)相信沒(méi)有放之四海而皆準(zhǔn)的真理,除了這句話(huà)本身。只有我在懷疑這件事不能懷疑之外,其他都是值得懷疑的。

另外我還有個(gè)忠告,不管AI有多牛,請(qǐng)盡量審慎地相信基于統(tǒng)計(jì)的預(yù)測(cè)(prediction), 看看這個(gè)農(nóng)夫諺語(yǔ),你就理解了: 我只想知道將來(lái)我會(huì)死在什么地方,這樣我就不去那兒了。

作者:王慶法,數(shù)據(jù)領(lǐng)域?qū)<遥紫瘮?shù)據(jù)官聯(lián)盟專(zhuān)家組成員

評(píng)論
科普5dc9f15cbb99a
太師級(jí)
站在香農(nóng)與玻爾茲曼肩上,看深度學(xué)習(xí)的術(shù)與道
2023-10-23
JYLx
庶吉士級(jí)
食物由不同層次的隨機(jī)變量展現(xiàn)出來(lái)的信息表達(dá),不同層次上的隨機(jī)變量攜帶不同信息,共同組合影響上一層的隨機(jī)變量的表達(dá),而隨機(jī)變量對(duì)外表達(dá)的信息則取決于隨機(jī)變量的條件概率分布。
2023-10-23
傳承解惑
大學(xué)士級(jí)
隨機(jī)變量對(duì)外表達(dá)的信息則取決于該隨機(jī)變量的條件概率分布,如果真正理解了這句話(huà)的涵義,你其實(shí)已經(jīng)理解了深度學(xué)習(xí)的精髓。
2023-10-23