97久久碰国产精品2023,精品福利一区

站在香農(nóng)與玻爾茲曼肩上，看深度學(xué)習(xí)的術(shù)與道

在《迷人的數(shù)據(jù)與香農(nóng)的視角》一文中，我介紹了自己的“頓悟”：事物由不同層次的隨機(jī)變量展現(xiàn)出來(lái)的信息來(lái)表達(dá)，不同層次上的隨機(jī)變量攜帶不同的信息，共同組合影響上一層的隨機(jī)變量的信息表達(dá)，而隨機(jī)變量對(duì)外表達(dá)的信息則取決于該隨機(jī)變量的條件概率分布。不少朋友贊同，同行更認(rèn)為與深度學(xué)習(xí)相通。

如果真正理解了這句話(huà)的涵義，你其實(shí)已經(jīng)理解了深度學(xué)習(xí)的精髓。例如識(shí)別一個(gè)人，體形、膚色、臉型、眼睛、鼻梁、嘴角等等，都是表征這個(gè)人的隨機(jī)變量，用機(jī)器學(xué)習(xí)的術(shù)語(yǔ)叫特征，有顯式有隱式。不同輪廓，不同血型，不同氣質(zhì)，不同性格，不同的IQ、EQ..., 不同層次的信息綜合地表達(dá)了這個(gè)人。這種層級(jí)化的表達(dá)，大可以描述宇宙系統(tǒng)，小可以描述雨滴、微生物。

香農(nóng)基于概率分布定義的信息熵，是對(duì)觀測(cè)到的事物隨機(jī)變量不確定度的描述，熵增加，不確定度增加；熵減小，不確定度減小。例如人臉，臉型有不同的取值可能性，眼睛大小、位置，睫毛長(zhǎng)短，以及相互位置都有不同的取值范圍與可能性。當(dāng)這些不同特征的可能取值被一一觀測(cè)到之后，我們也就逐步認(rèn)清了這張臉。也就是如果通過(guò)觀測(cè)發(fā)現(xiàn)，某個(gè)東西走路像鴨子，叫起來(lái)像鴨子，看起來(lái)像鴨子，ok, 我們就認(rèn)為它是鴨子。

這里提到了觀測(cè)，這是獲取事物信息，從而認(rèn)識(shí)事物的唯一途徑。人們需要盡可能多的了解這個(gè)事物不同層次的特征，盡量詳盡，詳盡到可以把他/她/它從與他/她/它極其相似的事物中區(qū)別出來(lái)，也就是窮盡這些隨機(jī)變量的可能性之后，他仍然有別于其他。說(shuō)起來(lái)很拗口，這些信息被記錄成數(shù)據(jù)，也某種程度上解釋了為什么大數(shù)據(jù)如此火熱，大其實(shí)是足夠，足夠詳盡，足夠深層次，足夠及時(shí)，去識(shí)別一個(gè)事物。大數(shù)據(jù)公司常用的套路是忽悠做360度客戶(hù)畫(huà)像，我們需要想想什么是360度，你的親朋好友多少度了解你，你自己360度了解自己?jiǎn)幔?能畫(huà)出3.6度嗎？

觀測(cè)是有誤差的，而且很多情況下沒(méi)法直接進(jìn)行，比如計(jì)算湖泊中魚(yú)的平均長(zhǎng)度，但不同體長(zhǎng)的魚(yú)在湖水中的分布不清楚，如何撈出來(lái)量量呢？馬爾科夫說(shuō)這好辦，你構(gòu)造一個(gè)概率分布遷移的鏈，從初始分布 P0, 經(jīng)過(guò) n 次轉(zhuǎn)移概率為P 的轉(zhuǎn)移之后，肯定收斂于穩(wěn)態(tài)分布 Pn。沒(méi)明白？ Gibbs懂了，發(fā)明了Gibbs采樣方法。不過(guò)這里的轉(zhuǎn)移矩陣是需要滿(mǎn)足細(xì)致平穩(wěn)條件的，也就是互相轉(zhuǎn)移的概率相等，否則就不穩(wěn)定了（敲黑板），記住“平穩(wěn)”這個(gè)前提。

幾位哈佛物理學(xué)家在最近的論文中《Why does deep and cheap learning work so well?》，對(duì)上文的分層隨機(jī)表達(dá)方式做了理論梳理，在我看來(lái)，簡(jiǎn)直就是神總結(jié)，讓你不得不佩服哈佛大學(xué)物理學(xué)者的功力之深厚。不少計(jì)算機(jī)科學(xué)家嘚吧嘚的多少層花式神經(jīng)網(wǎng)絡(luò)架構(gòu)，隨機(jī)梯度優(yōu)化求解，說(shuō)不清的無(wú)厘頭正則化，都是“術(shù)”，在這里找到了作為其理論基礎(chǔ)的“道”。論文作者用下圖來(lái)概括深度學(xué)習(xí)領(lǐng)域的三類(lèi)最典型問(wèn)題，無(wú)監(jiān)督學(xué)習(xí)（Unsupervided learning），有監(jiān)督學(xué)習(xí)的分類(lèi)（Classification）與預(yù)測(cè)（Prediction），論文中看似有typo , AI 可能認(rèn)不出來(lái)。這三類(lèi)問(wèn)題歸根結(jié)底都是用神經(jīng)網(wǎng)絡(luò)來(lái)近似概率分布：想象一個(gè)（x,y）的聯(lián)合概率分布，或y發(fā)生條件下，x的條件概率分布，或互換，訓(xùn)練的過(guò)程就是找到這個(gè)近似概率分布函數(shù)的過(guò)程。

流行的深度學(xué)習(xí)算法怎么求解這些概率分布的呢？我們先把這些隨機(jī)變量的觀測(cè)數(shù)據(jù)（訓(xùn)練數(shù)據(jù)）所包含的香農(nóng)信息熵算一下，并且認(rèn)定這是系統(tǒng)最大可能的信息展現(xiàn)（最大似然），然后最小化剩余的部分，就是求極大極小值，而且是用數(shù)值的方法，這里有不少的假設(shè)，比如凸函數(shù)，比如李普希茲連續(xù)（也可以理解成某種意義上的平穩(wěn)假設(shè)），不少的算“術(shù)”，比如拉格朗日乘子，比如隨機(jī)梯度下降，都是“賞心悅目”的微積分。通過(guò)對(duì)這個(gè)香農(nóng)熵的方式適當(dāng)約束，你能得到熟悉的最小二乘法，大學(xué)物理實(shí)驗(yàn)的時(shí)候擬合直線(xiàn)你肯定用過(guò)。

通過(guò)訓(xùn)練尋找這些概率分布函數(shù)，其中隱含著一個(gè)基本假設(shè)，就是系統(tǒng)是處于相對(duì)穩(wěn)定狀態(tài)的，一個(gè)急速演進(jìn)中的開(kāi)放系統(tǒng)，概率的方法應(yīng)該是不適合的。例如機(jī)器翻譯，對(duì)于相對(duì)穩(wěn)定的事物的語(yǔ)言描述，AI翻譯應(yīng)該能夠勝任，對(duì)于新的網(wǎng)絡(luò)流形語(yǔ)，或小眾的新生事物，前幾年例如甄嬛傳，基于統(tǒng)計(jì)的AI翻譯或許就沒(méi)那么得心應(yīng)手了。周鴻祎在360營(yíng)銷(xiāo)盛典上總結(jié)AI 在直播中的表現(xiàn)的時(shí)候說(shuō)，''計(jì)算機(jī)就把所有的錐子臉都定義成美女"。

又比如玻爾茲曼機(jī)，基于哈密爾頓自由能的分布其實(shí)都是有隱含的系統(tǒng)相對(duì)穩(wěn)定假設(shè)的（玻爾茲曼分布是“平衡態(tài)”氣體分子的能量分布律）。對(duì)于非穩(wěn)定系統(tǒng)，就得求助于普利高津了。所以，當(dāng)我們?yōu)锳I的不斷進(jìn)步的“智能”歡呼的時(shí)候，一定要冷靜的認(rèn)識(shí)到它可能不適用的情境，請(qǐng)相信沒(méi)有放之四海而皆準(zhǔn)的真理，除了這句話(huà)本身。只有我在懷疑這件事不能懷疑之外，其他都是值得懷疑的。

另外我還有個(gè)忠告，不管AI有多牛，請(qǐng)盡量審慎地相信基于統(tǒng)計(jì)的預(yù)測(cè)（prediction）, 看看這個(gè)農(nóng)夫諺語(yǔ)，你就理解了：我只想知道將來(lái)我會(huì)死在什么地方，這樣我就不去那兒了。

作者：王慶法，數(shù)據(jù)領(lǐng)域?qū)＜遥紫瘮?shù)據(jù)官聯(lián)盟專(zhuān)家組成員

站在香農(nóng)與玻爾茲曼肩上，看深度學(xué)習(xí)的術(shù)與道

站在香農(nóng)與玻爾茲曼肩上，看深度學(xué)習(xí)的術(shù)與道