版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

薛定諤的小板凳與深度學(xué)習(xí)的后浪

中啟行
企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

薛定諤的小板凳與深度學(xué)習(xí)的后浪

除了《薛定諤的滾》,《薛定諤的佛》,《薛定諤的愛情》之外,薛定諤小板凳的勵志故事在坊間也廣為流傳:話說薛定諤小的時候,老師布置回家做小板凳的手工作業(yè)。第二天老師看到薛定諤的粗糙小板凳說:“我想世界上不會有比這更差的凳子了”,薛定諤卻從書桌下拿出兩個更為粗糙的小板凳說:“有,這是我第一次和第二次做的,而剛交上去的是第三次做的”。

什么,你記得是愛因斯坦的小板凳?確定?愛因斯坦不是用相對論證明勾股定理來著嗎?他哪里會有時間做小板凳?!好吧,你是對的,enjoy。這個小板凳的故事,是一個偉大物理學(xué)家自我激勵的故事,也是薛定諤的千千萬萬的后浪們被激勵的故事。作者就是沐浴著這樣的勵志故事長大的,自我激勵著,也被一波一波的前浪們引領(lǐng)著,裹挾到大數(shù)據(jù)人工智能這個江湖的。

激勵的是需求

薛定諤的成長多大程度上來自自我激勵,不得而知,但是他的成功卻可能大多來自外部愛情的激勵,這一點我在《薛定諤的愛情》中強(qiáng)調(diào)過。有人試圖用馬斯洛的需求層次理論來解釋薛定諤現(xiàn)象:“人類的需求是一個金字塔,從底部到頂部,依次是生理、安全、社交、尊重、自我實現(xiàn)這五個需求。人們需要滿足金字塔底層的需求后,才有條件滿足更高層次的需求”,但這個努力似乎是不成功的:薛定諤的奇數(shù)層是同時滿足的,你品,你細(xì)品;而千千萬萬的人在同樣的愛情的外部激勵下,卻都沒有發(fā)現(xiàn)薛定諤方程,或者其他什么方程。

但這不是馬斯洛的錯,薛定諤畢竟是不確定性的代言人,海森伯也說世界本來就是測不準(zhǔn)的。馬斯洛的需求金字塔,實實在在為早期的激勵理論(Incentivetheory)打下了堅實的基礎(chǔ)。激勵理論最重要的流派,行為主義心理學(xué)創(chuàng)始人華生(John BroadusWatson)認(rèn)為:“通過激勵手段,誘發(fā)人的行為。在‘刺激—反應(yīng)’理論的指導(dǎo)下,激勵者的任務(wù)就是去選擇一套適當(dāng)?shù)拇碳?,即激勵手段,以引起被激勵者相?yīng)的反應(yīng)標(biāo)準(zhǔn)和定型的活動”。新行為主義者斯金納強(qiáng)調(diào)“人們的行為不僅取決于刺激的感知,也決定于行為的結(jié)果。當(dāng)行為的結(jié)果有利于個人時,這種行為就會重復(fù)出現(xiàn)而起著強(qiáng)化激勵作用。如果行為的結(jié)果對個人不利,這一行為就會削弱或消失。所以在訓(xùn)練(Training)中運用肯定、表揚、獎賞或否定、批評、懲罰等強(qiáng)化手段,可以對學(xué)習(xí)者的行為進(jìn)行定向控制或改變,以引導(dǎo)到預(yù)期的最佳狀態(tài)?!?/p>

行為主義大道

而這有意或無意的成了強(qiáng)化學(xué)習(xí)/深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。作為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)浪潮后,人工智能領(lǐng)域最被廣泛看好的后浪,強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)被業(yè)界寄(da)予(si)厚(chui)望(peng),成為通往通用人工智能(AGI)大門的金鑰匙。DeepMind 星際2 AI 對人類玩家的暴擊, OpenAI 15億參數(shù)的GPT-2超人語言模型,2019年深度強(qiáng)化學(xué)習(xí)的成功,激勵了人工智能領(lǐng)域的后浪們,沿著華生的行為主義康莊大道,前赴后繼。

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個分支,有別于經(jīng)典的有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí),其最大的特點就是在交互中學(xué)習(xí)(Learningfrom Interaction)。通過讓軟件定義的智能體(Agent)與環(huán)境(Environment)交互來訓(xùn)練模型。當(dāng)智能體的行為(Action)產(chǎn)生期望的結(jié)果時,智能體將獲得激勵(Reward),也就是環(huán)境給它這個行為正面或者負(fù)面的反饋,促其成長到新的狀態(tài)(State),這一行為也將被強(qiáng)化,塑造智能體在此環(huán)境下,后續(xù)的良好行為。這一交互過程持續(xù)迭代,智能體在獎勵或懲罰中不斷的“學(xué)習(xí)知識”,“積累經(jīng)驗”,從而更加適應(yīng)環(huán)境。業(yè)界認(rèn)為這一學(xué)習(xí)的范式非常類似于人類求知的過程,因而也就對其實現(xiàn)通用人工智能充滿期待。

未來不迎MDP

智能體不能隨意改變的任何東西都可以被認(rèn)為是環(huán)境的一部分,行為可以是我們想讓智能體學(xué)習(xí)的任何決策,狀態(tài)則是可以幫助智能體進(jìn)行行為選擇的任何事。同時,也不假定環(huán)境中的一切對智能體而言都是未知的,例如激勵規(guī)則是環(huán)境的一部分,但是智能體可以了解其算法,甚至智能體完全可以對環(huán)境此刻的獎懲機(jī)制了然于“心”。

想象一下自己是C羅,在踢一場足球聯(lián)賽,你就是球場上那個懵懂的智能體(Agent),球場、裁判、隊友與對手都是其所處環(huán)境(Environment)的一部分?,F(xiàn)在你要決定腳下這個球怎么踢(Action),傳球給隊友中的哪一位?還是自己拔腳怒射?還是傳給對手(假定是某大國風(fēng)范男足)?你頭腦里極其清楚,球踢到對方球門里,就能得一分(Reward),而踢到自家球門里,對方就得一分。你腦海過電影式的閃現(xiàn)剛才發(fā)生的一幕幕(Historical States ),形勢緊迫,你快速環(huán)顧了一下全場狀態(tài)(State),判斷了一下傳給隊友與射門成功的各種可能性(Policy),最后起腳射門,打在橫梁,嚇得對方守門員一身冷汗,隊友沖過來“拍了拍”你,以資鼓勵。至此,你完成了一次攻防(Episode)。

踢球正如下棋,最好能多看幾步,下棋落子無悔,踢球卻更復(fù)雜,即便多看了幾步,事情也不一定按照你設(shè)想的方向發(fā)展。萬一遇到豬隊友呢,萬一自己就是豬隊友呢,由于體力不支,本打算打門的球,妥妥地傳給了對方后衛(wèi)呢。場上形勢瞬息萬變,讓人一籌莫展。這時候你憶起了強(qiáng)化學(xué)習(xí)的心法:MP -> MRP -> MDP,靈明無著,物來順應(yīng),未來不迎,當(dāng)時不雜,既過不戀。

既過不戀MP,馬爾可夫過程,無記憶的隨機(jī)過程,也就是,一個具備馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列S1,S2, …,可定義為<S,P>,S是有限狀態(tài)的集合,P是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率;=> 當(dāng)時不雜MRP,馬爾可夫激勵過程,一個懂得價值(Value)的馬爾可夫過程,可以表示為<S,P, R, r>, R是激勵函數(shù),R是t狀態(tài)到t+1狀態(tài)的激勵的數(shù)學(xué)期望,r是激勵的價值貼現(xiàn)率;=> 未來不迎MDP, 馬爾可夫決策過程,是馬爾可夫激勵過程參與某種決策,它處于一個環(huán)境(Environment),其中的狀態(tài)都是馬爾可夫狀態(tài),<S,P,R,r,A>, A是有限的行為的集合。

拜天資聰穎,悟性極高,加之勤于溫習(xí)心法,你很快參透其中奧妙,下棋、星際Dota無往不勝。然而,球還是踢不好,中秋節(jié)拜早年也無濟(jì)于事,留給球隊的時間總是不多了。找不到隊形站位,難以貫徹戰(zhàn)術(shù)安排;反復(fù)演練的配合,場上無用武之地;小范圍成功傳切,難擋對方帽子戲法;苦于達(dá)成默契,技戰(zhàn)術(shù)明顯不穩(wěn)。。。艱苦卓絕的訓(xùn)練了10000小時,仍差世界頂尖幾條長安街。

馬爾可夫困境

上帝說“這世界太黑了,要有光”,于是牛頓出現(xiàn)了。牛頓如此成功,他的定律為人們描述了一個確定性的世界,萬物都按照確定的簡潔的規(guī)律運行,如同精心設(shè)計的機(jī)械鐘表。大數(shù)學(xué)家拉普拉斯甚至推導(dǎo)出了心中的智者。直到馬爾可夫建立了自己的隨機(jī)過程:“當(dāng)一個隨機(jī)過程在給定當(dāng)前狀態(tài)及所有過去狀態(tài)情況下,其未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài);換句話說,在給定當(dāng)前狀態(tài)時,它與過去狀態(tài)(即該過程的歷史路徑)是條件獨立的,那么此隨機(jī)過程即具有馬爾可夫性質(zhì)?!?/p>

矯枉必須過正,或者必然過正。馬爾可夫過程隨即在物理、化學(xué),生物、遺傳,信息、互聯(lián)網(wǎng),經(jīng)濟(jì)、社會廣泛應(yīng)用,從彼時機(jī)械決定論的挑戰(zhàn)者,如今幾近變成放之四海而皆準(zhǔn)的真理,大多時候人們會不假思索的做出馬爾可夫性質(zhì)的假設(shè),從而進(jìn)一步享受(enjoy)馬爾可夫過程帶來建模與推演的便利。我們可敬的學(xué)長,“概率學(xué)界學(xué)術(shù)教父”,鐘開萊先生在他的《Green, Brown, and Probability》書中如此評價:"The Markov property means that the past has no after-effect on thefuture whenthe present is known; but beware,big mistakes have been made through misunderstanding the exact meaning of thewords 'when the present is known'."筆者斗膽譯為:“馬爾可夫性質(zhì)意味著過去對于未來沒有后效,當(dāng)現(xiàn)在已知的時候;但請知悉,因?qū)?'當(dāng)現(xiàn)在已知的時候' 這個表述的確切含義的誤解,已經(jīng)鑄成了大錯。”

非馬爾可夫是規(guī)則,馬爾可夫是例外。這句話就可以解釋為什么強(qiáng)化學(xué)習(xí)目前只擅長玩游戲,足球總是踢不好。因為電子游戲往往沒有after-effect“后遺癥”, 而現(xiàn)實世界中后遺癥比比皆是。一塊石頭從陡坡上滑下,不具備馬爾可夫性質(zhì);你在泳池奮力游回岸邊,無奈嗆了水,不是馬爾可夫過程;冒名頂替,幾十年相安無事,不代表未來不會身陷囹圄,不是不報,時候未到。教練的指導(dǎo)與戰(zhàn)術(shù)部署貫穿全場,球場上形勢瞬息萬變,捕獲每個時刻的全部狀態(tài)(State)信息幾乎是天方夜譚,馬爾可夫性質(zhì)也就無從談起。

眼鏡蛇效應(yīng)

或許很幸運,你的強(qiáng)化學(xué)習(xí)問題恰好具備馬爾可夫性質(zhì),可以放心大膽建模成馬爾可夫過程。而且更幸運的是,這個問題跟金融折現(xiàn)一般直觀,所以選擇折現(xiàn)率 r 毫不費力,然后你開始構(gòu)建價值函數(shù)(Value function),以期后續(xù)用BellmanEquation推算激勵期望。是構(gòu)建狀態(tài)價值State Value函數(shù),還是行為價值 Action Value函數(shù)呢?正如牛頓的小石塊從有摩擦力的陡坡滑下,是看勢能還是看動能?你的終極目標(biāo)是打怪升級,可是這些終極目標(biāo)如何拆解到短期的每一步呢?是否存在到達(dá)終極目標(biāo)的完美路徑呢?你陷入深度思考。

人類一思考,上帝就發(fā)笑。上帝知道此刻你用的是唯二的腦皮層回路,不是杏仁核的情緒反饋。腦皮層會三思而后行。強(qiáng)化學(xué)習(xí)究竟在激勵什么?怎樣給出合適的激勵呢?如何定義這個智能體當(dāng)前的需求呢?朝哪個維度激勵呢?激勵到什么程度呢?如何避免走一步看一步,得過且過呢?遇到斯坦福教授“棉花糖”實驗中那些選擇延遲滿足的“熊孩子”怎么辦?你推崇的以退為進(jìn),聲東擊西,圍魏救趙的策略呢?你在訓(xùn)練的是個大腦還是杏仁核?

殖民時期印度,英政府想減少有毒眼鏡蛇的數(shù)量,頒布法令獎勵打死眼鏡蛇。而印度人為賞金反而開始養(yǎng)殖眼鏡蛇。英國政府意識到這個情況取消賞金后,養(yǎng)蛇人把毒蛇都放了繼而導(dǎo)致毒蛇大量繁殖。People always game thesystem,人們總會與機(jī)制博弈??b密設(shè)計的科舉,遺憾同樣無法完全規(guī)避冒名頂替,這里至少有242個坑爹的故事。谷歌科學(xué)家Alex舉過一個例子講他的模型如何作弊的:“有一個任務(wù)需要把紅色的樂高積木放到藍(lán)色的樂高積木上面,獎勵函數(shù)的值基于紅色樂高積木底部的高度而定,結(jié)果一個模型直接把紅色樂高積木翻了一個底朝天”。所以,在編寫激勵函數(shù)時,請記?。耗愕玫降氖悄闼畹模皇悄阆胍?。我可以理解此刻你茫然了,樂高尚且如此,更不用提足球比賽了。

智能體博弈

然而,這個世界有人的地方就有恩怨,有恩怨就有江湖,江湖的本質(zhì)是對有形的或者無形的,客觀的或者主觀的,合理的或者瘋狂的,當(dāng)下的或者未來的,所有稀缺資源的配置與優(yōu)化。有智能體的地方也不例外。下棋打游戲的巨大成功之后,足球比賽或許是深度強(qiáng)化學(xué)習(xí),在具備實用價值之前,不得不闖蕩的江湖?!瓣J蕩”是信息交流,是競爭博弈,是協(xié)同合作,是成長成功,是波浪式前進(jìn),螺旋式上升。

跟單智能體的強(qiáng)化學(xué)習(xí)類似,多智能體強(qiáng)化學(xué)習(xí)(MARL)引入智能體(>=2個),這些智能體通過動態(tài)地與其所在的環(huán)境交互來學(xué)習(xí)知識和經(jīng)驗。與單智能體強(qiáng)化學(xué)習(xí)不同的是,MARL場景中,多個智能體構(gòu)成了江湖,他們彼此以及與環(huán)境(Environment)之間交流,合作,競爭,博弈。環(huán)境穩(wěn)定的情況下,博弈結(jié)果趨向于納什均衡,這一狀態(tài)(State)是:只要其他智能體不改變自己的策略(Policy),沒有任何一個智能體可以通過改變策略獲得更多的收益(Reward),這時的策略也就是混合了多個智能體的群體策略??茖W(xué)家說任何靜態(tài)的博弈至少有一個納什均衡狀態(tài),因而MARL都盡力收斂到納什均衡。

可以想見,MARL體系的復(fù)雜性隨著環(huán)境中智能體的數(shù)量增加而指數(shù)級的增長,很快就會觸及維度災(zāi)難。如何為數(shù)量龐大的智能體確立學(xué)習(xí)目標(biāo),設(shè)定激勵機(jī)制,促進(jìn)群體共同學(xué)習(xí);如何調(diào)整每一個智能體的變動的學(xué)習(xí)目標(biāo),調(diào)整其最優(yōu)策略隨著其他智能體的策略的改變而改變;如何在持續(xù)變更的環(huán)境中,描述長時間尺度的激勵,以便智能體產(chǎn)生延遲滿足,或者以退為進(jìn)的協(xié)同策略,目前看都是世界級難題。天才請火速入坑。

強(qiáng)化內(nèi)外兼修

《誰建造了馬斯洛的金字塔?》總結(jié)到:“雖然后續(xù)大量的實證研究都無法證明馬斯洛需求層次理論,但是管理學(xué)的研究人員依然不愿意放棄它”,“其中一個重要的原因就是管理學(xué)在引用心理學(xué)、經(jīng)濟(jì)學(xué)理論時,往往會曲解原意,以迎合自由市場、企業(yè)層級框架、公司管理等領(lǐng)域的需求”。而作為肩負(fù)人工智能后浪重任的深度強(qiáng)化學(xué)習(xí),繞不開門衛(wèi)的靈魂三問:你是誰,從哪里來,到哪里去。人們重倉深度強(qiáng)化學(xué)習(xí),其中飽含對這一實現(xiàn)通用人工智能的潛力股的厚重期待,期待人工智能業(yè)界,遵照客觀規(guī)律,潛心攻克這些世界級難題,而不是制造AI轟動效應(yīng),迎合社會與產(chǎn)業(yè)的公關(guān)炒作,這樣吊足胃口,空耗社會熱情,極易跌入新的寒冬。

面對有限理性的人們,把他們的行為簡單地看成神經(jīng)系統(tǒng)對客觀環(huán)境激勵的反應(yīng),忽視了人的內(nèi)在因素,諸如需要、興趣、意識、觀念、思想與價值判斷等等,不符合心理活動的客觀規(guī)律。人的行為是外部環(huán)境和內(nèi)部意識相互作用的結(jié)果,兩者結(jié)合才能達(dá)到調(diào)整行為的目的。基于機(jī)械行為主義的深度強(qiáng)化學(xué)習(xí),需要加強(qiáng)探索設(shè)計智能體本身的需求,結(jié)合《赫胥黎焦慮》中探討的進(jìn)化策略(EvolutionStrategy)與適應(yīng)度函數(shù)設(shè)計短期長期結(jié)合的激勵機(jī)制,徹底研究強(qiáng)化學(xué)習(xí)要解決的問題本身,審慎判讀是否適用馬爾可夫假設(shè)從而合理建模,該博弈的博弈,能均衡的均衡。

我們的深度強(qiáng)化學(xué)習(xí)還是愛因斯坦的第一個小板凳,激勵機(jī)制的合理性與確定性仍不如薛定諤的貓,馬爾可夫的隨機(jī)過程天生無法建模量子的世界,多智能體也還在在探尋納什心目中的均衡解,而行為主義也正趨向內(nèi)外兼修。

參考文獻(xiàn):

https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

http://www.jtoy.net/blog/deep-reinforcement-learning-is-a-waste-of-time.html

https://www.alexirpan.com/2018/02/14/rl-hard.html

http://www.sbfisica.org.br/bjp/files/v28_90.pdf

https://towardsdatascience.com/introduction-to-reinforcement-learning-markov-decision-process-44c533ebf8da

https://wiki.mbalib.com/wiki/%E6%BF%80%E5%8A%B1%E7%90%86%E8%AE%BA

評論
????
貢士級
2023-10-23
????
貢士級
轉(zhuǎn)發(fā)了
2023-10-23