AV人摸人人人澡人人超碰,久久免费频精品无码

薛定諤的小板凳與深度學(xué)習(xí)的后浪

除了《薛定諤的滾》，《薛定諤的佛》，《薛定諤的愛情》之外，薛定諤小板凳的勵志故事在坊間也廣為流傳：話說薛定諤小的時候，老師布置回家做小板凳的手工作業(yè)。第二天老師看到薛定諤的粗糙小板凳說：“我想世界上不會有比這更差的凳子了”，薛定諤卻從書桌下拿出兩個更為粗糙的小板凳說：“有，這是我第一次和第二次做的，而剛交上去的是第三次做的”。

什么，你記得是愛因斯坦的小板凳？確定？愛因斯坦不是用相對論證明勾股定理來著嗎？他哪里會有時間做小板凳？！好吧，你是對的，enjoy。這個小板凳的故事，是一個偉大物理學(xué)家自我激勵的故事，也是薛定諤的千千萬萬的后浪們被激勵的故事。作者就是沐浴著這樣的勵志故事長大的，自我激勵著，也被一波一波的前浪們引領(lǐng)著，裹挾到大數(shù)據(jù)人工智能這個江湖的。

激勵的是需求

薛定諤的成長多大程度上來自自我激勵，不得而知，但是他的成功卻可能大多來自外部愛情的激勵，這一點我在《薛定諤的愛情》中強(qiáng)調(diào)過。有人試圖用馬斯洛的需求層次理論來解釋薛定諤現(xiàn)象：“人類的需求是一個金字塔，從底部到頂部，依次是生理、安全、社交、尊重、自我實現(xiàn)這五個需求。人們需要滿足金字塔底層的需求后，才有條件滿足更高層次的需求”，但這個努力似乎是不成功的：薛定諤的奇數(shù)層是同時滿足的，你品，你細(xì)品；而千千萬萬的人在同樣的愛情的外部激勵下，卻都沒有發(fā)現(xiàn)薛定諤方程，或者其他什么方程。

但這不是馬斯洛的錯，薛定諤畢竟是不確定性的代言人，海森伯也說世界本來就是測不準(zhǔn)的。馬斯洛的需求金字塔，實實在在為早期的激勵理論(Incentivetheory)打下了堅實的基礎(chǔ)。激勵理論最重要的流派，行為主義心理學(xué)創(chuàng)始人華生（John BroadusWatson）認(rèn)為：“通過激勵手段，誘發(fā)人的行為。在‘刺激—反應(yīng)’理論的指導(dǎo)下，激勵者的任務(wù)就是去選擇一套適當(dāng)?shù)拇碳?，即激勵手段，以引起被激勵者相?yīng)的反應(yīng)標(biāo)準(zhǔn)和定型的活動”。新行為主義者斯金納強(qiáng)調(diào)“人們的行為不僅取決于刺激的感知，也決定于行為的結(jié)果。當(dāng)行為的結(jié)果有利于個人時，這種行為就會重復(fù)出現(xiàn)而起著強(qiáng)化激勵作用。如果行為的結(jié)果對個人不利，這一行為就會削弱或消失。所以在訓(xùn)練（Training）中運用肯定、表揚、獎賞或否定、批評、懲罰等強(qiáng)化手段，可以對學(xué)習(xí)者的行為進(jìn)行定向控制或改變，以引導(dǎo)到預(yù)期的最佳狀態(tài)?！?/p>

行為主義大道

而這有意或無意的成了強(qiáng)化學(xué)習(xí)/深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。作為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)浪潮后，人工智能領(lǐng)域最被廣泛看好的后浪，強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)被業(yè)界寄（da）予（si）厚（chui）望（peng），成為通往通用人工智能（AGI）大門的金鑰匙。DeepMind 星際2 AI 對人類玩家的暴擊， OpenAI 15億參數(shù)的GPT-2超人語言模型，2019年深度強(qiáng)化學(xué)習(xí)的成功，激勵了人工智能領(lǐng)域的后浪們，沿著華生的行為主義康莊大道，前赴后繼。

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個分支，有別于經(jīng)典的有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)，其最大的特點就是在交互中學(xué)習(xí)（Learningfrom Interaction）。通過讓軟件定義的智能體（Agent）與環(huán)境（Environment）交互來訓(xùn)練模型。當(dāng)智能體的行為（Action）產(chǎn)生期望的結(jié)果時，智能體將獲得激勵（Reward），也就是環(huán)境給它這個行為正面或者負(fù)面的反饋，促其成長到新的狀態(tài)（State），這一行為也將被強(qiáng)化，塑造智能體在此環(huán)境下，后續(xù)的良好行為。這一交互過程持續(xù)迭代，智能體在獎勵或懲罰中不斷的“學(xué)習(xí)知識”，“積累經(jīng)驗”，從而更加適應(yīng)環(huán)境。業(yè)界認(rèn)為這一學(xué)習(xí)的范式非常類似于人類求知的過程，因而也就對其實現(xiàn)通用人工智能充滿期待。

未來不迎MDP

智能體不能隨意改變的任何東西都可以被認(rèn)為是環(huán)境的一部分，行為可以是我們想讓智能體學(xué)習(xí)的任何決策，狀態(tài)則是可以幫助智能體進(jìn)行行為選擇的任何事。同時，也不假定環(huán)境中的一切對智能體而言都是未知的，例如激勵規(guī)則是環(huán)境的一部分，但是智能體可以了解其算法，甚至智能體完全可以對環(huán)境此刻的獎懲機(jī)制了然于“心”。

想象一下自己是C羅，在踢一場足球聯(lián)賽，你就是球場上那個懵懂的智能體（Agent），球場、裁判、隊友與對手都是其所處環(huán)境（Environment）的一部分?，F(xiàn)在你要決定腳下這個球怎么踢（Action），傳球給隊友中的哪一位？還是自己拔腳怒射？還是傳給對手（假定是某大國風(fēng)范男足）？你頭腦里極其清楚，球踢到對方球門里，就能得一分（Reward），而踢到自家球門里，對方就得一分。你腦海過電影式的閃現(xiàn)剛才發(fā)生的一幕幕（Historical States ），形勢緊迫，你快速環(huán)顧了一下全場狀態(tài)（State)，判斷了一下傳給隊友與射門成功的各種可能性（Policy），最后起腳射門，打在橫梁，嚇得對方守門員一身冷汗，隊友沖過來“拍了拍”你，以資鼓勵。至此，你完成了一次攻防（Episode）。

踢球正如下棋，最好能多看幾步，下棋落子無悔，踢球卻更復(fù)雜，即便多看了幾步，事情也不一定按照你設(shè)想的方向發(fā)展。萬一遇到豬隊友呢，萬一自己就是豬隊友呢，由于體力不支，本打算打門的球，妥妥地傳給了對方后衛(wèi)呢。場上形勢瞬息萬變，讓人一籌莫展。這時候你憶起了強(qiáng)化學(xué)習(xí)的心法：MP -> MRP -> MDP，靈明無著，物來順應(yīng)，未來不迎，當(dāng)時不雜，既過不戀。

既過不戀MP，馬爾可夫過程，無記憶的隨機(jī)過程，也就是，一個具備馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列S1,S2, …，可定義為<S,P>，S是有限狀態(tài)的集合，P是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率；=> 當(dāng)時不雜MRP，馬爾可夫激勵過程，一個懂得價值（Value）的馬爾可夫過程，可以表示為<S,P, R, r>, R是激勵函數(shù)，R是t狀態(tài)到t+1狀態(tài)的激勵的數(shù)學(xué)期望，r是激勵的價值貼現(xiàn)率；=> 未來不迎MDP, 馬爾可夫決策過程，是馬爾可夫激勵過程參與某種決策，它處于一個環(huán)境（Environment），其中的狀態(tài)都是馬爾可夫狀態(tài)，<S,P,R,r,A>, A是有限的行為的集合。

拜天資聰穎，悟性極高，加之勤于溫習(xí)心法，你很快參透其中奧妙，下棋、星際Dota無往不勝。然而，球還是踢不好，中秋節(jié)拜早年也無濟(jì)于事，留給球隊的時間總是不多了。找不到隊形站位，難以貫徹戰(zhàn)術(shù)安排；反復(fù)演練的配合，場上無用武之地；小范圍成功傳切，難擋對方帽子戲法；苦于達(dá)成默契，技戰(zhàn)術(shù)明顯不穩(wěn)。。。艱苦卓絕的訓(xùn)練了10000小時，仍差世界頂尖幾條長安街。

馬爾可夫困境

上帝說“這世界太黑了，要有光”，于是牛頓出現(xiàn)了。牛頓如此成功，他的定律為人們描述了一個確定性的世界，萬物都按照確定的簡潔的規(guī)律運行，如同精心設(shè)計的機(jī)械鐘表。大數(shù)學(xué)家拉普拉斯甚至推導(dǎo)出了心中的智者。直到馬爾可夫建立了自己的隨機(jī)過程：“當(dāng)一個隨機(jī)過程在給定當(dāng)前狀態(tài)及所有過去狀態(tài)情況下，其未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài)；換句話說，在給定當(dāng)前狀態(tài)時，它與過去狀態(tài)（即該過程的歷史路徑）是條件獨立的，那么此隨機(jī)過程即具有馬爾可夫性質(zhì)?！?/p>

矯枉必須過正，或者必然過正。馬爾可夫過程隨即在物理、化學(xué)，生物、遺傳，信息、互聯(lián)網(wǎng)，經(jīng)濟(jì)、社會廣泛應(yīng)用，從彼時機(jī)械決定論的挑戰(zhàn)者，如今幾近變成放之四海而皆準(zhǔn)的真理，大多時候人們會不假思索的做出馬爾可夫性質(zhì)的假設(shè)，從而進(jìn)一步享受（enjoy）馬爾可夫過程帶來建模與推演的便利。我們可敬的學(xué)長，“概率學(xué)界學(xué)術(shù)教父”，鐘開萊先生在他的《Green, Brown, and Probability》書中如此評價："The Markov property means that the past has no after-effect on thefuture whenthe present is known; but beware,big mistakes have been made through misunderstanding the exact meaning of thewords 'when the present is known'."筆者斗膽譯為：“馬爾可夫性質(zhì)意味著過去對于未來沒有后效，當(dāng)現(xiàn)在已知的時候；但請知悉，因?qū)?'當(dāng)現(xiàn)在已知的時候' 這個表述的確切含義的誤解，已經(jīng)鑄成了大錯。”

非馬爾可夫是規(guī)則，馬爾可夫是例外。這句話就可以解釋為什么強(qiáng)化學(xué)習(xí)目前只擅長玩游戲，足球總是踢不好。因為電子游戲往往沒有after-effect“后遺癥”, 而現(xiàn)實世界中后遺癥比比皆是。一塊石頭從陡坡上滑下，不具備馬爾可夫性質(zhì)；你在泳池奮力游回岸邊，無奈嗆了水，不是馬爾可夫過程；冒名頂替，幾十年相安無事，不代表未來不會身陷囹圄，不是不報，時候未到。教練的指導(dǎo)與戰(zhàn)術(shù)部署貫穿全場，球場上形勢瞬息萬變，捕獲每個時刻的全部狀態(tài)（State）信息幾乎是天方夜譚，馬爾可夫性質(zhì)也就無從談起。

眼鏡蛇效應(yīng)

或許很幸運，你的強(qiáng)化學(xué)習(xí)問題恰好具備馬爾可夫性質(zhì)，可以放心大膽建模成馬爾可夫過程。而且更幸運的是，這個問題跟金融折現(xiàn)一般直觀，所以選擇折現(xiàn)率 r 毫不費力，然后你開始構(gòu)建價值函數(shù)（Value function），以期后續(xù)用BellmanEquation推算激勵期望。是構(gòu)建狀態(tài)價值State Value函數(shù)，還是行為價值 Action Value函數(shù)呢？正如牛頓的小石塊從有摩擦力的陡坡滑下，是看勢能還是看動能？你的終極目標(biāo)是打怪升級，可是這些終極目標(biāo)如何拆解到短期的每一步呢？是否存在到達(dá)終極目標(biāo)的完美路徑呢？你陷入深度思考。

人類一思考，上帝就發(fā)笑。上帝知道此刻你用的是唯二的腦皮層回路，不是杏仁核的情緒反饋。腦皮層會三思而后行。強(qiáng)化學(xué)習(xí)究竟在激勵什么？怎樣給出合適的激勵呢？如何定義這個智能體當(dāng)前的需求呢？朝哪個維度激勵呢？激勵到什么程度呢？如何避免走一步看一步，得過且過呢？遇到斯坦福教授“棉花糖”實驗中那些選擇延遲滿足的“熊孩子”怎么辦？你推崇的以退為進(jìn)，聲東擊西，圍魏救趙的策略呢？你在訓(xùn)練的是個大腦還是杏仁核？

殖民時期印度，英政府想減少有毒眼鏡蛇的數(shù)量，頒布法令獎勵打死眼鏡蛇。而印度人為賞金反而開始養(yǎng)殖眼鏡蛇。英國政府意識到這個情況取消賞金后，養(yǎng)蛇人把毒蛇都放了繼而導(dǎo)致毒蛇大量繁殖。People always game thesystem，人們總會與機(jī)制博弈?？b密設(shè)計的科舉，遺憾同樣無法完全規(guī)避冒名頂替，這里至少有242個坑爹的故事。谷歌科學(xué)家Alex舉過一個例子講他的模型如何作弊的：“有一個任務(wù)需要把紅色的樂高積木放到藍(lán)色的樂高積木上面，獎勵函數(shù)的值基于紅色樂高積木底部的高度而定，結(jié)果一個模型直接把紅色樂高積木翻了一個底朝天”。所以，在編寫激勵函數(shù)時，請記?。耗愕玫降氖悄闼畹模皇悄阆胍?。我可以理解此刻你茫然了，樂高尚且如此，更不用提足球比賽了。

智能體博弈

然而，這個世界有人的地方就有恩怨，有恩怨就有江湖，江湖的本質(zhì)是對有形的或者無形的，客觀的或者主觀的，合理的或者瘋狂的，當(dāng)下的或者未來的，所有稀缺資源的配置與優(yōu)化。有智能體的地方也不例外。下棋打游戲的巨大成功之后，足球比賽或許是深度強(qiáng)化學(xué)習(xí)，在具備實用價值之前，不得不闖蕩的江湖?！瓣J蕩”是信息交流，是競爭博弈，是協(xié)同合作，是成長成功，是波浪式前進(jìn)，螺旋式上升。

跟單智能體的強(qiáng)化學(xué)習(xí)類似，多智能體強(qiáng)化學(xué)習(xí)（MARL）引入智能體（>=2個），這些智能體通過動態(tài)地與其所在的環(huán)境交互來學(xué)習(xí)知識和經(jīng)驗。與單智能體強(qiáng)化學(xué)習(xí)不同的是，MARL場景中，多個智能體構(gòu)成了江湖，他們彼此以及與環(huán)境（Environment）之間交流，合作，競爭，博弈。環(huán)境穩(wěn)定的情況下，博弈結(jié)果趨向于納什均衡，這一狀態(tài)（State）是：只要其他智能體不改變自己的策略（Policy），沒有任何一個智能體可以通過改變策略獲得更多的收益（Reward），這時的策略也就是混合了多個智能體的群體策略?？茖W(xué)家說任何靜態(tài)的博弈至少有一個納什均衡狀態(tài)，因而MARL都盡力收斂到納什均衡。

可以想見，MARL體系的復(fù)雜性隨著環(huán)境中智能體的數(shù)量增加而指數(shù)級的增長，很快就會觸及維度災(zāi)難。如何為數(shù)量龐大的智能體確立學(xué)習(xí)目標(biāo)，設(shè)定激勵機(jī)制，促進(jìn)群體共同學(xué)習(xí)；如何調(diào)整每一個智能體的變動的學(xué)習(xí)目標(biāo)，調(diào)整其最優(yōu)策略隨著其他智能體的策略的改變而改變；如何在持續(xù)變更的環(huán)境中，描述長時間尺度的激勵，以便智能體產(chǎn)生延遲滿足，或者以退為進(jìn)的協(xié)同策略，目前看都是世界級難題。天才請火速入坑。

強(qiáng)化內(nèi)外兼修

《誰建造了馬斯洛的金字塔？》總結(jié)到：“雖然后續(xù)大量的實證研究都無法證明馬斯洛需求層次理論，但是管理學(xué)的研究人員依然不愿意放棄它”，“其中一個重要的原因就是管理學(xué)在引用心理學(xué)、經(jīng)濟(jì)學(xué)理論時，往往會曲解原意，以迎合自由市場、企業(yè)層級框架、公司管理等領(lǐng)域的需求”。而作為肩負(fù)人工智能后浪重任的深度強(qiáng)化學(xué)習(xí)，繞不開門衛(wèi)的靈魂三問：你是誰，從哪里來，到哪里去。人們重倉深度強(qiáng)化學(xué)習(xí)，其中飽含對這一實現(xiàn)通用人工智能的潛力股的厚重期待，期待人工智能業(yè)界，遵照客觀規(guī)律，潛心攻克這些世界級難題，而不是制造AI轟動效應(yīng)，迎合社會與產(chǎn)業(yè)的公關(guān)炒作，這樣吊足胃口，空耗社會熱情，極易跌入新的寒冬。

面對有限理性的人們，把他們的行為簡單地看成神經(jīng)系統(tǒng)對客觀環(huán)境激勵的反應(yīng)，忽視了人的內(nèi)在因素，諸如需要、興趣、意識、觀念、思想與價值判斷等等，不符合心理活動的客觀規(guī)律。人的行為是外部環(huán)境和內(nèi)部意識相互作用的結(jié)果，兩者結(jié)合才能達(dá)到調(diào)整行為的目的。基于機(jī)械行為主義的深度強(qiáng)化學(xué)習(xí)，需要加強(qiáng)探索設(shè)計智能體本身的需求，結(jié)合《赫胥黎焦慮》中探討的進(jìn)化策略（EvolutionStrategy）與適應(yīng)度函數(shù)設(shè)計短期長期結(jié)合的激勵機(jī)制，徹底研究強(qiáng)化學(xué)習(xí)要解決的問題本身，審慎判讀是否適用馬爾可夫假設(shè)從而合理建模，該博弈的博弈，能均衡的均衡。

我們的深度強(qiáng)化學(xué)習(xí)還是愛因斯坦的第一個小板凳，激勵機(jī)制的合理性與確定性仍不如薛定諤的貓，馬爾可夫的隨機(jī)過程天生無法建模量子的世界，多智能體也還在在探尋納什心目中的均衡解，而行為主義也正趨向內(nèi)外兼修。

參考文獻(xiàn)：

https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

http://www.jtoy.net/blog/deep-reinforcement-learning-is-a-waste-of-time.html

https://www.alexirpan.com/2018/02/14/rl-hard.html

http://www.sbfisica.org.br/bjp/files/v28_90.pdf

https://towardsdatascience.com/introduction-to-reinforcement-learning-markov-decision-process-44c533ebf8da

https://wiki.mbalib.com/wiki/%E6%BF%80%E5%8A%B1%E7%90%86%E8%AE%BA