版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

機(jī)器人步態(tài)算法補(bǔ)充--強(qiáng)化學(xué)習(xí)與足式機(jī)器人

北京建筑大學(xué)科協(xié)
科普中國(guó)高校行北京建筑大學(xué)
收藏

機(jī)器人步態(tài)算法補(bǔ)充--強(qiáng)化學(xué)習(xí)與足式機(jī)器人

作者:邢伯陽(yáng)

1、強(qiáng)化學(xué)習(xí)概述

隨著Google DeepMind發(fā)布AlphaGo Zero后強(qiáng)化學(xué)習(xí)技術(shù)成為了近年來(lái)的熱門研究領(lǐng)域。不同于上一代主要依靠監(jiān)督學(xué)習(xí)的AlphaGo,AlphaGo Zero單純依靠強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我對(duì)弈,算法從零開(kāi)始通過(guò)獎(jiǎng)勵(lì)信號(hào)進(jìn)行策略迭代。作為一個(gè)通用的算法其不僅可以學(xué)習(xí)如何下圍棋,還可以學(xué)習(xí)下國(guó)際象棋和日本將棋,這是史上第一次出現(xiàn)用單一算法來(lái)破解象棋和圍棋的算法,也是強(qiáng)化學(xué)習(xí)發(fā)展史上的里程碑式。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,與有監(jiān)督學(xué)習(xí)和模仿學(xué)習(xí)不同強(qiáng)化學(xué)習(xí)完全依靠由動(dòng)作產(chǎn)生的反饋數(shù)據(jù)對(duì)策略進(jìn)行優(yōu)化,因此其在一定層面上也與目前的優(yōu)化控制理論相關(guān)。以運(yùn)動(dòng)規(guī)劃和隨機(jī)規(guī)劃為例,它們的目的都是基于目標(biāo)函數(shù)(獎(jiǎng)勵(lì)或代價(jià))尋找一個(gè)最優(yōu)控制器或控制策略,然而在最優(yōu)控制理論中往往需要知道系統(tǒng)精確的模型和約束,而強(qiáng)化學(xué)習(xí)則通過(guò)不斷與環(huán)境交互試錯(cuò)實(shí)現(xiàn)達(dá)到相同的目的。

機(jī)器人是強(qiáng)化學(xué)習(xí)目前主要的應(yīng)用領(lǐng)域和研究對(duì)象,其具有連續(xù)的狀態(tài)和動(dòng)作空間并且具有很高的自由度,所采用的傳感器系統(tǒng)還存在著噪聲和偏差,這些都為強(qiáng)化學(xué)習(xí)的應(yīng)用帶來(lái)了很大的挑戰(zhàn)。同時(shí),由于強(qiáng)化學(xué)習(xí)需要不斷試錯(cuò)才能學(xué)習(xí)到有用的信息,隨意性的控制輸出對(duì)于真實(shí)的機(jī)器人來(lái)是十分危險(xiǎn)的,因此目前主要借助計(jì)算機(jī)仿真技術(shù)完成對(duì)智能體的初步訓(xùn)練然后再向?qū)嶋H機(jī)器人中進(jìn)行部署,但仿真引擎的誤差和系統(tǒng)建模誤差都會(huì)造成最終訓(xùn)練的結(jié)果與實(shí)際系統(tǒng)中截然不同,特別是對(duì)于高動(dòng)態(tài)系統(tǒng)來(lái)說(shuō)。

綜上,強(qiáng)化學(xué)習(xí)技術(shù)相比傳統(tǒng)控制理論來(lái)說(shuō)原理簡(jiǎn)單,主要依靠數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)現(xiàn)控制設(shè)計(jì),降低了理論和算法的難度,但目前的算法還存在著許多的不足,特別是在向真實(shí)機(jī)器人系統(tǒng)部署時(shí)面臨著軟件和硬件上的挑戰(zhàn)。

2、強(qiáng)化學(xué)習(xí)算法研究現(xiàn)狀

最優(yōu)控制已經(jīng)成為高性能、高動(dòng)態(tài)和高效機(jī)器人的核心技術(shù),其也被視作是強(qiáng)化學(xué)習(xí)的前身。最優(yōu)控制方法通過(guò)高斯過(guò)程(GP)或貝葉斯網(wǎng)絡(luò)(BN)等工具針對(duì)具體問(wèn)題建立模型,從而來(lái)節(jié)省智能體與環(huán)境交互的成本。目前常用的最優(yōu)控制算法有模型預(yù)測(cè)控制(MPC)、線性二次調(diào)節(jié)器(LQR)、線性二次高斯(LQG)和迭代學(xué)習(xí)控制(ICL)等;而強(qiáng)化學(xué)習(xí)屬于數(shù)據(jù)驅(qū)動(dòng)的方法,算法通過(guò)大量反饋數(shù)據(jù)估計(jì)系統(tǒng)狀態(tài)與動(dòng)作間最優(yōu)的回報(bào)函數(shù)即最優(yōu)動(dòng)作策略。

如圖1所示,強(qiáng)化學(xué)習(xí)目前算法可以劃分為基于模型方法(Model-based)與無(wú)模型方法(Model-free)。兩個(gè)算法的區(qū)別主要是是否為智能體提供模型,擁有模型能幫助智能體預(yù)測(cè)未來(lái)的系統(tǒng)狀態(tài)并提前規(guī)劃,但現(xiàn)實(shí)中無(wú)法建立系統(tǒng)的精確模型,而建模誤差會(huì)導(dǎo)致在仿真中智能體表現(xiàn)的很好,但是在真實(shí)環(huán)境中達(dá)不到預(yù)期;Model-free強(qiáng)化學(xué)習(xí)是目前的研究熱點(diǎn),其不需要建立系統(tǒng)模型因此更容易實(shí)現(xiàn),相對(duì)簡(jiǎn)單直觀,開(kāi)源實(shí)現(xiàn)豐富,比較容易上手,從而吸引了更多的學(xué)者進(jìn)行研究。目前許多知名研究團(tuán)隊(duì)提出了DQN、PG、AC、A3C、DDPG、TRPO、PPO等優(yōu)秀的強(qiáng)化學(xué)習(xí)算法。

在強(qiáng)化學(xué)習(xí)中,智能體嘗試去最大化自己的獎(jiǎng)勵(lì)函數(shù),以機(jī)械臂控制其狀態(tài)為的當(dāng)前手臂末端位置或關(guān)節(jié)角度,控制命令為關(guān)節(jié)的轉(zhuǎn)矩,則強(qiáng)化學(xué)習(xí)的目的即最快、最精確地控制末端移動(dòng)到期望位置,并以此為獎(jiǎng)勵(lì)函數(shù)訓(xùn)練智能體。可見(jiàn),強(qiáng)化學(xué)習(xí)實(shí)際上是尋找了一個(gè)系統(tǒng)狀態(tài)和動(dòng)作映射(策略)來(lái)最大化智能體獲得的獎(jiǎng)勵(lì)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法主基于馬爾科夫鏈(MDP,下一時(shí)刻狀態(tài)和獎(jiǎng)勵(lì)與當(dāng)前狀態(tài)與智能體的行為有關(guān)),其中最經(jīng)典的就是Q-Learning算法。Q-Learning通過(guò)建立離散系統(tǒng)狀態(tài)與行為的Q值表,基于貪婪算法不斷更新獲得獎(jiǎng)勵(lì)行為的權(quán)重,最終實(shí)現(xiàn)智能體快速自主地完成任務(wù)。針對(duì)Q-Learning目前提出了許多改進(jìn)算法來(lái)提高獲得長(zhǎng)期獎(jiǎng)勵(lì)回報(bào)的能力,如Sarsa和Sarsa-Lamda等。可是,在實(shí)際機(jī)器人中系統(tǒng)狀態(tài)往往是連續(xù)的,而如要采用Q-Learning算法需要對(duì)其狀態(tài)和行為空間進(jìn)行離散化,但隨著維度的增加離散化后的工作空間會(huì)變得異常的巨大,許多機(jī)器人系統(tǒng)離散化后涉及的狀態(tài)和行為的維數(shù)以百萬(wàn)計(jì),而對(duì)每個(gè)狀態(tài)行為進(jìn)行價(jià)值(如人的滿意度)計(jì)算也非常困難。

回顧強(qiáng)化學(xué)習(xí)的發(fā)展歷史免模型算法只占很少一部分,但基于歷史原因當(dāng)前深度神經(jīng)網(wǎng)絡(luò)的免模型方法卻得到了快速的發(fā)展。DQN(Deep Q-Learning)是拉開(kāi)深度強(qiáng)化學(xué)習(xí)大幕的開(kāi)山之作,其采用深度神經(jīng)網(wǎng)絡(luò)近似Q-Learning中離散的值函數(shù),從而解決了連續(xù)狀態(tài)空間問(wèn)題,并進(jìn)一步采用經(jīng)驗(yàn)回放技術(shù)在每輪任務(wù)后隨機(jī)抽取一些之前的經(jīng)歷進(jìn)行學(xué)習(xí),打亂了數(shù)據(jù)之間的相關(guān)性并解決其非靜態(tài)分布問(wèn)題,從而使得神經(jīng)網(wǎng)絡(luò)更新更有效率。

對(duì)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練來(lái)說(shuō)其最難以克服的就是過(guò)擬合問(wèn)題,由于DQN使用貪婪策略使得次有和最優(yōu)行為更新權(quán)重是一致,因此導(dǎo)致了估計(jì)誤差隨智能體行動(dòng)次數(shù)增大而上升,最終導(dǎo)致次優(yōu)行為的權(quán)重超過(guò)最優(yōu)行為即策略陷入局部最優(yōu)。因此研究人員進(jìn)一步提出了DDQN(Double-DQN )改進(jìn)算法,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)修改將網(wǎng)絡(luò)拆分為兩部分,一部分只與狀態(tài)相關(guān)另一部分同時(shí)與狀態(tài)動(dòng)作相關(guān),通過(guò)將動(dòng)作的選擇和評(píng)估解耦開(kāi)有效提高了智能體的學(xué)習(xí)效率和全局最優(yōu)學(xué)習(xí)性。

上面介紹的幾類方法主要通過(guò)構(gòu)建行為、狀態(tài)與獎(jiǎng)勵(lì)的值函數(shù)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),但往往只能處理離散的動(dòng)作集合,不能處理連續(xù)的動(dòng)作集合,而在深度強(qiáng)化學(xué)習(xí)還有另一類算法基于策略為核心來(lái)較好地解決這個(gè)問(wèn)題。策略強(qiáng)化學(xué)習(xí)方法中使用連續(xù)策略函數(shù)實(shí)現(xiàn)了連續(xù)動(dòng)作輸出,因此研究人員將值函數(shù)和策略方法向結(jié)合提出了演藝家和評(píng)判家(Actor-Critic,AC),實(shí)現(xiàn)了端到端的強(qiáng)化學(xué)習(xí)并能應(yīng)對(duì)連續(xù)狀態(tài)和連續(xù)動(dòng)作空間的任務(wù),同時(shí)通過(guò)引入值函數(shù)方法也解決了傳統(tǒng)策略方法中回合更新帶來(lái)學(xué)習(xí)速率較慢的問(wèn)題,同時(shí)AC方法中兩個(gè)子系統(tǒng)均可以使用深度神經(jīng)網(wǎng)絡(luò)來(lái)代替以提高學(xué)習(xí)效率。在DQN中采用經(jīng)驗(yàn)回放的方式有效解決了網(wǎng)絡(luò)過(guò)擬合的問(wèn)題,但要求智能體只能離線學(xué)習(xí),因此研究學(xué)者提出了A3C(Asynchronous Advantage Actor-Critic)異步學(xué)習(xí)的改進(jìn)算法,采用多線程的方式實(shí)現(xiàn)多個(gè)智能體同時(shí)學(xué)習(xí)更新策略,采用并行化的方式直接來(lái)解決數(shù)據(jù)相關(guān)的問(wèn)題取代經(jīng)驗(yàn)回放,在節(jié)省記憶庫(kù)存儲(chǔ)空間開(kāi)銷的同時(shí)提高了網(wǎng)絡(luò)收斂性、加快了訓(xùn)練速度。

雖然A3C較好地把策略方法和值函數(shù)法結(jié)合了起來(lái)并做到了單步更新,但由于采用并行訓(xùn)練導(dǎo)致其方差較大,無(wú)法保證每次訓(xùn)練后新策略回報(bào)的單調(diào)上升,因此研究人員進(jìn)一步提出了回顧策略梯度(Trust Region Policy Optimization,TRPO)算法,其利用KL散度來(lái)限制新舊策略之間的距離,并且修改了目標(biāo)函數(shù)保證訓(xùn)練回報(bào)能單調(diào)上升。

TRPO雖然保證了訓(xùn)練回報(bào)的單調(diào)不減,但是懲罰函數(shù)中的超參數(shù)需要采用約束優(yōu)化的范數(shù)求解并且結(jié)果存在著近似誤差,因此研究人員提出了(Proximal Policy Optimization,PPO)方法。PPO同樣基于AC框架,對(duì)于TRPO中難以確定的超參數(shù)其直接使用對(duì)步長(zhǎng)進(jìn)行限制的方式來(lái)代替,另外目前還有一種新的改進(jìn)方法PPO2采用更復(fù)雜的步長(zhǎng)限制方法,在實(shí)驗(yàn)中PPO2取得了更優(yōu)異的結(jié)果,其目前也成為OpenAI所推薦的深度強(qiáng)化學(xué)習(xí)算法,并在許多研究中得到應(yīng)用。

在強(qiáng)化學(xué)習(xí)算法訓(xùn)練中往往僅依靠一個(gè)總體的獎(jiǎng)勵(lì)函數(shù)指導(dǎo)智能體學(xué)習(xí),這也使得機(jī)器人在完成一個(gè)復(fù)雜任務(wù)時(shí)很難精確的對(duì)各中性能指標(biāo)進(jìn)行針對(duì)性的訓(xùn)練,因此研究人員提出了分層式強(qiáng)化學(xué)習(xí)(HRL)框架。HRL從策略的多個(gè)圖層中學(xué)習(xí),每一層都負(fù)責(zé)控制不同時(shí)間下的動(dòng)作。策略的最下一層負(fù)責(zé)輸出環(huán)境動(dòng)作,上面幾層可以完成其他抽象的目標(biāo)。針對(duì)復(fù)雜任務(wù)傳統(tǒng)強(qiáng)化學(xué)習(xí)算法主要通過(guò)長(zhǎng)期信用分配和稀疏獎(jiǎng)勵(lì)信號(hào)的方式進(jìn)行訓(xùn)練,而在HRL中由于低層次的策略是從高層次策略分布的任務(wù)所得到的內(nèi)部獎(jiǎng)勵(lì)學(xué)習(xí)的,即使獎(jiǎng)勵(lì)稀疏也可以學(xué)到其中的小任務(wù)。另外,高層次策略生成的時(shí)間抽象可以讓我們的模型處理信用分配,最終實(shí)現(xiàn)更高效的學(xué)習(xí)。

綜上,無(wú)模型強(qiáng)化學(xué)習(xí)方法具有非常好的通用性,其主要研究?jī)?nèi)容集中在如何能保證智能體能獲得長(zhǎng)期的獎(jiǎng)勵(lì)回報(bào),因此研究人員在學(xué)習(xí)模型和回報(bào)函數(shù)上做出了許多的改進(jìn),并提出了相應(yīng)的改進(jìn)算法。通過(guò)引人深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)值函數(shù)的高精度逼近和智能體記憶的存儲(chǔ),最終提高了強(qiáng)化學(xué)習(xí)的性能也使得其性能遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)的控制理論,但強(qiáng)化學(xué)習(xí)本身可以看做一個(gè)黑盒其網(wǎng)絡(luò)收斂性的理論證明仍待完善,同時(shí)網(wǎng)絡(luò)訓(xùn)練的時(shí)間成本較大,需要進(jìn)一步研究與傳統(tǒng)模型理論相結(jié)合方法。

3、強(qiáng)化學(xué)習(xí)應(yīng)用難點(diǎn)與解決方案

如前文所述強(qiáng)化學(xué)習(xí)在實(shí)際機(jī)器系統(tǒng)中的部署仍面臨著很多挑戰(zhàn),目前其應(yīng)用的主要難點(diǎn)如下:

(1)訓(xùn)練模型誤差:針對(duì)連續(xù)狀態(tài)和動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題研究人員已經(jīng)提出了如DQN和AC等算法,并且在仿真中獲得了不錯(cuò)的效果,但是在向?qū)嶋H機(jī)器人中部署時(shí)由于建模誤差和執(zhí)行器滯后造成智能體做出的行動(dòng)與得到的反饋不一致,這直接打破了MDP的假設(shè)。

(2)狀態(tài)反饋存在誤差:在向真實(shí)機(jī)器人系統(tǒng)部署時(shí)許多狀態(tài)信息都需要使用相應(yīng)的傳感器進(jìn)行測(cè)量,其測(cè)量數(shù)據(jù)往往存在著噪聲或者偏差,甚至有一些狀態(tài)是無(wú)法測(cè)量的,而此時(shí)需要基于系統(tǒng)模型使用狀態(tài)估計(jì)理論得到對(duì)應(yīng)的估計(jì)值,這些誤差都增加了訓(xùn)練結(jié)果的誤差。為獲取高精度的機(jī)器人反饋數(shù)據(jù)目前基于動(dòng)態(tài)捕捉的系統(tǒng)被廣泛采用,其已經(jīng)被用于為無(wú)人機(jī)在室內(nèi)提供精確的位姿數(shù)據(jù),并作為如MPC或自學(xué)習(xí)等控制算法的反饋數(shù)據(jù)。

(3)訓(xùn)練樣本少:不同于使用深度學(xué)習(xí)的圖像識(shí)別算法,其能輕易獲取上百萬(wàn)的訓(xùn)練樣本,由于強(qiáng)化學(xué)習(xí)需要智能體與環(huán)境交互因此其學(xué)習(xí)成本十分昂貴,訓(xùn)練中往往只能獲得數(shù)量較少的樣本,另外樣本往往也無(wú)法激活系統(tǒng)的所有的模態(tài)如機(jī)器人在運(yùn)動(dòng)過(guò)程中可能出現(xiàn)的疲勞和損壞或目標(biāo)物環(huán)境的破壞,這些參數(shù)的變換都會(huì)造成截然不同的訓(xùn)練結(jié)果,為解決這個(gè)問(wèn)題目前的強(qiáng)化學(xué)習(xí)主要借助于計(jì)算機(jī)仿真技術(shù)來(lái)降低樣本的獲取難度。目前的虛擬軟件不但能模擬機(jī)器人的完整運(yùn)動(dòng)特性,如有幾個(gè)關(guān)節(jié)、每個(gè)關(guān)節(jié)能如何運(yùn)動(dòng)等,還能模擬機(jī)器人和環(huán)境作用的物理模型,如重力、壓力、摩擦力等。機(jī)器人可以在虛擬環(huán)境中先進(jìn)行訓(xùn)練,直到訓(xùn)練基本成功再在實(shí)際環(huán)境中進(jìn)一步學(xué)習(xí)??紤]到仿真軟件仍然和實(shí)際機(jī)器人有誤差,在訓(xùn)練中研究人員通過(guò)引入噪聲或在一定程度上增加模型的不確定性來(lái)提高系統(tǒng)的泛化能力。

3、強(qiáng)化學(xué)習(xí)在足式機(jī)器人中應(yīng)用現(xiàn)狀

強(qiáng)化學(xué)習(xí)雖然不需要明確的系統(tǒng)模型并且能從反饋中學(xué)習(xí)到復(fù)雜的技能,但往往需要大量的調(diào)試和訓(xùn)練時(shí)間,由于網(wǎng)絡(luò)輸出具有隨機(jī)性目前的許多強(qiáng)化學(xué)習(xí)應(yīng)用主要還是停留在仿真環(huán)境中,并且實(shí)驗(yàn)場(chǎng)景可控、反饋數(shù)據(jù)明確易于獲取,如AlphaGo實(shí)現(xiàn)的下棋博弈或如OpenAI完成的電子游戲等。對(duì)于機(jī)器人來(lái)說(shuō)如果讓其無(wú)約束地在物理空間中進(jìn)行學(xué)習(xí)不但可能造成自身電氣設(shè)備的損壞,嚴(yán)重的時(shí)候甚至?xí)?duì)實(shí)驗(yàn)人員造成人身傷害。

目前成功將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用在實(shí)際機(jī)器人系統(tǒng)中的研究成果較少,其中較成熟的案例是使用強(qiáng)化學(xué)習(xí)完成機(jī)械臂的抓取控制,另外也有研究學(xué)習(xí)成功將強(qiáng)化學(xué)習(xí)應(yīng)用于無(wú)人機(jī)端到端視覺(jué)導(dǎo)航(如無(wú)人機(jī)視覺(jué)避障或地標(biāo)降落),但上述方法中強(qiáng)化學(xué)習(xí)往往僅在頂層進(jìn)行控制如為無(wú)人機(jī)規(guī)劃飛行的軌跡或者機(jī)械臂抓取的軌跡,而直接對(duì)機(jī)器人本體的控制如姿態(tài)控制或伺服控制的案例較少,而對(duì)于足式機(jī)器人來(lái)相關(guān)的研究更是在近年來(lái)才有據(jù)可查。

Tan J等人提出了一種端到端的足式機(jī)器人強(qiáng)化學(xué)習(xí)系統(tǒng),解決了傳統(tǒng)足式機(jī)器人步態(tài)算法設(shè)計(jì)復(fù)雜和參數(shù)調(diào)節(jié)困難的問(wèn)題。為加快網(wǎng)絡(luò)的收斂其首先提供了一個(gè)開(kāi)環(huán)的步態(tài)信號(hào)讓機(jī)器人在虛擬環(huán)境下進(jìn)行學(xué)習(xí),通過(guò)建立精確的電機(jī)模型并且增加仿真延時(shí)來(lái)解決向?qū)嶋H機(jī)器人系統(tǒng)中的滯后,同時(shí)在仿真環(huán)境中為增加了模型的隨機(jī)擾動(dòng)來(lái)提高模型的泛化能力,最終其實(shí)現(xiàn)了四足機(jī)器人Trot和Gallop步態(tài)的學(xué)習(xí)并成功在真正機(jī)器人系統(tǒng)中部署,論文中使用PPO網(wǎng)絡(luò)完成了網(wǎng)絡(luò)的訓(xùn)練,系統(tǒng)狀態(tài)為機(jī)器人關(guān)節(jié)角度和IMU測(cè)量姿態(tài)數(shù)據(jù),最終輸出期望的電機(jī)角度,而獎(jiǎng)勵(lì)函數(shù)則希望能最大化機(jī)器人的移動(dòng)速度。

Singla A等人同樣基于強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)對(duì)四足機(jī)器人步態(tài)的學(xué)習(xí),為降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度他引入了 kinematic motion primitives (kMPs) ,最終通過(guò)PPO算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)Trot和Gallop步態(tài)的學(xué)習(xí)并在實(shí)際機(jī)器人中進(jìn)行了實(shí)驗(yàn)。通過(guò)kMPs結(jié)合主成分分析減少了訓(xùn)練所需迭代的次數(shù),使得機(jī)器人能從少量參數(shù)動(dòng)作中還原出完整的足端軌跡,由于最終的步態(tài)執(zhí)行使用軌跡跟蹤控制,降低了系統(tǒng)實(shí)際部署的難度,但無(wú)法引入力控和柔性控制技術(shù)使得該系統(tǒng)僅停留在小型機(jī)器人上。

Xie Z等人最終采用強(qiáng)化學(xué)習(xí)技術(shù)在雙足機(jī)器人上進(jìn)行了測(cè)試,提出了一種新的訓(xùn)練方法使得機(jī)器人在學(xué)習(xí)新步態(tài)的同時(shí)不會(huì)對(duì)已有的技能產(chǎn)生遺忘,其采用 實(shí)現(xiàn)了僅需要較少的訓(xùn)練樣本就能達(dá)到有效學(xué)習(xí)的目的,同時(shí)將有監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)向結(jié)合,使用以收斂的策略作為參考通過(guò)增加新的獎(jiǎng)勵(lì)函數(shù)來(lái)學(xué)習(xí)新的技能,這樣有效地保證了復(fù)雜任務(wù)學(xué)習(xí)的安全性和學(xué)習(xí)效率。最終,文獻(xiàn)中提出的算法實(shí)現(xiàn)了在不需要如前面幾個(gè)方法中主要增加模型隨機(jī)擾動(dòng)下就完成了部署,最終機(jī)器人在實(shí)現(xiàn)跟蹤期望移動(dòng)速度命令的同時(shí)還能抵抗一定的外力擾動(dòng)。

Hwangbo J等人提出了一個(gè)目前結(jié)構(gòu)最完整并且效果最好的足式機(jī)器人強(qiáng)化學(xué)習(xí)算法,其完全基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)四足機(jī)器人本體步態(tài)控制,實(shí)驗(yàn)結(jié)果驗(yàn)證該方法相比基于模型的傳統(tǒng)控制算法在提高機(jī)器人移動(dòng)速度的同時(shí)降低了能耗,在應(yīng)用于機(jī)器人倒地自恢復(fù)這種復(fù)雜策略的任務(wù)時(shí),基于所提算法實(shí)現(xiàn)了100%成功率的自恢復(fù)站立。為減少執(zhí)行器、數(shù)據(jù)通訊和減速組帶來(lái)的模型非線性和反饋滯后,構(gòu)建了單獨(dú)的神經(jīng)網(wǎng)絡(luò)對(duì)執(zhí)行器進(jìn)行有監(jiān)督學(xué)習(xí),較好地估計(jì)出在增加減速組后驅(qū)動(dòng)器的力矩輸出。同時(shí),增加了一個(gè)關(guān)節(jié)記憶存儲(chǔ)網(wǎng)絡(luò)來(lái)幫助檢測(cè)機(jī)器人腿部觸地,最終采用TRPO算法作為學(xué)習(xí)策略??紤]到動(dòng)作空間為力時(shí)會(huì)增加網(wǎng)絡(luò)訓(xùn)練的維度和復(fù)雜度,其采用了頂層機(jī)體移動(dòng)命令到關(guān)節(jié)角度位置輸出的端到端方案,并且在仿真環(huán)境中為機(jī)器人和環(huán)境增加模型不確定度以增加系統(tǒng)的泛化能力。為提高訓(xùn)練的效果其提出了一種難度層級(jí)訓(xùn)練方法,即由最容易的站立平衡到機(jī)器人快速移動(dòng)設(shè)定不同難度目標(biāo)的任務(wù)對(duì)同一神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同時(shí)引入難度因子來(lái)更好的訓(xùn)練網(wǎng)絡(luò)。該論文中提出的系統(tǒng)給出了一個(gè)未來(lái)強(qiáng)化學(xué)習(xí)的應(yīng)用前景,僅需要保證機(jī)器人自身反饋數(shù)據(jù)和執(zhí)行器的可靠就能在少量人工介入的情況下,快速自動(dòng)化地完成復(fù)雜機(jī)器人控制器的設(shè)計(jì),著相比傳統(tǒng)模型控制理論的方法大大降低了研發(fā)的難度。

上述的相關(guān)研究人員在實(shí)驗(yàn)中均未將機(jī)器人在復(fù)雜地形下進(jìn)行測(cè)試,雖然在平地上大多數(shù)算法都獲得了較好的移動(dòng)性能并能抵抗外力干擾,但仍然難以被復(fù)現(xiàn)。如Hwangbo J等人使用了一個(gè)非開(kāi)源的虛擬仿真環(huán)境,其相比現(xiàn)有軟件具有更優(yōu)異的物理仿真性能,另外上述的算法大多輸出的是關(guān)節(jié)角度命令,因此需要執(zhí)行器具有較高的控制精度,針對(duì)不同的任務(wù)仍需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且要獲取高性能的步態(tài)除了需要花費(fèi)較長(zhǎng)的時(shí)間在仿真中對(duì)模型參數(shù)進(jìn)行調(diào)整外還需要經(jīng)歷多的訓(xùn)練時(shí)間。

4、總結(jié)

目前,強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展遇到了一定的瓶頸、應(yīng)用范圍仍難以進(jìn)一步推廣。相關(guān)的核心研究成果主要以國(guó)外的團(tuán)隊(duì)為主,很多工作內(nèi)容僅有論文內(nèi)容支撐而要復(fù)現(xiàn)這些工作十分的困難,第一是由于強(qiáng)化學(xué)習(xí)對(duì)代碼和算法的調(diào)試很多情況下只能等待智能體與環(huán)境交互才能驗(yàn)證模型和獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是否合適,時(shí)間成本較大;另外,當(dāng)向?qū)嶋H機(jī)器人系統(tǒng)中部署時(shí)的設(shè)備成本較高,除了可能造成的物理?yè)p壞外,訓(xùn)練結(jié)果的長(zhǎng)期可靠性也無(wú)法保證??梢?jiàn),目前強(qiáng)化學(xué)習(xí)在足式機(jī)器人中的應(yīng)用特別在對(duì)本地步態(tài)算法層面上仍然需要技術(shù)難點(diǎn)進(jìn)行圖片,但采用強(qiáng)化學(xué)習(xí)在頂層為足式機(jī)器人進(jìn)行規(guī)劃控制缺是一個(gè)能快速落地的方向,如基于深度相機(jī)的端到端自動(dòng)駕駛和自主避障都是一個(gè)不錯(cuò)的方向,而采用傳統(tǒng)算法往往需要復(fù)雜的邏輯采用強(qiáng)化學(xué)習(xí)通過(guò)在不同環(huán)境下自主試錯(cuò)學(xué)習(xí)能獲得比人工設(shè)計(jì)算法更全面和可靠的邏輯,同時(shí)由于其為頂層控制機(jī)器人自身的穩(wěn)定性得以保證可以結(jié)合傳統(tǒng)的算法進(jìn)行切換融合,綜合二者的優(yōu)勢(shì)。