足球,是一項全球流行的球類運動,講究身體對抗與團隊配合。
在現(xiàn)實生活中,不管踢不踢,踢得好還是踢得不好,每當看(聽)到“足球”這個詞,人們都會似懂非懂地聊上幾句。
確實,足球這一運動,有太多的新聞,并不稀奇。
但是,如果一個人工智能(AI)學會了踢足球,而且踢得還不錯,那算不算一件比較稀奇的事情呢?畢竟,當前的AI有時連“500年前的美國總統(tǒng)是不是林肯”這樣的問題都回答不上來。
9月1日,來自英國人工智能公司 DeepMind 的研究團隊就首次介紹了這樣一個可以完成帶球突破、身體對抗等多種動作,然后精準射門的“AI 足球運動員”。
圖|“AI玩家”正在進行2V2對抗比賽(動圖制作素材來源:Science Robotics)
盡管偶爾不講規(guī)則,比如比賽中沒有角球、點球和任意球等定位球(set piece),但研究團隊認為,這一研究推動了人工系統(tǒng)向人類水平運動智能向前邁進。
相關研究論文以“From motor control to team play in simulated humanoid football”為題,已發(fā)表在科學期刊 Science Robotics 上。
AI是怎么學會踢足球的?
眾所周知,標準的足球比賽由兩支隊伍各派11名隊員參與,包括10名球員及1名守門員,在球場上互相對抗和進攻。
除了守門員可以在己方禁區(qū)內(nèi)利用手部觸球外,其他球員只能運用手部以外的身體部位碰觸球(開界外球例外),比賽的最終目的則是盡可能地將足球踢入對方的球門內(nèi)。
因此,無論是在現(xiàn)實比賽中,還是在網(wǎng)絡游戲上,足球都是一個既考驗個人技巧,又需要團隊成員默契協(xié)作的運動,完成一次出色的傳球或一次精準的射門并不容易,“需要解決人類和動物們都會面臨的諸多問題”。
據(jù)論文描述,盡管 DeepMind 團隊在此次研究中簡化了游戲規(guī)則,并將兩隊球員人數(shù)限定在了2-3人,但結果顯示,AI玩家可以在事先不了解足球規(guī)則的情況下學會踢球、運球和射門等技能,并在模擬游戲中完成2V2和3V3的足球比賽。
“TA 們在一個動作技能和高水平目標導向行為緊密結合的環(huán)境中實現(xiàn)了綜合控制?!?論文共同一作、共同通訊作者 Siqi Liu 及其團隊寫道。
圖|“AI 玩家”完成運球、搶斷和傳球等一系列動作(動圖制作素材來源:Science Robotics)
如上圖,在一場2V2的比賽中,紅隊球員先后完成了跑動、逼搶和傳球等一系列動作,整個動作十分自然流暢,且充滿壓迫性。
那么,“足球小白”是如何變身“優(yōu)秀足球運動員”的?
原因在于研究團隊提出的3步機器學習框架。
首先,AI玩家需要通過觀看人類運動視頻學會行走,因為最開始的 AI玩家并不知道要在足球場上做什么。
圖|訓練前(動圖制作素材來源:Science Robotics)
然后,在知道自己做什么之后,AI玩家可以借助強化學習算法學會踢足球。
圖|訓練3天后(動圖制作素材來源:Science Robotics)
最后,AI玩家更進一步,基于另外一種強化學習算法學會如何進行團隊協(xié)作和更高難度的運動控制。
圖|訓練50天后(動圖制作素材來源:Science Robotics)
可見,當訓練中的AI玩家不斷接受環(huán)境獎勵,并作出正確反饋,其踢足球水平就會得到增加。
由“足球小白”變身“優(yōu)秀足球運動員”,AI又秀了一把。
但是,依然不夠
在描述認知科學和 AI基礎的經(jīng)典言論中,圖靈獎得主 Allen Newell 認為,從毫秒級的肌肉抽搐,到數(shù)百毫秒級的認知決策,再到長期的目標導向行為,人類行為跨越了多個組織層次。
更高級別的行為往往與外界環(huán)境和其他主體更復雜的互動相關聯(lián),而如何在多空間和時間尺度上表現(xiàn)出智能行為,是物理實體人工智能長期面臨的挑戰(zhàn)之一。
DeepMind 團隊的這項研究,通過強化學習算法等AI技術,為AI玩家賦予了靈活的運動控制和多智能體協(xié)作能力,是一個有關如何在多智能體環(huán)境下學習多尺度綜合決策的優(yōu)秀案例。
圖|對抗、推搡(動圖制作素材來源:Science Robotics)
當然,這項研究也具有一定的局限性。
例如,由于參與比賽的AI玩家數(shù)量相對較少,相比于現(xiàn)實世界還是缺少一定的復雜度,并不能說明AI可以玩更復雜的足球比賽。如果在未來的工作中增加AI玩家數(shù)量,可能就會產(chǎn)生更有趣的團隊策略。
另外,由于時間較短,節(jié)奏較快,AI玩家也沒有被賦予調(diào)整節(jié)奏、保持精力、決定陣型或替換更偏向防守或進攻的球員的能力。
此外,研究團隊也表示,他們的方法不適合直接在機器人硬件上學習,研究成果也不會快速從模擬世界轉移應用到現(xiàn)實世界。
但是,研究成果確實證明了基于學習的方法在生成復雜運動策略方面的潛力,也解決了模擬訓練中出現(xiàn)的模擬到真實遷移的主要挑戰(zhàn)之一。
在論文的最后,研究團隊這樣寫道,“如何在敏捷機器人硬件上實現(xiàn)類似復雜程度的多尺度運動智能,將是令人興奮的研究方向之一”。
未來,AI的強大將超乎想象。對此,你怎么看?
參考資料:
www.science.org/doi/10.1126/scirobotics.abo0235