AI 世界上最难的“沙雕”游戏被AI攻破了

13年以前,有这样一款“变态”级难度的游戏曾风靡一时 。它的名字简单粗暴——QWOP 。意思是让玩家用这四个键位控制游戏人物的左右大腿和小腿,以最快的速度跑完100米 。实际上,大部分玩家刚上手的时候,可能连起点线都迈不过去就Game Over了 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

如果你能跑出几米远,绝对算是一个高手,甚至能在朋友面前炫耀一番 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

QWOP的难点在于,一旦角色失去平衡就很难再挽回,需要在100米的距离内一直保持重心不过于向前后倾斜 。
当你经过苦练第一次跑起来时,又会被50米处作者故意设置的栏杆摆一道:说好的100米短跑怎么变跨栏了?
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片
△某小编当年的游戏截图
在那个4399小游戏盛行的年代,这款也被戏称为“是男人就跑100米” 。因为难度过于“变态”,QWOP开发者曾收到过很多辱骂邮件 。
虽然绝大部分人难以跑到终点,但仍有一批骨灰级玩家乐此不疲,他们不仅能轻松跑完,至今还为竞争世界排名而不断挑战 。
2个月前,一位日本玩家创造了新的世界纪录:48.34秒 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

看到这款“沙雕游戏”,你是不是会想到强化学习来训练双足机器人的画面?
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

一位来自波士顿咨询的数据分析师Wesley Liao也是这么想的 。
不过别以为“变态”难度的游戏到了AI面前就变成了毛毛雨 。
Liao综合了之前多种强化学习算法,最后甚至请来了“世界名师”教学,费了好大一番功夫,才终于让AI在上周打破人类玩家的记录 。
可见这款游戏的难度一点都不比围棋低啊 。(手动狗头)
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

小试牛刀
一开始,Liao使用OpenAI Gym强化学习环境来训练AI,先设定好游戏的状态、操作和奖惩机制 。
状态包括每个身体部位和关节的位置、速度和角度 。操作方式限定为11种:4个QWOP按键、6种两两按键组合以及不按任何键 。
【AI|世界上最难的“沙雕”游戏被AI攻破了】用来训练AI的算法是ACER(具有经验回放能力的Actor-Critic) 。这种算法的优点是,不仅可以从其最近获得的经验中学习,也可以学习存储数据中更早的经验 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

由于ACER非常复杂,Liao使用了别人的实现代码“Stable Baselines” 。
Liao首先尝试了让AI自己学习 。经过多次实验后,他发现AI只学会了“蹭膝盖”这种方式跑过终点,速度很慢 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

这和许多人类普通玩家以及其他强化学习算法是一样的,离高手的水平还差很远,更不用谈打破纪录了 。
仔细分析可以发现,AI根本没有学习到跨步机制,只是学习到了最安全、最慢的方法来到达终点 。
看来靠AI完全自学是不行了 。
学会奔跑
类似于DeepMind用顶级棋手教AlphaGo下棋,Liao想到是不是也可以让人类玩家来教一下AI 。
但是Liao本人的技术和顶级玩家差距太大,自己最多也只能跑到28米 。
这都不重要,重要的是起码Liao跨出更大步伐的技巧,只能寄希望于AI能从“渣技术”里学到一点奔跑的技巧吧 。
但是结果很不幸,AI很好地诠释了“邯郸学步”:不仅没掌握跑步技巧,反而在起点就跌倒了 。
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

然后Liao让AI自己继续训练 。所谓师父领进门,修行在个人,AI能否将人类技术和自学能力结合起来?
结果令人兴奋,经过90个小时的训练,AI终于学会了像人一样奔跑!
AI 世界上最难的“沙雕”游戏被AI攻破了
文章图片

最终成绩是1分25秒,已经能跑进全球排行榜的前15名,离超过人类不远了 。

推荐阅读