环球科学|DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!
文章图片
图1/7
DeepMind用同一个算法 , 攻克了国际象棋、将棋、围棋和雅达利游戏 。 动图来源:<span style="text-decoration: underline;">DeepMind</span>
开发出人工通用智能 , 一直是人工智能研究的一大目标 。 此前的许多算法虽能精通诸如围棋、象棋等游戏 , 却无法“触类旁通” , 每遇到新的游戏都需要更改框架 , 重新学习 , 更不用说将棋类游戏的方法搬到电脑游戏上了 。
然而就在昨天 , 曾开发AlphaGo的DeepMind公司在《自然》上发文 , 正式宣布了MuZero:这个新的算法不仅精通围棋、国际象棋和将棋 , 还能在30多款雅达利(Atari)游戏上全面超越过去的人工智能算法和人类 。 MuZero的正式发布 , 为人工智能领域揭开了新的篇章 。
【环球科学|DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!】撰文 | 罗丁豪
故事从2014年开始 , 基于伦敦的DeepMind公司怀着一腔雄心壮志 , 着手建造一个巨大项目:他们想要将正在生根发芽的人工智能(artificial intelligence , 简称AI)技术大面积地应用到人类生活场景中 , 让机器与人真正地互动并融合 。
他们决定从国际象棋入手:这是一个需要长期计划能力的人类游戏 , 对初出茅庐的AI技术来说是一项严峻的挑战 。 即使在1997年IBM的“深蓝”(Deep Blue)击败当时的国际象棋冠军卡斯帕罗夫之后 , 棋类AI的发展仍步履维艰 。 以围棋(Go , 即日语“碁”字之转写)为例:2013年 , AI在不让子的情况下几乎无法击败人类职业选手 。
2016年 , AlphaGo横空出世 , 以4:1击败韩国选手李世石 , 并在2017年的乌镇围棋峰会上击败了世界第一棋手柯洁 。 中国围棋协会当即授予AlphaGo职业围棋九段的称号 。
如果说AlphaGo的成功确立了AI的“围棋霸权” , 随后的AlphaGo Zero和AlphaZero则进一步揭示了“棋类霸权”的可能性 。 作为AI算法 , 不论是AlphaGo还是其继位者 , 都需要大量的训练 。 AlphaGo依赖于专家棋法(expert moves)数据集 , 而AlphaGo Zero舍去了这一步 , 直接与自己对战以为训练提供数据 。 AlphaZero则除了围棋 , 更学会了日本象棋(将棋)和国际象棋 。 值得一提的是 , 2018年底发布的AlphaZero , 从第一次见到棋盘 , 到成为世界级棋类大师 , 只用了24小时 。
文章图片
图2/7
DeepMind公司在过去几年中陆续开发了AlphaGo、AlphaGo Zero、AlphaZero和MuZero 。 图片来源:<span style="text-decoration: underline;">DeepMind</span> , 翻译制图:罗丁豪
然后 , MuZero来了 。 一篇昨晚正式发表于《自然》的论文 , 揭示了一个更加通用、强力的算法:MuZero不仅能下围棋、将棋和国际象棋 , 还在30多款雅达利游戏中展示出了超人类表现(superhuman performance) 。
最重要的是 , 没人教过MuZero这些游戏的规则 。
无师自通
自古以来 , 哲学家和科学家都幻想着有朝一日能造出“人工通用智能”(artificial general intelligence) 。 简单地说 , 人工通用智能需要有极高的可塑性(flexibility) , 从而适应(甚至精通)各式不同的任务:一个能下棋、玩游戏、做家务、开飞机的AI 。 然而在此之前 , 最好的AI算法也只能精通数个同类任务;会下围棋、将棋和国际象棋的AlphaZero就是一个例子 。
这种限制 , 在很大程度上来自AI算法对规则的依赖性 。 要想让AlphaZero下好各种棋 , 人类需要明确地教它各种棋的规则 。 以国际象棋为例 , AlphaZero知道象只能斜着走 , 还不能跨过障碍物 , 而马可以跨过障碍物 , 但需要走“日”字 。 AlphaZero也知道什么是输赢和平局 。 可是一旦更换棋种 , 人类就需要将新棋种的规则从头教给AlphaZero 。
文章图片
图3/7
AlphaZero(简称AZ)对战各个此前最强的棋类AI 。 图片来源:<span style="text-decoration: underline;">DeepMind</span> , 翻译制图:罗丁豪
既然这种依赖性限制了目前AI算法的应用范围 , 那最简单的解决方案 , 就是去除这种依赖性:人类可以不教AI下棋 , 只给它一个棋盘 。 每当AI选择了下一步该如何走时 , 人类才告诉它这一步合不合法 , 并且是否导致了输赢或平局 。
——这就是MuZero面临的情境 。 对于任何一个游戏或任务 , MuZero所掌握的只有一套“思考方式” , 并没有该任务的“行为准则” 。 它不知道国际象棋里的马该怎么走 , 也不知道将棋中如何达成“王手” 。 如同第一次见到电脑的小孩 , MuZero具有作出推理论断的“思维工具” , 但不知道如何才能赢得“扫雷” 。
跟人类一样 , MuZero的秘诀 , 在于摸着石头过河 , 为外部世界建立一个只属于自己的“模型”(internal model) 。 在这个内部模型中 , MuZero舍弃了一切表面上的规则 , 只留下对决策有用的信息:价值(value , 即当前决策“有多好”)、策略(policy , 即最好的“下一步”是什么)和奖励(reward , 即上一步“有多好”) 。
文章图片
图4/7
MuZero能为外部世界建立模型 , 从而指导自己在不同任务中的策略 。 图片来源:<span style="text-decoration: underline;">Connor Shorten</span> , 翻译制图:罗丁豪
要明白这种策略的特殊和有效性 , 我们可以拿MuZero和AlphaZero的神经网络作对比:
任何深度学习算法在面对棋盘时 , 第一步总是观察 。 AlphaZero能观察当前棋局() , 并直接利用计划未来的棋步 。 这要多亏了它所知道的棋类规则:它明白做出一个动作(action)后的下一个棋局长什么样 , 并可以在下一个棋局的基础上继续规划棋路 , “想象”并评估各种不同的可能性 。 这样的规划方式 , 在深度学习上称为“蒙特卡洛树搜索”(Monte Carlo tree search , MCTS) 。 MCTS允许算法探索不同的可能性 , 并从中择出最优的动作 。 因此 , 熟知规则的AlphaZero要想精通棋类 , 只需要一个“神经网络”(neural network) , 即“预测网络”(prediction network) , 给输入一个状态 , 它就能给出这个状态的价值()和潜在策略();通过评估各个可能性 , AlphaZero就能得知当前最好的棋步 。
MuZero则没有这种“奢华待遇”:它需要摸索出棋盘上各个子的合法(legal)走法 , 还需要弄清输赢的概念;当然 , 它的目标与AlphaZero一样 , 赢就好了 , 越多越好 。 但在不清楚规则的情况下 , MuZero需要另辟蹊径 , 利用“表征网络”(representation network) , 将观察到的棋盘状态转换成只属于自己的隐藏状态(hidden state) 。 我们将当前的棋盘状态称为“O”(observation , 即观察) , MuZero的当前隐藏状态称为 。 但这时 , MuZero遇到了第二个大难题:如何像AlphaZero一样评估未来的各种可能性呢?
不像AlphaZero , 不知道棋盘规则的MuZero不能预测棋盘的各种可能状态 , 因此 , MuZero需要从零开始 , 创造自己对棋路的内部模型 。 幸运的是 , 有了隐藏状态之后 , MuZero就能算出状态下可以做出的各种行动(经过学习 , MuZero得出的可能行动会越来越符合规则) , 并能通过“动态网络”(dynamic network) , 利用MuZero选择的行动和当前潜在状态 , 推演出 。 在每一个真实世界的时间点内 , MuZero都能利用自己的内部模型和MCTS选择出这一个时间点的最佳行为 , 并将其应用于真实世界中 。 在实际做出了一个最佳行为后 , 这个行为又能再“回收” , 用于训练动态网络(从而改进MuZero的内部模型) 。
文章图片
图5/7
AlphaZero和MuZero MCTS方法的并列对比 。 熟知规则的AlphaZero能由一个真实状态和可能行为 , 推测下一个真实状态 。 而MuZero由于不知道游戏规则 , 只能将真实状态表征为隐藏状态 , 学会建立自己的内在模型 。 制图:罗丁豪
也就是说 , 由于AlphaZero对规则的掌握 , 它只需要一个预测网络就能精通棋类 。 而不能预先知晓规则的MuZero , 则需要利用动态网络和表征网络 , 自己学习并建立一个内在模型 , 从而学会下棋 。 在建立内在模型的过程中 , 人类不会给MuZero设置任何限制:MuZero可以舍弃任何信息 , 只保留有用的元素(即价值、策略和奖励) 。
文章图片
图6/7
相比于只需要1个神经网络的AlphaZero , MuZero需要3个神经网络来建立内部模型 , 从而指导精确规划 。 制图:罗丁豪
与人类一样 , MuZero可以在它的“脑海”中创造任何规则和动态 。 它的目标是做出最精确、最有效的未来规划 。 舍弃了“循规蹈矩”的MuZero反而因此获得了极强的可塑性 , 在截然不同的棋类和电脑游戏中都“得心应手” 。
“超人”表现?
就这样 , MuZero这样一个“无师自通”的算法 , 竟然在AlphaZero引以为傲的棋类游戏中轻松与后者打成了平手 。
文章图片
图7/7
在国际象棋、将棋和围棋中 , MuZero的表现(蓝线)达到甚至超过了AlphaZero(橙线) 。 而在雅达利游戏“吃豆人小姐”中 , MuZero的表现(蓝线)远超此前表现最佳的R2D2算法得分(橙线) 。 图片来源:<span style="text-decoration: underline;">Schrittwieser et al 。, <em>Nature</em></span> , 翻译制图:罗丁豪
在国际象棋、将棋和围棋中 , MuZero都能达到AlphaZero的水平 , 甚至在围棋中稍稍胜过了AlphaZero 。 这表明MuZero“自学成才”建立的内部模型 , 或许比AlphaZero的“循规蹈矩”更接近围棋的要义 。 在雅达利游戏中 , MuZero的表现也非同寻常 。 以“吃豆人小姐”(Ms 。Pac-Man)为例 , MuZero的得分为243401 。 10 , 相比之下 , 人类的最高分只有6951.60 , 是MuZero的1/35 。 在57个测试用的雅达利游戏中 , MuZero在37个中取得了历史最高分 , 而人类则仅在5个游戏中保持着最佳成绩 。
但是 , 在利用AlphaZero和其他算法攻破了这些游戏后 , 反而对MuZero隐藏起规则 , 让它“闭上眼”下棋、“背着手”玩游戏的目的是什么呢?
正如本文开头所说 , DeepMind和整个AI领域一样 , 并不在乎国际象棋和雅达利游戏本身 。 这是一场事关智能的征途 , 目标是理解智能本身 。 牙牙学语的婴儿并不明白动名词的区别 , 却能在短短几个月内连词成句 , 甚至创造出只属于他们的句子 。 生物学家也并非生来就知晓细胞的各种秘密 , 而是在实验和失败中 , 一步步对生物世界建立了理论和模型 , 从而获得深刻洞见 。
事实很残酷:循规蹈矩不是智能 。 事先熟知规则再精通下棋 , 与先摸索规则、建立内部模型再精通棋路是全然不同的 。 前者只能困于“棋”中 , 后者则能将一套“思考方式”搬到各种任务上 。 前者的例子包括AlphaGo到AlphaZero的各种棋类AI , 后者则包括MuZero和于尔根·施密德胡波(Jürgen Schmidhuber)著名的“循环世界模型”(Recurrent World Model) 。
为外界建立内部表征是人类最引以为傲的能力之一 。 如今在AI身上 , 这个能力再次证明了自己的价值 。 MuZero不仅让人类看到了创造人工通用智能的可能性 , 还为我们打开了一扇通往智能本身的大门:
智能究竟是什么?我们离答案似乎越来越近 。
推荐阅读
- 科学|中阳县北街小学:体验科学魅力
- 牛上|英媒文章:2021年最有趣的科学发现
- 曹志兴|90后教授曹志兴:最一流的基础科学来源于好奇心
- 审判|直接服务“三城一区”主平台,怀柔科学城知识产权巡回审判庭成立
- 生物地球化学过程|我国科学家发现第五条甲烷产生途径
- 孩子|“双减”后 科学实践课如何做好“加法”
- 生命科学学院|科技馆内感受科技魅力
- 牙膏管|太空跨年是什么体验?航天员在太空也能吃到家乡美食?| 科学密探
- the|美CDC缩短新冠隔离时间被指从遵循科学变成了遵循CEO们的意见
- 抗体|六大科学突破闪亮二〇二一