DeepMind|DeepMind联合UCL,推出2021强化学习最新课程

机器之心报道
编辑:小舟

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程 , 目前已全部上线 。
DeepMind 作为全球顶级 AI 研究机构 , 自 2010 年创建以来已有多项世界瞩目的研究成果 , 例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold 。
近几年 , DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程 , 今年他们联合推出的「2021 强化学习系列课程」现已全部上线 。 该课程由 DeepMind 的研究科学家和工程师亲自讲授 , 旨在为学生提供对现代强化学习的全面介绍 。

DeepMind|DeepMind联合UCL,推出2021强化学习最新课程
文章图片

课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021
课程介绍
本次课程共包括 13 节 , 涵盖了顺序决策问题中强化学习和规划的基础知识 , 并进一步讲解了现代深度强化学习算法 。 其中详细讲解了强化学习的多个主题 , 包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等 , 还探讨了一些更高级的主题 , 包括 off-policy 学习、多步更新和资格迹(eligibility traces) , 以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件 。
下面我们来看一下各节课程的具体内容 。
第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容 , 然后讲解了强化学习与 AI 的关系 。

DeepMind|DeepMind联合UCL,推出2021强化学习最新课程
文章图片

第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识 。
第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略 。

DeepMind|DeepMind联合UCL,推出2021强化学习最新课程
文章图片

第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping) 。
第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系 。
第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法 , 以产生可以从采样经验中学习良好行为策略的算法 。
第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合 , 以实现「深度强化学习」 。
第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型 , 包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法 。

推荐阅读