机器之心报道
编辑:小舟
DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程 , 目前已全部上线 。DeepMind 作为全球顶级 AI 研究机构 , 自 2010 年创建以来已有多项世界瞩目的研究成果 , 例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold 。
近几年 , DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程 , 今年他们联合推出的「2021 强化学习系列课程」现已全部上线 。 该课程由 DeepMind 的研究科学家和工程师亲自讲授 , 旨在为学生提供对现代强化学习的全面介绍 。
文章图片
课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021
课程介绍
本次课程共包括 13 节 , 涵盖了顺序决策问题中强化学习和规划的基础知识 , 并进一步讲解了现代深度强化学习算法 。 其中详细讲解了强化学习的多个主题 , 包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等 , 还探讨了一些更高级的主题 , 包括 off-policy 学习、多步更新和资格迹(eligibility traces) , 以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件 。
下面我们来看一下各节课程的具体内容 。
第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容 , 然后讲解了强化学习与 AI 的关系 。
文章图片
第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识 。
第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略 。
文章图片
第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping) 。
第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系 。
第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法 , 以产生可以从采样经验中学习良好行为策略的算法 。
第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合 , 以实现「深度强化学习」 。
第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型 , 包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法 。
推荐阅读
- 产品|泰晶科技与紫光展锐联合实验室揭牌
- 网络化|工信部等联合发文 助力智能制造发展
- 傅跃红|会长寄语
- 行李|驭势科技联合乌鲁木齐国际机场落地全球首批机坪无人驾驶行李牵引车
- 安全|Apache联合创始人呼吁合作防止Log4Shell问题再次发生
- 数字化|工信部等八部门联合印发《“十四五”智能制造发展规划》
- 国际|工信部等十五部门联合印发《“十四五”机器人产业发展规划》
- 水平|工信部等十五部门联合印发《“十四五”机器人产业发展规划》
- 基础科学|DARPA建立公私伙伴关系以支持“联合大学微电子2.0”计划
- 大理|大理爱尔眼科医院邀您共同见证黑科技——飞秒激光联合焕晶白内障技术