全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-09-16_DeepMind联合UCL,推出2021强化学习最新课程

您的位置:首页 >> 新闻 >> 行业资讯

DeepMind联合UCL,推出2021强化学习最新课程 机器之心报道 编辑:小舟 DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程,目前已全部上线。 DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。 近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。 课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021 课程介绍 本次课程共包括 13 节,涵盖了顺序决策问题中强化学习和规划的基础知识,并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题,包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等,还探讨了一些更高级的主题,包括 off-policy 学习、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。 下面我们来看一下各节课程的具体内容。 第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容,然后讲解了强化学习与 AI 的关系。 第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。 第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。 第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping)。 第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。 第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法,以产生可以从采样经验中学习良好行为策略的算法。 第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合,以实现「深度强化学习」。 第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型,包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。 第 9 讲 策略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接学习策略的策略算法,并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。 第 10 讲 近似动态规划:Diana Borsa 讲解了近似动态规划算法,探讨了如何从理论的角度分析近似算法的性能。 第 11 讲 多步和 off-policy:Hado van Hasselt 讲解了多步和 off-policy 算法,包括多种减小方差的方法。 第 12 讲 深度强化学习 #1:Matteo Hessel 讲解了深度强化学习的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。 第 13 讲 深度强化学习 #2:Matteo Hessel 讲解了通用价值函数(general value functions)、基于 GVF 的辅助任务,并进一步讲解了如何处理算法中的扩展问题。 DeepMind 研究者亲自授课 该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。 Hado van Hasselt Hado van Hasselt 是 DeepMind 的一名研究科学家,也是伦敦大学学院(UCL)的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包括人工智能、机器学习、深度学习,并重点研究强化学习。 Diana Borsa Diana Borsa 是 DeepMind 的研究科学家,也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI),涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。 Matteo Hessel Matteo Hessel 是 DeepMind 的一位研究工程师,也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文,这些论文的引用次数超过 4000 次,并获得了 2 项注册专利。 线上分享 | 南洋理工安波教授:分布式人工智能进展与趋势 随着协作型和自私型智能体研究的交融,分布式人工智能逐渐演变,成为 AI 的一个重要前沿研究方向。9月16日20:00-21:00,安波教授(新加坡南洋理工大学校长委员会讲席副教授和南洋理工大学人工智能研究院联席院长)带来线上分享,介绍分布式人工智能的历史、现状、以及未来挑战。 直播将在机动组视频号进行,欢迎大家预约与进群交流。 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

上一篇:2025-05-21_「一录同行 · 杭州站」5月25日正式开场!50+品牌器材 × 4场讲座 × 全天实操,免费开放! 下一篇:2019-07-20_想要了解图或图神经网络?没有比看论文更好的方式了

TAG标签:

11
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价