全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-04-19_ICLR 2021研究挖掘游戏技能包?有序记忆决策网络帮你实现

您的位置:首页 >> 新闻 >> 行业资讯

ICLR 2021研究挖掘游戏技能包?有序记忆决策网络帮你实现 机器之心专栏 作者:Yucheng Lu, Yikang Shen, Chuang Gan 等假设你给机器看了一段很长的游戏视频,在里面有砍树,打猎,造房子等,你的模型能否从这个非结构化的录像中自动地发现这些有意义的技能包? 在现实世界里,人类尤其具有这种将复杂任务有效分解为多个子任务的能力。这种能力帮助人类面对新环境时加速自身的学习过程并获得更好的泛化能力。 传统方法主要围绕概率图模型。这些工作将子任务结构建模为潜在变量,并从学到的后验中提取子任务标识。在一篇ICLR 2021的论文中,MIT-IBM Lab 淦创团队与蒙特利尔大学合作提出了:是否可以设计更智能的神经网络,使子任务结构自动在模仿学习中出现?具体而言,研究者设计了一个循环决策网络,使得子任务结构能够体现在每一步的表征中。 在该研究中,研究者提出有序记忆决策网络(OMPN)。模型可以经过正常的行为克隆(behavior cloning)来发现子任务的层级,从非结构化示范中恢复子任务边界。在 Craft 和 Dial 上进行的实验表明,在没有任何人类额外标注的情况下,子任务层次结构会自然地从模型中演化出。 论文地址:https://openreview.net/pdf?id=vcopnwZ7bC 项目地址:https://github.com/Ordered-Memory-RL/ Memory 如何表达子任务? 研究者提供了一个网格世界的示例用于说明。示例中有不同的原料(例如草)可供智能体拾取,还包括一家工厂以便智能体使用这些原料。假设智能体想要完成搭桥任务,该任务可以分解为树状多层结构。其中,根任务可以分为 “拾取原料” 和“制造桥梁”。“拾取原料”可以进一步分为 “拾取草” 和“拾取木头”。 为了能够实现上述的结构,智能体的记忆在每一步应该如何 “更新”?在下图中,将记忆划分为不同级别,对应不同层级的子任务。当‘t=1’时,模型仅从根任务“搭建桥梁” 开始,并 “展开” 得到 “拾取原料”,然后进一步“展开” 为“拾取木头”。这里的 “展开”(蓝色箭头)可以理解成一种“planning operator”,动作从最低层级的记忆中产生。在‘t3’时,“拾取原料” 会被复制,但是当 “拾取木头” 完成后,即‘t=3’时,该子任务会被 “更新”。这里的“更新” 可以视为每个子任务的内部更新,而 “更新” 后的 “拾取原料” 通过 “展开” 重新得到下一个子任务 “拾取草”。同理“搭建桥梁” 一直被复制直到在‘t=5’(“拾取原料”完成)时进行 “更新”,然后“展开” 为“制造桥梁”和“前往工厂”。 这样的过程中,可以定义 “展开高度”,即每一时刻发生“展开” 的记忆的位置。研究者同时观察到,通过观察 “展开高度” 的变化,可以由此确定子任务的边界。例如从‘t=2’到‘t=3’,扩展位置从最低级别到中间级别,表明了低级别子任务的完成。从‘t=4’到‘t=5’,扩展位置从最低级别到最高级别,表明低级别和中级别子任务均已完成。所以目标就是希望通过合理的网络设计,让模型可以收敛到上述记忆更新规则。具体包括: 若模型认为当前底层子任务已被完成,则需要输出高展开位置,并从高层子任务中展开。 若模型认为当前底层子任务未被完成,则需要输出低展开位置, 并将高层任务复制,来实现 long-term dependency。 网络设计的数据流效果如下所示: 从行为克隆中进行任务分解 主要的实验结果就是表明:正确的子任务结构的确可以通过行为克隆后,在模型中体现出来,而在这个过程中,没有任何额外的任务边界标注。在接下来示例中,将智能体的轨迹以及展开位置的变化进行可视化。经过学习后,模型学会在每个子任务快结束的时刻,将展开高度提高。在每个子任务的行进过程中,将展开高度保持低位,符合之前说的直觉。 在 Craft 任务中,模型需要完成 4 个子任务来“造床”。 在 Dial 任务中,模型需要控制机器手臂连续按 4 个数字。 在 Kitchen 任务中,模型需要连续操控四个家电。 建新·见智 —— 2021亚马逊云科技 AI 在线大会 4月22日 14:00 - 18:00 为什么有那么多的机器学习负载选择亚马逊云科技?大规模机器学习、企业数字化转型如何实现? 《建新 · 见智——2021 亚马逊云科技 AI 在线大会》由亚马逊云科技全球人工智能技术副总裁及杰出科学家 Alex Smola、亚马逊云科技大中华区产品部总经理顾凡领衔,40多位重磅嘉宾将在主题演讲及6大分会场上为你深度剖析亚马逊云科技创新文化,揭秘 AI/ML 如何帮助企业加速创新。 分会场一:亚马逊机器学习实践揭秘 分会场二:人工智能赋能企业数字化转型 分会场三:大规模机器学习实现之道 分会场四:AI 服务助力互联网快速创新 分会场五:开源开放与前沿趋 分会场六:合作共赢的智能生态 6大分会场,你对哪个主题更感兴趣? 识别二维码或点击阅读原文,免费报名看直播。 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com 阅读原文

上一篇:2024-03-14_Gentle Monster , 收割潮人 下一篇:2020-12-02_当代年轻人:用尽全力地工作,潇洒自如地生活

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价