全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2020-09-27_携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开

您的位置:首页 >> 新闻 >> 行业资讯

携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开 机器之心报道 作者:杜伟 还记得在双人无限扑克和多人无限扑克中战胜人类顶级玩家的游戏 AI 系统冷扑大师(Libratus)和 Pluribus 吗?近日,这两个 AI 系统的开发者之一、CMU 大神宣布其完成博士论文,并即将从 CMU 毕业。 当地时间 9 月 21 日,FAIR 研究科学家 Noam Brown 在推特宣布其顺利完成了 CMU 博士论文答辩,并公开了长达 230 页的超硬核博士论文《Equilibrium Finding for Large Adversarial Imperfect-Information Games》以及 101 页的 slides。 Noam 在论文前言中表示,除了章节 5.3 中描述的 ReBel 算法,论文中所有其他研究都是与其导师 Tuomas Sandholm 合作完成的。在整个研究过程中,Tuomas 给了 Noam 耐心指导。Noam 表示,如果没有导师的悉心指导,他肯定不会顺利地完成博士学位。 Noam Brown 与其导师 Tuomas Sandholm 教授(左)。 Noam Brown 的博士论文题目为《大型对抗性不完美信息博弈的均衡发现》。不完美信息博弈模拟了多个智能体与私人信息之间的交互。在这一设置下,一个典型的目标是近似一个均衡,其中所有智能体的策略都能达到最优。 完美信息博弈(Perfect-information Games)和不完美信息博弈(Imperfect-information Games)是游戏中信息博弈的两种主要形式。在游戏中,完美信息博弈的前提是所有玩家都知道关于游戏的信息,如规则等;而不完美信息博弈中的玩家对正在玩的游戏没有共同知识,如其他玩家是谁、哪些策略或行动是可行的、结果如何取决于行动等。就难度而言,信息的不完美增加了玩家决策选择的难度,因而博弈分析的难度也更大。 围棋、国际象棋、跳棋等棋类游戏属于完美信息博弈。扑克牌则属于典型的不完美信息博弈,这也是 Noam Brown 一直以来的研究重心。从 2017 年的 AI 系统 Libratus 到 2019 年的新算法 Pluribus,它们都属于不完美信息博弈的范畴。 在论文中,Noam Brown 对博士期间的一系列研究成果进行了汇总。机器之心对该论文的核心内容进行了简要介绍,感兴趣的读者可以阅读原论文。 论文地址:http://www.cs.cmu.edu/~noamb/thesis.pdf Slides 地址:http://www.cs.cmu.edu/~noamb/thesis_slides.pdf 博士论文简介 这篇博士论文详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家,而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。 反事实遗憾最小化(CFR)的改进 作者首先介绍了对反事实遗憾最小化(counterfactual regret minimization, CFR)做出的改进,这是一种在双人零和博弈中收敛至纳什均衡的迭代算法。此外还描述了 CFR 的新变体,它们利用折扣原则(discounting)来显著加快收敛速度。 CFR 方法。 然后,作者介绍了理论上合理的剪枝(pruning)技术,这些技术可以在大型博弈中呈数量级地加快收敛速度。 CFR 中的剪枝流程。 将 CFR 扩展至大型博弈 作者描述了通过自动抽象和函数近似算法将 CFR 扩展至大型博弈的新方法。 具体而言,作者介绍了首个在不完美信息博弈中离散化连续动作空间的算法,该算法被证明局部最优。但是,这种算法需要大量的领域知识,并且难以扩展至其他博弈中。 以往方法的局限性。 所以,作者提出了 CFR 的一种变体 Deep CFR,它使用了神经网络函数近似,而没有使用基于 bucketing 的抽象。Deep CFR 是首个可以扩展至大型博弈的 non-tabular 形式的 CFR,并且使得 CFR 在几乎没有领域知识的设置下实现部署。 利用 Deep CFR 扩展至大型博弈中。 不断改进的搜索技术 作者提出了一种新的不完美信息博弈搜索技术,该技术确保智能体的搜索策略不被对手利用。这些新的搜索形式在理论和实践两方面均优于以往方法。 此外,作者介绍了一种深度受限(depth-limited)搜索方法,它的计算成本显著低于以往方法。 Pluribus 算法中的深度受限搜索。 最后,作者提出了一种新型 ReBel 算法,它在训练和测试时结合强化学习和搜索,并为缩小完美信息博弈和不完美信息博弈研究的差距迈出了关键一步。 在双人无限注德州扑克中的结果对比。 以下是博士论文的章节目录: 致力于德扑游戏 AI 研究的 CMU 大神 Noam Brown Noam Brown,Facebook 人工智能实验室的研究科学家,他致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统,其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的荣誉。 2017 年,Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《科学》杂志,与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖。 此外,Noam 团队还因此获得了 IJCAI 颁发的第二枚马文 · 明斯基奖章(Marvin Minsky Medal)。 Noam 在 IJCAI 2019 大会上领取马文 · 明斯基奖章证书。 2019 年,Noam Brown 与其导师 Tuomas Sandholm 在 Libratus 的基础上,开发出了所需算力更少的新算法 Pluribus。在为期 12 天、超过 10000 手牌的比赛中,Pluribus 击败了 15 名人类顶级玩家。 这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准游戏中击败顶级职业玩家。Pluribus 不仅登上了《科学》杂志的封面,还被该杂志列为 2019 年度十大突破科研成就之一。 Pluribus 登上了《科学杂志》封面。 此外,Noam 还曾获得 2017 年度 Allen Newell「卓越研究奖」,也曾被 MIT 科技评论评选为 2019 年度「35 岁以下科技精英」(MIT TR35)。2019 年,Noam Brown 与其导师 Tuomas Sandholm 合著的论文《Solving Imperfect-Information Games via Discounted Regret Minimization》获得了 AAAI 杰出论文荣誉提名奖。 参考链接:https://mp.weixin.qq.com/s/IoaSWYvBn_M2Io5EGcDWOAhttps://www.cs.cmu.edu/~noamb/ AIWIN世界人工智能创新大赛——2021赛季「抗新冠助科研AI大赛」全球招募啦! 开放新冠开放研究数据集(Corvid-19 Open Research Dataset,简称 CORD-19)包含近 20 万篇有关冠状病毒学术论文的数据集。 如果你是个人,这里有高额的奖金、世界500强合作企业的实习和就业机会、个人技术的世界级展示和交流平台; 如果你是企业,这里有AI+医疗全生态对接资源、有面向全球的线上线下展示机会、有真实的AI场景需求对接通道。 识别图片二维码或者点击阅读原文,立刻报名参赛吧! ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com 阅读原文

上一篇:2019-11-19_「转」拍广告还是拍电影?这不应该有鄙视链 下一篇:2019-10-09_浮云羊、冰淇淋熊、蹦迪蛙,欢迎光临“怪奇物语”美术馆

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价