全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-08-05_谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

您的位置:首页 >> 新闻 >> 行业资讯

谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战 机器之心报道编辑:陈萍 一场激动人心的 AI 国际象棋比赛即将开幕。 看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场? 太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。 开局第一天,就有 8 款前沿 AI 模型展开对决: 参与比赛的模型包括: o4-mini(OpenAI) DeepSeek-R1(DeepSeek) Kimi K2 Instruct(月之暗面) o3(OpenAI) Gemini 2.5 Pro(谷歌) Claude Opus 4(Anthropic) Grok 4(xAI) Gemini 2.5 Flash(谷歌) 直播地址:https://www.youtube.com/watch?v=En_NJJsbuus 这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。 组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。 这场比赛主要基于Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。 为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。 诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」 「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」 至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。 因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。 比赛介绍 Game Arena 平台上的每款游戏均设有详情页,用户可查看: 实时更新的比赛对阵表; 动态排行榜数据; 该游戏对应的开源环境代码及测试框架技术文档。 用户还可以实时查看对阵表: 对阵表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament 模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。 赛制说明 本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2–2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。 具体赛程安排 8 月 5 日(首日):8 款模型进行 4 场对决(每场 4 局) 8 月 6 日(次日):晋级的 4 款模型进行 2 场半决赛 8 月 7 日(决赛日):终极冠军争夺战 比赛规则 由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。 以下是对执行框架的简要说明: 模型无法使用任何外部工具。例如,它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。 模型不会被告知当前局面下的合法走法列表。 如果模型给出了一步不合法的走法,举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法,则本局游戏终止,并记为该模型负,对手胜。 每步棋有 60 分钟的超时限制。 在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。 大家都已经迫不及待地想要看比赛结果了。 更多比赛方式请参考:https://www.kaggle.com/game-arena 离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢? ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2024-04-24_苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相 下一篇:2025-03-05_奥斯卡封神夜遭豆瓣6.6分暴击!《阿诺拉》成全球影评人战争导火索,演员文淇差评引爆饭圈核弹

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价