全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-09-19_攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0

您的位置:首页 >> 新闻 >> 行业资讯

攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0 机器之心发布机器之心编辑部 “MoE+Long-CoT(长思维链)+RL(强化学习)” 这条技术路线存在难以兼顾训练稳定性和效果的难题。9 月 19 日,蚂蚁百灵大模型团队把 “难啃的骨头” 直接做成开源礼包 ——Ring-flash-2.0。100B 总参、6.1B 激活,数学 AIME25 拿下 86.98 分,CodeForces elo 分数 90.23,128K 上下文实测 200+token/s。 更关键的是,他们通过独创的棒冰(icepop)算法和长周期的 RL 训练,Ring-flash-2.0 在多项推理榜单上(数学、代码和逻辑推理)取得了显著突破,性能达到了 40B 以内 dense 模型的 SOTA 水平,甚至可与参数量更大的 MoE 模型相媲美。 Ring-flash-2.0 性能表现 机器之心深度拆解,这一开源项目,为什么可能改写下一阶段大模型的竞争节奏。 一、从 “不能用” 到 “敢开源”:MoE 长思考的临界点 2025 年,业内流行一张 “死亡曲线”:在长思维链场景下,MoE 模型 RL 训练存在奖励崩溃的问题。于是大家只能把学习率调小、任务提前终止,无法继续训练。 棒冰(icepop)算法:让 RL 进行长周期的稳定训练 Ring-flash-2.0 的破冰点在于 “棒冰(icepop)”:双向截断 + 掩码修正,一句话总结 ——“把训推精度差异过大的 token 当场冻住,不让它回传梯度”。 最终,icepop能够保持稳定的强化学习训练过程,避免了 GRPO 出现的训练崩溃问题。 左图为 GRPO 训练到 180-200 步开始崩溃,icepop 能实现持续稳定提升; 右图为 GRPO 训练不久出现梯度爆炸,icepop 能持续稳定在合理范围。 与 GRPO 相比,icepop 还将训推精度差异约束在合理范围内,显示出对于控制训推精度差异有效性。 左图为 GRPO 训推精度差异随着训练成指数上升,icepop 较为平稳;右图为训推精度差异最大值,GRPO 随着训练上升非常明显,icepop 维持在较低水位。 效果肉眼可见:训练再也不崩,百灵团队内部笑称,“终于不用担心训练无法长跑的问题”。 详细的棒冰(icepop)算法介绍参考技术博客:https://ringtech.notion.site/icepop Two-staged RL:先 “算对”,再 “像人” 百灵大模型团队首先采用 Long-CoT SFT,采用包含数学、代码、逻辑和科学四大领域为主体的多学科高质量推理数据集,让模型 “学会思考”;第二步,通过可验证奖励的 RLVR(Reinforcement Learning with Verifiable Rewards),把推理逼到极限;随后,加入 RLHF,用高质量人类偏好数据,把格式、安全、可读性拉回舒适区。 百灵团队验证了直接融合 RLVR+RLHF 的联合训练和 Two-staged RL,两种方式在实验中效果差异不大。 但由于 RLVR 和 RLHF 的问题难度不一致,RLHF 的思维链长度相对较短,放在一起训练会有较多等待长尾现象,从工程效率角度,使用了 Two-staged RL 方案。 二、6.1B 激活打平 40B Dense,成本曲线出现 “拐点” 大模型竞争进入 “第二幕”,核心指标不再是 “谁参数多”,而是 “谁性价比高”。 Ring-flash-2.0 架构图。 继承 Ling 2.0 系列的高效 MoE 设计,通过1/32 专家激活比、MTP 层等架构优化,Ring-flash-2.0 仅激活 6.1B (non-embedding 4.8B) 参数,即可等效撬动约 40B dense 模型的性能。 得益于小激活、高稀疏度的设计,Ring-flash-2.0 在 4 张 H20 部署下实现200+ token/s 的吞吐,大幅降低高并发场景下 Thinking 模型的推理成本。同时,Ring-flash 借助 YaRN 外推可支持128K 长上下文,随着输出长度的增加,其相对加速比最高可达 7 倍以上。 生成速度对比 竞赛数学视频 贪吃蛇case arcprize case 冒泡排序可视化 粒子烟花模拟 生成搜索引擎首页 query:请仿照 Perplexity,设计并生成一个搜索引擎首页,网站名称为 “想搜”,slogan 为 “想搜,才会赢”。请实现基本的搜索界面、风格化 Banner 和搜索输入区。 生成搜索引擎首页 结语:大模型竞争进入 “高性价比” 时代 从 2022 年 ChatGPT 点燃生成式 AI,到 2024 年长思考成为新战场,行业一直在等一个 “既聪明又便宜” 的推理模型。Ring-flash-2.0 用 100B 总参、6.1B 激活、200+token/s 的速度,把「Long-CoT + RL」做到工程可落地,还顺手把训练稳定性、推理成本、开源生态一次性打包。 如果说 GPT-4 开启了 “大模型可用时代”,那 Ring-flash-2.0 或许正式拉开了 “MoE 长思考高性价比时代” 的帷幕。剩下的问题只有一个:你准备用它做什么? 开源地址: HuggingFace:https://huggingface.co/inclusionAI/Ring-flash-2.0 ModelScope:https://modelscope.cn/models/inclusionAI/Ring-flash-2.0 GitHub: https://github.com/inclusionAI/Ring-V2 技术博客: https://ringtech.notion.site/icepop ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2025-06-08_「转」大屏文案全是梗!江苏十三太保你们是真的火了! 下一篇:2024-12-26_2024年十大创意总监(投票)

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价