全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-01-16_刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

您的位置:首页 >> 新闻 >> 行业资讯

刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科 机器之心报道机器之心编辑部这是阶跃星辰 Step 系列模型家族的首个推理模型。 类似 OpenAI o1 的推理模型在国内终于卷起来了。 刚刚,国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini(简称「Step R-mini」)。这是阶跃星辰 Step 系列模型家族的首个推理模型。 体验地址:https://yuewen.cn 新模型擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。 而且,它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。 根据阶跃星辰公布的基准测试数据,Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平,其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不错:在 LiveCodeBench 代码任务上超过了 o1-preview。 这一切是怎么做到的呢?机器之心从阶跃星辰相关人士了解到,新模型的「RL」含量很高,因此泛化性比较好。此外,他们还在数据质量、测试时计算、模型大小等多个方面进行了 scaling,再次验证了 Scaling Law 的有效性。 除了语言推理模型,他们也在打造能够进行多模态推理的视觉推理模型。而且相关人士强调说,这个多模态推理模型「是真的在视觉领域的推理」,即在图上进行推理,「而不仅仅是看着图却只在文字领域的推理」。 看来,阶跃星辰在自己的路线图上又往前迈了一步。 Step Reasoner mini 是如何炼成的? 根据阶跃星辰的介绍,Step R-mini 的设计与开发遵循了当前主流的推理模型开发范式。具体来说,它通过在推理阶段增加计算量,并结合思维链等技术,实现了「慢思考」。该系统能够根据任务的复杂性进行主动规划、尝试和反思,从而通过反复验证的逻辑机制,提供准确且可靠的反馈。 阶跃星辰表示,Step Reasoner mini 最大的亮点之一是实现了「文理兼修」。具体来说,Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。这一切是通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法来实现的。 此外,模型推理能力的提升也离不开阶跃星辰对 Scaling Law 原则的坚持。这包括以下几点: Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。 一手实测效果如何? 既然 Step Reasoner mini 宣称「文理兼修」,我们首先就用一个文理融合的题目来考校它一番:《梦游天姥吟留别》中,一个数与其倍数在同一句的是哪一句?问题不难,但这既需要 AI 记得并理解古诗词,还需要它懂得基本的算术。虽然很多人认为答案应该是「天台四万八千丈,对此欲倒东南倾。」但是其实四万八千是一个单独的数,这一句中也没有其倍数,因此这句并不算。而 Step Reasoner mini 也在推理思考中确认了这一点,并最终找到了正确答案:「千岩万转路不定」。 下面来看一道 2024 年的高考数学题: 可以看到,Step Reasoner mini 进行了一番思考后得到了正确答案。同样可以看到,该模型在第一轮思考得到答案之后会再执行两轮思考,以验证答案的正确性。实测中我们发现,如果第一轮和第二轮的答案不一致,Step Reasoner mini 还会持续进行多轮思考,直到得到正确答案。 接下来上一道逻辑推理题: 可以看到,Step Reasoner mini 系统地整理了题目中几个人的关系,并将最终答案以非常清晰的形式呈现了出来。 单纯的「文科」任务呢?比如如果要求模型霸气地翻译「I'm not in danger,I'm the danger.」它会怎么处理?结果发现,Step Reasoner mini 经过多次尝试,最终找到了一个相当霸气的译法:「我非但无险,我就是那险途。」更有意思的是,它还在思考过程中引经据典,参考了《黑暗骑士》中的类似台词。 另外,我们知道,最近小红书涌入了大量外国网友,他们的一大需求便是起中文名。「文理兼修」的 Step Reasoner mini 能帮助他们吗? 可以看到,对于英语问题,Step Reasoner mini 能流畅地切换成英语思考模式,同时还能在其中穿插对汉语含义的思考。至于最终得到的名字「星莉」,感觉还是不错的。 彩蛋:视觉推理模型也在路上了 从今天公布的消息来看,除了语言推理模型,阶跃星辰还放出了一个小彩蛋:正在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。 针对复杂视觉场景下的 Reasoning 问题,阶跃星辰引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。 效果如何?看展示: 1. 解答图中的题目 2. 从蓝色箭头出发,我能到达哪个? 3. 这些小球分别对应什么数字? 对视觉推理模型,期待住了有没有? ?THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2025-02-12_淘宝卖DeepSeek安装包一月赚数十万???我们免费教你本地部署DeepSeek-R1 下一篇:2025-08-20_致敬品牌首支广告,特仑苏藏在新品里的雄心

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价