全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-02-24_阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?

您的位置:首页 >> 新闻 >> 行业资讯

阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手? 这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 https://arxiv.org/abs/2501.12948 它主要讲了如何通过强化学习(Reinforcement Learning, RL)来提升大型语言模型(LLM)的推理能力,推出了两个模型:DeepSeek-R1-Zero和DeepSeek-R1,还顺带开源了一些小模型。这论文挺硬核的,但咱可以用大白话把它的核心内容掰开揉碎讲明白。 一、论文背景:为啥要搞这个研究? 大型语言模型(比如ChatGPT这类)这几年发展很快,已经在朝“通用人工智能”(AGI)迈进。推理能力是AI变得更聪明的重要一环,比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型,通过延长推理过程(Chain-of-Thought, CoT)在推理任务上表现得很强,但具体怎么做到的,大家只能猜。 这篇论文的作者想搞清楚:能不能不用传统的那种监督微调(Supervised Fine-Tuning, SFT),直接靠强化学习让模型自己学会推理?他们用了DeepSeek-V3-Base作为基础模型,试着用纯RL打造一个推理高手,结果还真搞出了名堂。 二、主角登场:DeepSeek-R1-Zero和DeepSeek-R1 论文里主要讲了两个模型,一个是“原始版”DeepSeek-R1-Zero,一个是“升级版”DeepSeek-R1。 1. DeepSeek-R1-Zero:纯RL的试验田 怎么做的? 直接拿基础模型(DeepSeek-V3-Base),不给任何监督数据,就用强化学习去训练。用了一种叫GRPO(Group Relative Policy Optimization)的算法,简单说就是让模型自己试错,试出一堆答案,然后根据“对不对”和“格式好不好”给奖励。奖励分两块:一是答案正确性(比如数学题对不对),二是格式(要求模型把思考过程写在think标签里,答案写在answer里)。结果咋样? 牛得很!比如在AIME 2024(美国数学邀请赛)上,正确率从15.6%飙到71%,用多数投票(cons@64)还能到86.7%,跟OpenAI的o1-0912差不多。更厉害的是,模型自己学会了反思、验证,还能生成很长的推理过程,完全没人为干预。有啥问题? 可读性差,回答乱七八糟,有时还中英混杂,看着头晕。这让作者觉得,得优化一下,不能光推理强还得让人看得懂。 2. DeepSeek-R1:加点料的升级版 怎么改进的? 先用少量高质量的“冷启动数据”(cold-start data)微调基础模型,让它有个好起点。然后分四步走:冷启动:收集几千条带长推理过程的数据,教模型怎么写得清楚又好看。推理强化学习:跟R1-Zero一样用RL,但加了个“语言一致性”奖励,避免中英混杂。拒绝采样+SFT:用RL训练到差不多时,生成一大堆数据(60万推理+20万非推理),再微调模型,让它不只会推理,还能写文章、回答常识问题。全面RL:再来一轮RL,优化帮助性和安全性,兼顾各种场景。结果咋样? 性能直接对标OpenAI的o1-1217。比如AIME 2024上79.8%,MATH-500上97.3%,代码任务Codeforces上Elo达到2029(超过96%的人类选手)。比R1-Zero可读性好多了,还能干更多事,比如写作、问答,长上下文理解也很强。 三、顺手开源:小模型也能很强 咋搞的? 用DeepSeek-R1生成的数据(80万条),直接微调了一些开源小模型(Qwen和Llama系列,1.5B到70B不等),叫“蒸馏”(distillation)。没用RL,就简单SFT,结果也很猛。效果如何? 7B的Qwen模型在AIME 2024上55.5%,14B的超了QwQ-32B-Preview,32B和70B甚至干翻o1-mini。证明大模型的推理能力可以“传”给小模型,比直接在小模型上用RL效果好还省力。 四、实验结果:硬碰硬的数据对比 论文里给了详细的测试结果,跟一堆强模型(Claude-3.5、GPT-4o、o1系列)比了个遍。简单总结: 推理任务:DeepSeek-R1跟o1-1217不相上下,秒杀其他模型。知识任务:MMLU 90.8%,GPQA Diamond 71.5%,比DeepSeek-V3强,但略逊o1-1217。其他任务:写作、问答啥的也很牛,AlpacaEval 2.0胜率87.6%,ArenaHard 92.3%。蒸馏的小模型也很有竞争力,尤其是14B、32B、70B,性价比很高。 五、聊聊得失:成功的秘密和踩过的坑 1. 为啥成功? 纯RL可行:DeepSeek-R1-Zero证明不靠监督数据也能练出推理能力,RL自己就能让模型进化。冷启动+多阶段:DeepSeek-R1用少量数据打底,再RL+SFT循环,效果更好还更人性化。蒸馏效率高:大模型的智慧能便宜地传给小模型。 2. 踩了啥坑? 过程奖励模型(PRM):想细化每步奖励,但定义难、标注烦,还容易被模型“钻空子”,最后放弃了。蒙特卡洛树搜索(MCTS):想模仿AlphaGo用搜索提升推理,但语言模型的搜索空间太大,效果不理想。 六、未来咋办? 通用能力:现在R1在函数调用、多轮对话上不如V3,得继续优化。语言混杂:目前只优化了中英文,其他语言容易乱,得修。软件工程:这块数据少,RL没发挥好,后面要加码。 七、大白话总结 这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上,开源给大家玩。整个过程既有惊喜(模型自己学会反思),也有教训(有些方法行不通),但总的来说,是AI推理领域的一次漂亮突破。 阅读原文

上一篇:2021-11-08_算法炒房三月亏20多亿!房地产巨头大翻车! 下一篇:2025-05-27_女性营销的尽头,是“姐”

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价