梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义?
作者:段小草@知乎DeepSeek 再次创造了历史!成为首个通过严格同行评议的主流大语言模型!美联储降息有什么意思,今天的头条必须属于 DeepSeek!太强了!我先给大家省流划重点: DeepSeek R1 论文登上了最新一期的 Nature 封面!梁文锋署名通讯作者!Nature 还专门为此写了篇社论夸赞 DeepSeek 的技术开放性,并呼吁更多企业主动发表大模型学术成果。R1 模型成本首次公开,用 H800 训练,从 V3-base 训练成 R1,只花了 29.4 万美元!在经受同行评议时正面回应:DeepSeek 没有使用 OpenAI 模型合成数据训练!相比于一月份的预印本论文,Nature 版论文经历了 8 位专家评审,进行了大量修改。从结果来看,这是一篇质量过硬,经得起质疑、经得起时间和实践检验的论文。论文作者名单没有变化,恭喜 17 岁的高中生大佬涂津豪喜提一篇 Nature!真的太强了!收下我的膝盖!这篇论文不仅对 DeepSeek,对整个大模型产业都有很大影响,甚至可以说意义远超论文本身。 熬夜肝文,大家点赞收藏一波。接下来坐稳扶好,我带大家深入更多论文细节。一篇大模型论文,怎么就登上了 Nature 封面? 众所周知,DeepSeek R1 是今年 1 月 20 日开源的[1],几乎同步发布了预印本的论文[2]。 现在我们知道,2 月 14 日,DeepSeek 就向 Nature 投稿,经历了 5 个月的评议和修改之后,于 7 月 17 日接收,并登上 9 月 17 日的 Nature 封面[3]。 论文的标题是:《DeepSeek R1 通过强化学习激励 LLMs 进行推理》。 而 Nature 封面则是:《Self-help:强化学习教会 AI 模型自我改进》。这也可以看出,DeepSeek 从一开始就是奔着 Nature 投的,而且 DeepSeek 这帮人是真的卷,情人节投稿,估计春节假期也没怎么休息。 那么问题来了,DeepSeek 为什么能上 Nature?为什么能上封面? 再引申一个问题:为什么 GPT、Gemini、Claude 没上 Nature 呢?当然这个问题的答案很简单:因为他们没有向 Nature 投稿。 但我觉得,这恰恰是 DeepSeek 做得好的地方——开源、开放。 OpenAI 的确先做出了 o1,原本是有机会抢下这个学术成果的,但他们选择了闭源,选择了优先商业化,自然也就与学术成就无缘。 国外的 AI 企业,发表的是 Technical Report(技术报告),是 Model Card(模型卡),那都是吹嘘自己模型 SOTA 成绩的广告,而不是可复现、可验证的学术成果。特别是 Nature 还专门发了一篇社论《提交 LLMs 成果:为何同行评议对 AI 模型有益》[4],呼吁更多 AI 公司接受学术出版审查:同行评议不是要求公开商业机密,而是通过证据支撑技术主张,推动行业健康发展。
其中明确提到:
之前流行的大模型,没有一个经过了学术界的同行评议(DeepSeek 是第一个),因而缺乏对大模型工作原理和实际能力的客观验证。同行评审能提升模型透明度,验证功能真实性,并制衡开发者「自评自测、自吹自擂」的潜在偏见。DeepSeek R1通过强化学习实现自主推理能力,其开源特性(开放权重)允许自由下载和二次开发。8 位专家从原创性、方法论和鲁棒性等维度评审,论文同步公开审稿意见和作者回复,DeepSeek 树立了大模型行业透明度新标杆。在AI技术泛化的背景下,独立验证是遏制过度炒作、防范社会风险的必要机制。所以你看,前沿企业出于商业竞争考虑把自己的模型细节藏着掖着,很难转化为学术成果。Nature 把 DeepSeek 放在封面,也是想激将一下这些企业。
当然了,Nature 并不是宣传模型性能的地方,要上期刊,是要拿出实实在在的学术成果的。
我觉得,DeepSeek R1,无论是科学叙事还是方法论,无论是过程严谨性还是结论普适性,都完全配得上一篇 Nature。
不信?我斗胆站在审稿人的角度,带大家简要理一理这篇论文。
DeepSeek R1 的论文讲了什么?DeepSeek R1 的这篇论文,可以从叙事、方法论和实验透明度三个方面来理解。
科学叙事首先是科学叙事,俗称讲故事。又可以分为问题、假设和结论。
问题提出:
R1 的论文,并不是在宣传「我们做的模型有多强」,不是靠秀出 SOTA 成绩吸引别人的注意力,而是从一个根本性的科学问题切入:
通用人工智能(AGI)的核心推理能力,目前严重依赖于昂贵且充满偏见的人工标注数据。核心假设:
为了解决数据标注的成本和偏见问题,DeepSeek 假设:
大模型的复杂推理能力,可以通过纯粹的 RL 强化学习,从一个简单的奖励信号(正确与否)中「自发涌现」,而无需人类提供思考过程的范例。这直接挑战了主流依赖高质量 SFT 数据的范式。
结论升华:
R1-zero 和 R1 的实验成功,不仅仅代表了一个模型的成功,更是探索出一条「机器超越人类数据限制,实现自我进化」的潜在路径。
从问题,到假设,到实验结论,从一个推理模型上升到了「AI 自主进化」,这故事讲的多好。
方法论故事讲的好是基础,方法论也要扎实。
DeepSeek R1 的关键创新就在于:验证了直接在基础模型上进行大规模 RL 强化学习的可行性和效果,证明了 SFT 并非激发推理能力的必要前置步骤。
模型在训练过程中自主学会了反思、验证和探索多种解题路径等复杂行为。
特别是那个经典的「Aha Moment」,模型在答题时自己说「wait、wait、wait」,这个例子直接将抽象的能力提升具象化为一个可以看到的「行为涌现」。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h2z1mioimg data-imgfileid=100025308 data-ratio=0.8805555555555555 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4E3ArLKH59AUjloyPplj01ONFtWwXiaRpG8bsNrYE62xZHkSqtphPib1YA/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1222//span/span/span/span/span/span/span/span/span/span/span
这个「Aha Moment」太生动了,简直就是 AI 的尤里卡时刻。
实验透明度相比于当初的预印本内容,Nature 版论文经过评审和修改,实验透明度更高,真正作为学术成果发布,增加了海量的技术细节,比如各阶段的流程图、GRPO 算法、奖励模型的设计、超参数等等。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h2z1upnimg data-imgfileid=100025309 data-ratio=0.49166666666666664 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4E2rOAX3jAKL5EU8uW8k33WMAM3jp20ZOMWoAtWvlLnsVdSlsqwS6Zag/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=2394//span/span/span/span/span/span/span/span/span/span/span
某种意义上说,这真的是可复现、可验证的学术成果,真的把过程掰开了揉碎了公开出来,而不是一个简简单单的技术报告。
如果说一月份的 R1 技术报告是宣传模型的「成果展示」,那 Nature 版 R1 论文就是「过程论证」。
论文更详细的内容我就不展开了,推荐大家自己去读,多读几遍,甚至有必要比照预印本内容读,可以找到修改的痕迹,和「讲科研故事」的脉络。
顺便一提,其实我今年年初学完 R1 的预印本论文后就有个感受:
虽然是 R1 让广大用户感受到了开源推理模型的深度思考能力;但实际上,也许在 DeepSeek 内部,R1-Zero 才是那个真正有价值、有意义、将会被未来铭记为里程碑的科研成果。
再补充一句:和大模型行业快速迭代的速度比起来,正式论文发表花费的时间太久了。但这恰恰说明,R1-Zero 的方法是有范式价值的,是经得起时间检验的科研成果。
最劲爆的内容,在论文之外说实话,论文的核心结论,在预印本里已经讲出来了。这次在 Nature 上发表,真正劲爆的内容在论文之外的补充信息[5]和评议文件里[6]。(我还没读完,但信息量巨大,比论文本身都大!)
DeepSeek R1 训练成本首次揭秘:29.4 万美元DeepSeek 曾经在 V3 的论文里公开过,V3 模型的训练成本是 560 万美元,准确来说是 557.6 万美元。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h3016xyimg data-imgfileid=100025307 data-ratio=0.2361111111111111 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4ElNAa2US2K469Z5DtG4aErUXmMic7eibsJBaT2ksibziator6EJetbTqLFg/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1494//span/span/span/span/span/span/span/span/span/span/span
结果 R1 火了之后,很多人张冠李戴地把这个数字安在 R1 头上,说 R1 的训练成本是 560 万美元。
但实际上,R1 的预印本论文中,并没有公布训练成本。我也曾经辟谣过,但没用,大家还是以讹传讹地这样认为。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h301ldimg data-imgfileid=100025314 data-ratio=1.7416666666666667 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4EmF8JhHAbIZgbiapcYEMfcCcZgHLibutZRQn3qFMRYLzPWzLfpTu7c2rw/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1036//span/span/span/span/span/span/span/span/span/span/span这次为了在 Nature 发论文,DeepSeek 在审稿人的追问下,首次公开了 R1 的训练成本,简直夸张到离谱:R1-Zero + SFT 数据生成 + R1 一共只花了 29.4 万美元!
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h301vogimg data-imgfileid=100025317 data-ratio=0.20833333333333334 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4EYfQmtPv9R8HDJo5nhtwrvTdRjJEtubaia0aibZMk2BC5EaFYlG2B2qlw/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1992//span/span/span/span/span/span/span/span/span/span/span具体来说,训练使用 64*8 H800 GPU,R1-zero 用了 198 小时,R1 只用了 4 天,约 80 小时。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h30ud1img data-imgfileid=100025316 data-ratio=0.3277777777777778 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4ElmialbaMda5QoNKWL0qBeI5NbO9MIbiaSDHjYQ4P7QSCgAjQc0S9g0IA/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1956//span/span/span/span/span/span/span/span/span/span/span这也跟郭达雅之前删掉的一条推特对应起来。当时他说:
660B 的 R1-zero 和 R1 是在 V3 发布后才开始训练,用了 2-3 周;V3 报告中提到的 R1,其实应该叫 R1-Lite 或者 R1-Lite-zero。V3 是 12 月 26 日发布的,R1 是 1 月 20 日发布的,这么短的时间,模型训出来、发出来、甚至连论文都公布出来,关键是只花了不到 30 万美元?!
现在想想,Meta 的人说,V3 的成本比他们随便一个管理层的工资成本都低。
结果,R1 的成本相比 V3 又去了个 0 还打了五折。(当然,R1 是建立在 V3 基础模型的成本之上的)
我只能说,恐怖如斯。
正面回应数据问题:没有使用 OpenAI 的合成数据!DeepSeek R1 发布之后,国内国外都出现了一些质疑的声音,比如是不是直接「蒸馏」了 OpenAI 的模型。
我们在这里不去澄清「蒸馏」这个词的技术含义。他们无非是想说明,DeepSeek 用了 OpenAI 的合成数据。
之前 OpenAI 一直没有回应过,这次我在论文的补充材料和评议答复里找到了官方的正面回应。
首先:
R1 基于 V3-base 模型,而 V3-base 模型是从互联网抓取的数据,因而会不可避免地抓到一些互联网上已经存在的、由各种 AI 模型生成的数据(包括 OpenAI)。
但是!DeepSeek 并没有有意使用 OpenAI 的合成数据进行训练!
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h30wszimg data-imgfileid=100025318 data-ratio=0.36944444444444446 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4E8XuuUjgGbc7jhwS4kn73YRV5Kq75HXea0gIZAg9Gx7TsTbFXE4qibXA/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1458//span/span/span/span/span/span/span/span/span/span/span当然,这可能还不够用说服力。比如同行评议中有人质疑,
DeepSeek-V3-Base 模型在预训练阶段可能已经接触了大量的推理痕迹数据,间接获得了 OpenAI这类更强模型的能力,从而使得其纯粹通过强化学习获得推理能力的结论不那么可靠。DeepSeek 的回应是:
在预训练阶段收集的网页数据中可能包含了由 GPT 等模型生成的内容,但是在当前大规模语言模型训练中,这种情况很难避免。DeepSeek-V3-Base 的预训练没有包含一个明确的、大规模使用合成数据集进行监督学习的阶段。任何对合成内容的接触都是偶然和间接的。DeepSeek-V3-Base的预训练数据收集截止日期为 2024 年 7 月,而当时并没有公开可用的高级推理模型。这大大降低了从现有强大推理模型中无意蒸馏的可能性。论文的核心贡献——R1-Zero模型——没有涉及任何来自高级模型的蒸馏。其强化学习部分是独立训练的,不依赖于其他模型生成的输出或指导。为了彻底打消论文评审的顾虑,DeepSeek 甚至进行了一项额外的实验,他们用发布于 2024 年 6 月的,早于所有公开的推理模型的 Qwen2-7B模型,作为基础模型进行了训练:
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h301ic1img data-imgfileid=100025322 data-ratio=0.6902777777777778 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4EOjia7J4vkODVZ2LopZTSiaStiascLGBuphHic3VQ7rhGk5C8LghOa3zcAg/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1326//span/span/span/span/span/span/span/span/span/span/span实验结果表明,该模型同样通过大规模强化学习自主发展出了先进的推理策略,显著优于非推理模型。
Nature 网站上有一篇评论文章[7]《DeepSeek AI 模型核心机密在里程碑论文中揭晓:首篇同行评审研究揭示中国初创企业如何以 30 万美元打造震撼市场的 LLM 大模型》。
里面有这样的话:
这篇反驳「与我们在任何出版物上看到的论据同样具有说服力」。
虽然不能 100%确定 R1 没有使用 OpenAI 的数据进行训练,但其他实验室的复现尝试表明,DeepSeek 的推理方法已经足够优秀,而根本不用那么做。
我认为现有证据已相当明确地表明,仅使用纯粹的强化学习就能获得非常高的性能。所以,DeepSeek 的这些回应,不管你信不信,反正 Nature 的评审都信了。那些泼脏水的真的能歇歇了。
仔细去看看 DeepSeek 和论文评审之间的沟通就知道,这是一篇质量过硬,经得起质疑、经得起时间和实践检验的论文。
(不行得睡觉了,欢迎大家评论区补充更多细节)
最后补充几点,跟论文关系不太大的花边吧。
梁文锋可不仅仅是「参与」DeepSeek R1 论文,他可是正经的唯一通讯作者。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h321u5timg data-imgfileid=100025320 data-ratio=0.3902777777777778 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4Ek4ppjccWYcuwlicgD9G1eaK7iaiaOZyibJibzFfpWFtdwgsEdibTVgqF8MfQ/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1440//span/span/span/span/span/span/span/span/span/span/span
这让我想起来另一个梁总——去年携程梁建章也在 Nature 发了一篇论文[8]。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h321v6uimg data-imgfileid=100025325 data-ratio=0.6180555555555556 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4EmVU1Tg5GgdPP9nQDEkG4icgq0EXgaA4t5w93RIZ4cUvxiaOKVZNYunPg/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1394//span/span/span/span/span/span/span/span/span/span/span这是什么精神?!
按照马斯洛的需求理论,这必须是最高等级的「自我实现」。这种财富自由的巨佬,啥都不图,就图个精神上的满足。
所以我们必须夸他们,大夸特夸。愿更多老板能追求发 Nature,祝更多老板成功发 Nature!
顺便,还在作者名单中发现了一位来自上海建平中学的高中生(应该刚高三毕业)。
span leaf=""span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf=span leaf= style=font-size: 15px; mpa-font-style=mfth4h32wvtimg data-imgfileid=100025327 data-ratio=0.33611111111111114 src=https://mmbiz.qpic.cn/mmbiz_jpg/7GcOpojrrssWodd1G7MZYpFWMXsC1p4Ep4sgRAm7dibcKWiaicIe6IGCXjBEoQPTqUdNoA0wIElt4hQqicdFm6u9dA/640?wx_fmt=jpeg&from=appmsg data-type=jpeg data-w=720 width=1440//span/span/span/span/span/span/span/span/span/span/span也是个很熟悉的名字了:涂津豪[9]。曾在腾讯混元、DeepSeek 实习,开源项目 Thinking-Claude 的作者(15.6k star)[10],2024 阿里全球数赛AI挑战赛冠军。
看看别人家的高中生!已经发 Nature 了!
参考(略)·················END·················分享
收藏
点赞
在看
阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线