2025-04-09_Llama 4爆料大反转，没在测试集上训练！华人员工实名辟谣，LeCun出面救火-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

Llama 4爆料大反转，没在测试集上训练！华人员工实名辟谣，LeCun出面救火来源：新智元【导读】近日，关于Meta Llama 4的「训练作弊」爆料搞得沸沸扬扬。Meta迅速反击，Licheng Yu、Di Jin及GenAI负责人Ahmad Al-Dahle接连辟谣，首席AI科学家Yann LeCun也亲自下场力挺。与此同时，Llama 4的实际表现却频频被吐槽。Llama 4大瓜，又有了新的反转。昨日，自称是Meta内部员工的一则Llama 4训练作弊爆料，彻底掀翻了全网。紧接着，Meta研究科学家主管Licheng Yu实名辟谣，团队根本没有针对测试集过拟合训练。此前，他曾参与了Llama 3系列的研发，并这次负责Llama4 17B模型。另一位Meta高级AI研究科学家Di Jin（此次负责Llama 4 288B）反怼道，「我参与了微调和强化学习的datamix，也没有这种情况，楼主是否实名证实」？而且，他还抓住了所谓爆料者的一大破绽——最近离职高级VP，并非是GenAI团队的。但凡是内部的员工，不可能不了解这一点。与此同时，领导Llama团队的Meta GenAI副总裁兼负责人Ahmad Al-Dahle在X上发帖进行了澄清。Ahmad表示，不同平台间之所以会存在质量差异，是因为模型在完成开发后Meta便立即进行了开源。预计还需数日，各家才能完成优化适配。至于那些「使用测试集训练」的言论，可以说是毫无依据，因为这完全违背了Meta原则。Ahmad坚信Llama 4模型标志着重大的技术进步，并期待与开发者社区携手挖掘其潜能。作为Meta首席AI科学家的Yann LeCun，也在第一时间转发了Ahmad的帖子表示力挺。话虽如此，但并不能「洗白」Meta在背后偷偷动了手脚——刷榜LMSYS的Llama 4是一款「提供版」模型。竞技场开撕Meta，2000+对话公开真相 Llama 4开源首日，Maverick模型在Chatbot Arena上拿下仅次于Gemini 2.5的高分。然而，开发者下载后发现，Meta公开的与HF公开下载的模型大相径庭，一时间大模型排行榜被全网骂惨。今天，lmarena.ai团队彻底坐不住了，直接下场开怼。他们发文表示，为了确保完全透明，我们公开了2000+组模型对战数据，包括用户提示词、模型回复、用户偏好供超看。更劲爆的是，团队直指Meta在提交模型时，并非用的是原版，而是Llama-4-Maverick-03-26-Experimental。这是一个经过DPO优化的定制模型，然而Meta在提交时并未明确说明这一点。为了平息争议，团队火速给出解决方案，公开对战数据同时，并尽快上线Llama 4 Maverick公开版，并随后更新榜单结果。 Llama 4弱爆？吐槽一大片，但也有力挺虽然整件事只是一个抓马，但Llama 4实力拉跨是真的。在aider多语言编程基准测试中，Llama 4 Maverick仅拿下了16%成绩，远不及Qwen2.5-Coder、DeepSeek V3开源模型。更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。网友Flavio Adamo使用相同的提示词，分别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。可以看出，Llama 4 Maveric生成的多边形并不规则而且没有开口。小球也不符合物理规律，直接穿过多边形掉下去了。相比之下GPT-4o制作的动画虽然也不完美，但至少要好得多。另外，Llama 4 Scout最大优势便是支持10000 token上下文，甚至当时有网友直呼「RAG已死」。可事实上，在最新上下文基准测试中，Llama 4的排名几乎可以算上倒数的了。报告中指出，Llama 4的表现令人失望。Maverick未能改进本就低于平均水平的Llama 3.3 70b，而Scout模型更是糟糕透顶。谷歌的博士研究员Kaixuan Huang表示Llama 4的数学能力弱爆了。他们在MATH-Perturb基准测试上测试了Llama4-Scout，其得分排名甚至不及参数更小、发布更早的DeepSeek-R1-Distill-Qwen-14B。实在难以想象这是一个新发布的模型。地址：https://math-perturb.github.io/ 不过，斯坦福计算机助理教授Percy Liang刚刚发布一个新基准，Llama 4 Maverick竟拿下了最高分。针对这次基准乌龙事件，他本人也做出了回应，每个人不要过度解读排行榜。如果对一个模型进行多样测试，一切就清晰了。 DS太强，小扎按下恐慌按钮 Llama 4效果如此不尽人意，难道Meta不能等一切准备就绪再发吗？时间来不及了！有传言称，4月第二周，Qwen-3即将出世，而且说不定哪天DeepSeek R2突然发布了。届时，Llama 4可能更就拿不出手了，毕竟几个月前，Meta前员工爆料称，内部高层恐慌一片。来自艾伦研究员Nathan Lambert发长文称，Llama 4可能是今年最奇怪的一次模型发布。曾经，Llama系列每一次迭代，都被视为AI领域年度大事件，如今Llama 4却让人感到迷失。 Llama 4包括三款模型，最大亮点采用了MoE架构，训练计算量比Llama 3更少。在LMArena排行榜上，Llama 4 Maverick取得了1417 ELO高分，表现抢眼。但诡异的发布时间，「轻浮」的对话风格，以及评估数据的缺乏，都让Llama 4的亮相尽显慌乱。业界一直发出质疑——Llama 4的设计更像是古早的模型，复杂MoE架构、超大参数规模、高内存需求，与开发者需求渐行渐远。相较之下，Qwen 2.5提供了多样化模型选择，更贴近开源标杆的设计。从目前来看，Meta团队似乎更专注于用AI赋能自家平台，而非真正支撑开源的生态。参考资料：https://x.com/ylecun/status/1909313264460378114https://x.com/emollick/status/1909306675174977637·················END·················分享收藏点赞在看

上一篇：2023-03-14_这首《惊蛰令》，炸醒了整个春天

下一篇：2025-03-02_由ABC翻车事件，关于做好女性叙事的3点思考

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系