全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-05-14_ICML 2025 | 如何在合成文本数据时避免模型崩溃?

您的位置:首页 >> 新闻 >> 行业资讯

ICML 2025 | 如何在合成文本数据时避免模型崩溃? 随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。 然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。 最近在ICML 2025会议上,来自上交大、北京通院等研究机构的研究团队系统性地剖析了这一问题,并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。 论文标题:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE? 论文链接:https://arxiv.org/pdf/2412.14689 不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。 非迭代式模型崩溃现象识别 为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。 通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷: 分布覆盖收窄:缺乏低频与长尾样本,难以体现语言的多样性。 特征过度集中:n-gram 等语言特征分布密度过高,易导致模型过拟合。 Token-Level Editing 以编辑替代纯生成 更精细、更高质量的数据生成方式 为了解决上述问题,作者团队提出了一种 Token-Level Editing 方法不依赖生成整段文本,而是在训练数据中仅针对模型 “过度自信” 的 token 进行替换,定义如下编辑规则: 其中,是模型对的条件概率估计,p 是编辑阈值,是从先验分布中重新采样的新 token。这一过程保留了原始数据的长尾结构,仅对 “重复高置信度区域” 进行微调。 理论结果 测试误差有限上界,避免模型崩溃 作者进一步构建了线性回归分析框架,并证明 Token-Level Editing 过程的测试误差存在固定上界: 相比模型崩溃中的误差线性上升,这里误差被严格约束,不随迭代轮次增长。其关键原理在于: 每轮编辑操作只对一小部分样本进行调整,模型始终保持对真实数据分布的覆盖,避免了分布转移和特征过度集中。 进一步地,如果编辑矩阵 M_n 的影响强度递减(满足),则最终误差上界进一步优化为: 该理论说明,即使在多轮训练中,Token-Level Editing 依然能够从数学上阻止误差的无界增长,实现 “理论上不崩溃” 的数据增强路径。 实验结果 从预训练到微调全面验证方法有效性 为全面验证 Token-Level Editing 的有效性,研究团队在语言模型训练的三个关键阶段进行了系统实验: 预训练阶段(Pre-training):在通用任务如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入编辑数据后表现持续优于纯合成数据方案。例如在 OLMo-1B 上,整体任务平均分提升了 +0.36 个百分点。 持续预训练阶段(Continual Pre-training):在生物医药、金融、数学等专业任务中,Token-Level Editing 带来了跨域的泛化提升。例如在 PubMedQA 任务中,准确率提升高达 +13.6%。 监督微调阶段(Supervised Fine-tuning):在指令理解与代码推理等复杂任务中,编辑数据同样展现了对多样语言指令的强鲁棒性。以 LLaMA-3 为例,平均提升 +0.4~0.5%,且在多个任务上保持一致性优势。 此外,为验证方法的稳健性,研究还进行了多轮消融实验,包括: 编辑阈值 p 的变化范围; 多种采样策略(Top-k、Top-p、拒绝采样); 不同 token 置信度分布下的替换比例。 结果显示:在不增加训练数据规模的前提下,该方法依然具备良好可控性与可迁移性,具备强大的实际落地潜力。 ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2017-12-29_凡影数读 | 贺岁档:《解忧杂货店》映前观众热度领先,《星战8》尚不及《星战7》同期 下一篇:2020-04-17_GTA 5真香!哦不,我在用深度学习做自动驾驶

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价