全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-06-19_DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

您的位置:首页 >> 新闻 >> 行业资讯

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究 近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。 如今,这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?它们各自的优势、挑战以及最佳实践又是什么? 近日,一篇来自香港中文大学、北京大学及上海人工智能实验室的最新研究给出了答案。该研究首次对 GRPO 和 DPO 算法在自回归图像生成中的应用进行了全面深入的比较,不仅评估了它们在域内(in-domain)和域外(out-of-domain)的性能,还细致探究了不同奖励模型及扩展策略对其能力的影响。 论文标题:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO 论文链接:https://arxiv.org/abs/2505.17017 代码链接:https://github.com/ZiyuGuo99/Image-Generation-CoT 与 LLM 的 CoT 推理不同,图像生成的 CoT 面临着独特的挑战,例如确保文本 - 图像一致性、提升图像美学质量以及设计复杂的奖励模型(而非简单的基于规则的奖励)。现有工作虽然已将 RL 引入该领域,但往往缺乏对这些领域特定挑战以及不同 RL 策略特性的深入分析。 该团队的这项新研究填补了这一空白,为我们揭示了 DPO 和 GRPO 在图像生成领域的「相爱相杀」和「各自为王」。 图 1: GRPO 与 DPO 在自回归图像生成中的研究总览,涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。 研究核心发现概览 研究团队以最新的自回归图像生成模型 Janus-Pro 为基线,在 T2I-CompBench (域内、长文本复杂场景) 和 GenEval (域外、短文本模板化) 数据集上进行了细致评估。核心发现可归纳为三大方面: 1. 域内性能 vs. 域外泛化:DPO 与 GRPO 各擅胜场 DPO 称雄域内: 实验结果显示,离策略 (off-policy) 的 DPO 方法在域内任务上表现优于 GRPO。在 T2I-CompBench 数据集上,DPO 的平均性能比 GRPO 高出约 11.53%;在使用官方评估工具作为奖励信号时,DPO 甚至能达到 7.8% 的峰值提升。这突显了 DPO 在域内任务上的有效性和鲁棒性。 GRPO 泛化更强: 与之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表现更出色。在 GenEval 数据集上,GRPO 始终展现出比 DPO 更好的泛化性能;在使用 HPS 奖励模型时,GRPO 的峰值提升甚至比 DPO 高出 2.42%。 2. 奖励模型的影响:DPO 更敏感,优质奖励模型提升 RL 泛化 DPO 对奖励模型选择更敏感: 研究发现,DPO 的泛化性能对奖励模型的选择比 GRPO 更为敏感,表现为更大的域外性能波动。GRPO 在 GenEval 上的性能方差为 0.5486,显著低于 DPO 的 0.9547。 奖励模型的内在泛化能力至关重要: 一个具有更强内在泛化能力的奖励模型,能够潜在地提升 RL 算法的整体泛化性能。研究中,不同奖励模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表现排序,与它们通过 GRPO 或 DPO 优化后的 RL 模型表现排序高度一致。 3. 有效扩展策略的探索:因材施教,DPO 与 GRPO 策略迥异 研究团队系统探索了三种主流扩展策略:扩展每个提示生成的样本图像数量、扩展域内训练数据的多样性和体量,以及采用迭代训练方法。 对于 GRPO: 扩展采样图像数量能带来更高效的域内性能提升。 适度扩展采样规模和域内数据有助于改善泛化能力,但过度扩展可能导致过拟合。 对于 DPO: 迭代训练倾向于最大化域内性能,但在多轮迭代后可能损害泛化能力。 适度采样能锐化偏好对比,优化域内和域外性能;但过度采样会引入偏差。 扩展域内数据通过缓解小数据集带来的偏好范围局限,能同时提升域内和域外性能。 研究细节与洞察 研究团队首先明确了任务设定:自回归图像生成模型(如 LlamaGen、Show-o、Janus-Pro)通过将图像转换为离散 token 序列进行预测,其过程与 LLM 的文本生成类似,因此可以无缝集成 DPO 和 GRPO 的损失机制。 在DPO 与 GRPO 的对比中,研究者确保了两者在计算成本上的可比性。例如,DPO 中每个 prompt 生成的图像数量与 GRPO 中的组大小对齐,并使用相同的奖励模型。 结果清晰地显示,DPO 凭借其对预收集静态数据的有效利用,在域内场景(如 T2I-CompBench 的复杂长描述)中表现更佳。而 GRPO 通过迭代优化策略和在线采样,更能适应复杂任务分布,从而在域外场景(如 GenEval 的模板化短描述)中展现出更强的泛化性。 图 2: 域内与域外性能对比的可视化结果。 在奖励模型影响的分析中,研究团队考察了三类奖励模型:基于人类偏好的模型 (HPS, ImageReward)、视觉问答模型 (UnifiedReward, Ft. ORM) 和基于度量的奖励模型。 一个有趣的发现是,奖励模型自身的泛化能力(通过 best-of-N 策略在 GenEval 上评估得到)与通过 RL 算法(DPO 或 GRPO)训练后模型的泛化能力排序高度吻合(Unified Reward Image Reward HPS Reward)。这表明,提升奖励模型本身的泛化性是提升 RL 泛化性的一个关键途径。 图 3: 不同奖励模型影响的可视化结果。 在扩展策略的探索上,研究团队针对 GRPO 和 DPO 的特性提出了不同的优化路径。例如,对于 GRPO,增加每轮采样的图像数量(group size)比增加训练数据量或迭代次数,能更经济地提升域内性能。 而对于 DPO,迭代训练(如 DPO-Iter)虽然能显著提升域内分数,但过早地在泛化能力上达到瓶颈甚至衰退,这可能源于对训练偏好数据的过拟合。另一方面,扩展域内训练数据的多样性和数量,则能帮助 DPO 克服小规模偏好数据集带来的局限性,从而同时提升域内和域外表现。 图 4: 扩展策略影响的可视化结果。 总结与展望 这项研究为我们提供了一幅关于 DPO 和 GRPO 在自回归图像生成领域应用的清晰图景。它不仅揭示了 DPO 在域内任务上的优势和 GRPO 在域外泛化上的长处,还强调了高质量、高泛化性奖励模型的重要性,并为两种 RL 范式提供了针对性的扩展策略建议。 这些发现为未来开发更高效的 RL 算法,以在自回归图像生成领域实现更鲁棒的 CoT 推理,铺平了新的道路。研究者希望这项工作能启发更多后续研究,共同推动 AI 在视觉创造力上的边界。 ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2018-06-22_比TD、MC、MCTS指数级快,性能超越A3C、DDQN等模型,这篇RL算法论文在Reddit上火了 下一篇:2025-09-02_AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价