全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-12-27_把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

您的位置:首页 >> 新闻 >> 行业资讯

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。 论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment 论文链接:https://arxiv.org/abs/2411.19309 项目地址:https://grape-vla.github.io 代码地址:https://github.com/aiming-lab/GRAPE 研究背景 近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。 此外,这些模型通常通过微调来复制在不同环境下由专家收集的演示数据,这导致了分布偏差,并限制了它们对多样化操作目标(如效率、安全性和任务完成)的适应能力。 方法部分 为了解决这一问题,我们提出了 GRAPE,一种即插即用的算法,通过偏好对齐提升机器人策略的泛化能力,并支持将 VLA 模型对齐到任意设定的目标。GRAPE 的框架如下图所示: 图 1:GRAPE 的框架 GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性: GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力,而不仅仅是简单的行为克隆; GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力; GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。 具体而言,GRAPE 的框架可以被拆成三个部分:Trajectory-wise Preference Optimization、Customized Preference Synthesis 和 Iterative Online Alignment。以下是这三个部分的详细介绍: Trajectory-wise Preference Optimization(轨迹级偏好优化): GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别,并通过强化学习(RL)目标进行训练,确保对齐后的策略能够优先选择被接受的轨迹,而非被拒绝的轨迹。 具体而言,我们基于 DPO 的 Loss 函数进行了改进,引入了一种全新的 TPO_Loss,使得模型能够学习轨迹级别的偏好。我们利用模型在任务中采集的较优与较劣的尝试(分别计为 ζ_w,ζ_l),建立了 TPO 偏好数据集,最终使得模型在 TPO 训练后在全局层面获得了对齐,并增强了其鲁棒性。 图 2 TPO-Loss 公式 Customized Preference Synthesis(定制化偏好合成): 基于 TPO-Loss 的设计,我们需要对于轨迹的优劣进行建模,从而构建对应的偏好数据集。然而,对于一些复杂的机器人任务,并没有能够用于轨迹排序的奖励模型。 针对这个问题,GRAPE 引入了一种可扩展算法,将复杂操作任务分解为独立阶段,并通过一个大型视觉-语言模型提出的关键点,自动引导偏好建模过程中的时空约束。这些约束具有灵活性,可根据需求进行定制,使模型与不同目标(如安全性、效率或任务完成)保持一致。 Iterative Online Alignment(迭代式在线对齐): GRAPE 通过以下迭代循环不断优化对齐过程:1)在线样本采集,2)合成偏好排序,3)轨迹级偏好优化。这种方法逐步提升了 VLA 策略的泛化能力,并使其与任意目标更好地对齐。 实验结果 真机泛化实验 我们在域内任务以及五种分布外泛化(OOD)任务上评估了 GRAPE 的性能,这些 OOD 任务包括:视觉(新的视觉环境)、主体(未见过的物体)、动作(未见过的操作)、语义(未见过的提示)和语言落地泛化(物体处于未见过的空间位置)。 结果显示,GRAPE 在这些 OOD 任务上的表现分别比最先进的 OpenVLA-SFT 模型提升了 20.7%、27.5%、10.0%、5.0% 和 26.7%。这充分体现了通过偏好对齐过程所实现的卓越泛化能力。 仿真泛化实验 我们进一步在 Simpler-Env 和 LIBERO 环境中评估了 GRAPE 的性能,重点考察三种 OOD 任务的泛化能力:主体(未见过的物体)、物理属性(未见过的物体尺寸 / 形状)和语义(未见过的提示)。 结果显示,GRAPE 在这些 OOD 任务上相较 OpenVLA-SFT 模型分别提升了 8.0%、12.3% 和 19.0% 的表现。 图 3:真机与仿真实验统计结果 特定对齐目标分析 GRAPE 能够高效地将机器人策略与通过自然语言指定的多种目标对齐,例如任务完成、安全性和效率。这些目标被融入多阶段的成本函数中,进而影响采样轨迹的排序。 实验表明,当对齐目标为更安全或更高效的操作策略时,GRAPE 可将碰撞率降低 44.31%,或将执行轨迹的长度缩短 11.15%。 图4:指定的对齐目标(安全),训练后的模型学会了安全地执行操作 结论 本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。 ?THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2018-12-12_品牌声浪 | 2018良仓设计大赏,66件最值得关注的生活设计 下一篇:2025-03-12_梁文锋,yyds !!

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价