全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-07-13_VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

您的位置:首页 >> 新闻 >> 行业资讯

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速! 本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。通讯作者为香港科技大学广州的李昊昂教授,他是今年的CVPR2025 Best PaperCandidate的获得者。 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 针对这一问题,部分研究提出采用 Jacobi 解码替代传统的自回归解码,以期提升推理效率。然而,由于 Jacobi 解码往往需要较多迭代次数,其加速效果在实践中较为有限。 为此,我们提出了一种一致性蒸馏训练(consistency distillation training)策略,使模型在每次迭代中能够同时预测多个正确的动作 token,从而实现解码加速。同时,我们设计了混合标签监督机制(mixed-label supervision),用于缓解蒸馏过程中可能产生的误差积累问题。 尽管上述方法带来了可接受的加速效果,我们进一步观察到:Jacobi 解码中仍存在若干低效迭代步骤,成为限制整体效率的关键瓶颈。为彻底解决该问题,本文提出一种提前退出(early-exit)解码策略,通过适度放宽收敛条件,进一步提升平均推理效率。 论文题目: CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding 项目主页: https://irpn-eai.github.io/CEED-VLA/ 论文链接: https://arxiv.org/pdf/2506.13725 代码链接: https://github.com/OpenHelix-Team/CEED-VLA 实验结果表明,我们所提出的方法在多个基线模型上实现了超过4 倍的推理加速,同时在仿真与真实机器人任务中均保持了较高的任务成功率。这些实验验证了本方法在加速机器人多模态决策过程中的高效性与通用性,展现出良好的应用前景。总的来说,我们做出以下三大贡献: (1)我们提出了一种通用的加速方法CEED-VLA,在保持操控性能的前提下显著提升了推理速度。 (2)我们引入了一种一致性蒸馏机制,并在自回归损失中结合混合标签监督,以有效保留高质量的动作序列。 (3)我们发现 Jacobi 解码存在低效迭代的瓶颈问题,进一步提出了早期退出(early-exit)解码策略,实现了4.1 倍的推理加速与 超过 4.3 倍的解码频率提升。 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding生成训练Jacobi Trajectory数据集。随后,我们设计了一种高效的一致性蒸馏方式,并引入了一种新颖的混合标签监督方法,在同时保证精度和提高速度的前提下训练学生模型。最后,我们提出了Early-exit Decoding技术,以进一步提升推理速度。模拟环境与现实世界中的实验表明,在几乎不损失任务成功率的前提下,该方法显著提升了模型的推理速度和灵巧任务的成功率。 Consistency Training 对于目标 VLA 模型 ,为了捕捉 Jacobi 轨迹中的内在一致性以进行一致性训练,我们首先通过在机器人数据集C上使用 Jacobi Decoding对模型 进行动作预测,来采集完整的Jacobi轨迹。 一致性训练包含两个优化目标:一致性损失(Consistency Loss):引导模型能够在单次forward过程中预测多个正确的 token,为了确保模型在轨迹中的任意一步都能生成与最终目标一致的动作,这里引入了 KL 散度作为一致性损失。简而言之,它要求模型在每一个中间步骤的预测,和最终预测结果之间保持一致,从而提高模型收敛效率。 混合标签的自回归监督损失(Mixed-label AR Supervision):为了保留模型常规的自回归生成能力,CEED-VLA混合使用教师模型的数据以及Ground-truth数据进行监督,以保证动作精确性。最终的训练目标是两种损失的加权和。训练过程如下所示: 图4 一致性训练算法 Early-exit Decoding 图 5:四种解码方式迭代流程 Jacobi 解码允许并行输出动作token,在一定程度上提高了推理速度,但严格的收敛条件影响解码效率进一步提升。为此我们提出Early-exit Decoding策略:模型通过提前退出的方式输出中间预测结果,无需满足Jacobi iteration的收敛条件。得益于manipulation任务独特的结构,Early-exit Decoding显著提升了推理速度,同时保持了成功率,使得模型能够以更高频率控制机器人,满足实时任务需求。 仿真环境基准实验(Simulation Benchmark) 图 6:仿真环境主要实验结果 在最具挑战的长程任务CALVIN ABC-D和LIBERO-Long基准上的实验结果表明,CEED-VLA在几乎不损失任务成功率的前提下实现了4倍以上的推理速度和执行频率。 真实世界实验(Real World) 图 9:真机实验部署设置 图 10:叠毛巾任务上的对比 上图展示了 LLaVA-VLA 模型的真实表现。机械臂操作频率较低,难以完成如叠毛巾等灵巧操作任务,经常出现抓取失败或只抓到一边的情况,导致任务失败。下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。 CEED-VLA 显著提升了推理速度和控制频率,使模型能够学习并执行高频动作,因此相比基线在灵巧任务上的成功率大幅提升,超过 70%。 ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2024-08-18_「转」包装设计创新:全球优秀包装设计整理 下一篇:2022-08-01_95载从戎之歌,这些最可爱的人把我看哭了!

TAG标签:

20
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价