2025-01-22_化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 本文的作者均来自北京大学与智元机器人联合实验室，通讯作者为北京大学计算机学院助理教授董豪。目前团队研究方向覆盖智能机器人的泛化操纵、具身导航和感知自主决策。团队持续开放联合实习生岗位，提供充足的机器人本体和计算资源。近年来视觉语?基础模型（Vision Language Models, VLMs）在多模态理解和?层次常识推理上?放异彩，如何将其应?于机器?以实现通?操作是具身智能领域的?个核?问题。这??标的实现受两?关键挑战制约： 1. VLM 缺少精确的 3D 理解能?：通过对?学习范式训练、仅以 2D 图像 / ?本作为输?的 VLM 的天然局限； 2. ?法输出低层次动作：将 VLM 在机器?数据上进?微调以得到视觉 - 语? - 动作（VLA）模型是?种有前景的解决?案，但?前仍受到数据收集成本和泛化能?的限制。针对上述难题，北?携?智元机器?团队提出了 OmniManip 架构，基于以对象为中?的 3D 交互基元，将 VLM 的高层次推理能力转化为机器?的低层次高精度动作。针对?模型幻觉问题和真实环境操作的不确定性，OmniManip 创新性地引?了 VLM 规划和机器?执?的双闭环系统设计，实现了操作性能的显著突破。实验结果表明，OmniManip 作为?种免训练的开放词汇操作?法，在各种机器?操作任务中具备强?的零样本泛化能?。项?主?与论?已上线，代码与测试平台即将开源。主?地址：https://omnimanip.github.io论?地址：https://arxiv.org/abs/2501.03841 技术?案解析 ?法概述 OmniManip 的关键设计包括：基于 VLM 的任务解析：利? VLM 强?的常识推理能?，将任务分解为多个结构化阶段（Stages），每个阶段明确指定了主动物体（Active）、被动物体（Passive）和动作类型（Action）。以物体为中?的交互基元作为空间约束：通过 3D 基座模型?成任务相关物体的 3D 模型和规范化空间（canonical space），使 VLM 能够直接在该空间中采样 3D 交互基元，作为 Action 的空间约束，从?优化求解出 Active 物体在 Passive 物体规范坐标系下的?标交互姿态。闭环 VLM 规划：将?标交互姿态下的 Active/Passive 物体渲染成图像，由 VLM 评估与重采样，实现 VLM 对?身规划结果的闭环调整。闭环机器?执?：通过物体 6D 姿态跟踪器实时更新 Active/Passive 物体的位姿，转换为机械臂末端执?器的操作轨迹，实现闭环执?。以物体为中?的交互基元物体的交互基元通过其在标准空间中的交互点和?向来表征。交互点 p∈R3 表示物体上关键的交互位置，?交互?向 v∈R3 代表与任务相关的主要轴。这两者共同构成交互基元 O={p,v}，封装了满?任务约束所需的基本?何和功能属性。这些标准交互基元相对于其标准空间定义，能够在不同场景中保持?致，实现更通?和可重?的操作策略。对于通?物体的交互点提取，OmniManip利?视觉语?模型（VLM）在原图（当部件可?且实体存在时）或在正交视图中渲染的 3D ?格（当部件不可?或实体不存在时）上进?定位。与 CoPa 和ReKep 等?法不同，OmniManip直接让 VLM 进? grounding，不会受限于不稳定的 part 分割或聚类结果。在交互?向的采样??，由于物体的规范化空间通过 Omni6DPose 锚定，轴的?向与语义对?，该团队让 VLM 直接对物体标准空间的轴进?语义描述，并根据操作任务进?匹配度排序，以获得交互?向的候选。双闭环系统设计李??团队的?作 ReKep 通过关键点跟踪巧妙地实现了机械臂的闭环执?，但其 VLM 规划过程是开环的。OmniManip 则更进?步，得益于以物体为中?的设计理念，?次在 VLM 规划和机械臂执?层?实现了双闭环系统：闭环规划：在实验中，VLM 推理很容易出现幻觉，导致错误的规划结果（尤其是在涉及 3D 旋转的任务中，如倒?、插笔）。OmniManip 赋予 VLM 闭环规划能?，通过渲染物体的三维模型，帮助 VLM 「脑补」出规划结果后的物体样貌，再判断其合理性。这?功能赋予了 VLM 空间反思能?，使其能够在测试时进?推理，类似于 OpenAI 的 O1，??提?了操作成功率。为了保持框架的简洁性，研究团队没有设计复杂的测试时推理流程，仅作?轮校验就已明显提?了 VLM 的规划准确率。闭环执?：OmniManip 提取的交互基元位于物体的规范空间中，只需引??个 6D 位姿跟踪器即可轻松实现闭环操作。与 ReKep 使?的关键点跟踪器相?，基于物体的 6D 位姿跟踪?式更为稳定，并对遮挡具有更强的鲁棒性。（缺点则是不如关键点灵活、?法建模柔性物体操作。）实验结果强?的开放词汇操作性能在 12 个真机短程任务上，OmniManip 均展现出卓越的性能。双闭环系统设计为 OmniManip 带来了约 17% 的性能提升，这证明了 RRC 在有效减少?模型幻觉影响??的作?。交互基元的鲁棒性 VLM 需要基于交互基元对机器?操作进?规划，如果交互基元本身存在问题，VLM 就会陷?「巧妇难为??之炊」的困境。因此，可靠的交互基元?关重要。以往的?法通常是让 VLM 直接在相机拍摄的 2D 图像上采样交互基元，然后通过相机的内外参数转换到 3D 空间。然?，由于 2D 图像存在空间歧义，采样效果对相机视?、图像纹理和部件形状等因素极为敏感（例如，当相机平视杯?时，之前的?法只能对准杯?的侧壁、?不是开?）。? OmniManip 则是在物体的 3D 规范空间中进?采样，能够轻松克服 2D 图像的局限性，实现可靠的 3D 交互基元提取。强?的拓展性与潜? OmniManip 能够与 high-level 任务规划器结合，实现?程任务操作作为?种以物体为中?的算法，OmniManip 与机械臂本体解耦，能够零成本迁移?不同形态的本体（例如双臂?形机器?）。 OmniManip 具有强?的通?泛化能?，不受特定场景和物体限制。团队已将其应?于数字资产?动标注 / 合成管道，实现?规模的机器?轨迹?动采集。该研究团队即将开源?质量的泛化操作?规模数据集和对应的仿真评测基准，敬请期待！ ?THE END转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com

上一篇：2025-07-11_7月10日索尼紧凑型4K全画幅电影摄影机ILME-FX2重磅上市

下一篇：2019-06-09_新手如何发布第一个Python项目开源包？这里有一份详细指南

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系