Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗?
转载来源:机器之能 Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗? http://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247518049&idx=1&sn=d38440d346504a332c92e124003a0fa9&scene=45#wechat_redirect
机器之心PRO · 会员通讯 Week 11
---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ----
1.Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗?Figure、Covariant 和谷歌都发什么成果了?Sergey Levine 也创业了?Figure 01 用了哪些技术?Covarian 的 RFM-1 是基于 LLM 的吗?...2. 「平替版 Sora」 何时能追上?Sora 之外还有有哪些值得关注的文生视频模型?这些模型与 Sora 有何区别?「平替模型们」 为何追不上 Sora?为什么都在用 DiT?视频生成是如何从 GAN 演进到 DiT 的?...3.Yann LeCun 万字播客专访要点解读
Yann LeCun 在 3 小时里都聊了啥?LeCun 为什么批评强化学习?LeCun 本人觉得 JEPA 能理解物理世界吗?Llama 3 有新进展了?...
...本期完整版通讯含 3项专题解读 + 31项本周 AI & Robotics 赛道要事速递,其中技术方面11项,国内方面 6项,国外方面 14项。
本期通讯总计 28669字,可免费试读至 11 %消耗99微信豆即可兑换完整本期解读(约合人民币9.9元)
要事解读 ①Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗?时间:3 月 13 日事件:本周,Fugure 01、RFM-1、RT-H 等多个 Robotics 项目成果在本周发布,但并非所有团队都公开了技术细节,这些机器人的表现和背后的采用的技术起了社区大量讨论和猜测。具身智能近期又迎来热潮了?1、机器人创企 Figure 发布了第一个由 OpenAI 大模型加持的机器人 Figure 01 的演示 Demo,引起大量关注。[1]① Figure 01 展示了端到端神经网络框架下的能力,它可以自主学习并执行任务,如递给人类苹果、收拾塑料袋、归置杯盘等,而无需远程操作② Figure 01 的速度较上一版演示得到了显著提升,开始接近人类的速度。③ Figure 01 能够描述其视觉体验、规划未来的行动、反思自己的记忆,并口头解释推理过程。它通过机载摄像头和麦克风与大型多模态模型交互,实现对图像和文本的理解。2、Pieter Abbeel 的创业公司 Covariant 发布了机器人领域的通用基础模型 RFM-1,可让机器人灵活完成拾取与放置任务,并且能够生成视频。[2]① RFM-1 整合了语言数据,能够理解简单的英语指令,并根据这些指令执行拾取和放置任务。它可以处理各种形状、大小和材质的物体,并且能够适应不断变化的仓库环境。② RFM-1 能够生成视频来展示它对任务的理解和执行过程。这类似于 Sora 模型的图生视频功能,RFM-1 可以根据输入的指令预测并展示执行任务的过程。③ RFM-1 目前主要用于仓库环境中的拾取和放置任务,但它的功能可以通过向其提供更多数据加以扩展。④ RFM-1 具备泛化能力,但目前不能泛化到完全新的对象或情况,如拧螺丝和剥生姜,因为此类任务不属于抓取和放置问题。3、谷歌 DeepMind 的研究者发布了 RT 系列机器人模型的新版本 RT-H,其在一系列机器人任务中的表现都优于 RT-2。[3]① RT-H 的核心思路在于,将语言动作作为连接高层次任务描述与底层次动作之间的中间层,可以利用它们来构建一个通过语言动作形成的行动层级。② 行动层级让 RT-H 能够更好地理解和执行任务。通过将复杂任务分解成简单的语言指令,再将这些指令转化为具体的机器人行动,从而提高任务执行的准确性。③ RT-H 的模型架构借鉴了 RT-2,采用单一模型同时处理语言动作和行动查询,并利用互联网规模知识为行动层级的各个层次提供支持。④ 研究者发现 RT-H 模型在使用语言动作层级处理多任务数据集时,相较于 RT-2 模型,任务执行的成功率提高了 15%。在对模型进行语言动作干预的微调,RT-H 的表现超过了 SOTA 交互式模仿学习方法(IWR)。4、在技术进展之外,还有多家机器人创企于近期公布了各自的发展动态:① 3 月 13 日,深度强化学习明星研究员 Sergey Levine 宣布创业,新公司名为 Pi(Physical Intelligence)。其目标是打造用于控制机器人的「大脑(基础模型)」。Pi 已获得 7000 万美元融资,资方包含 Thrive Capital、OpenAI、红杉资本等。[5]② 3 月 2 日, Yann LeCun 于社交平台转发了神秘机器人创企 Fauna Robotics 的招聘消息。公司的创始人之一是纽约大学的助理教授 Lerrel Pinto,其研究成果包含整合了 LLM、VLM 的 OK-Robot 机器人系统,以及 Dobb-E 开源项目。[4]③ 2 月 29 日,加拿大机器人创企 Sanctuary AI 发布了 Poenix 机器人的最新演示 Demo。该机器人能够以与人类相当的速度完成简单的任务,其速度、精度和动力在当时表现最好[6]④ 2 月 23 日,英伟达的高级科学家 Jim Fan 在社交媒体 x 上宣布,将和朱玉可一起在英伟达内部组建一个新研究小组 GEAR,专注于通用具身智能体研究。Jim Fan 还称有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟。[7]Figure、Covariant 和谷歌所用大模型有何不同?1、由于 Figure 目前并没有给出详细的论文,知乎答主穆尧对 Figure 01 背后的技术给出了一些猜测。[8]① 机器人 Figure 01 的核心技术在于其端到端的神经网络框架。通过摄像头和麦克风捕获环境数据,并结合 OpenAI 的多模态模型进行处理。这个模型能够理解对话和视觉信息,并生成相应的语言响应和执行策略。② 理解和规划部分,穆尧推断 Figure 01 可能使用了 OpenAI 内部的 GPT-4V 或更高级的模型来处理理解和规划任务。③ 策略网络部分,Figure 01 可能使用了一组小的端到端策略网络,这些网络被封装成 API 供上层多模态大模型调用。这些策略网络能够执行特定类别的任务,并在相似任务之间实现泛化。④ 参考公开的 policy network 控制频率,Figure 01 的模型不太像是 RT 系列的那种通用大模型。因为 RT 系列随着 Scale up 提升能力,其推理速度和控制频率随模型变大被牺牲了很多,控制频率最多只到 3HZ。⑤ 技能库和多模态决策框架方面,Figure 01 可能建立了一个庞大的技能库,其中包含了多种机器人专用模型。这些模型可以根据任务需求被多模态大模型调用,类似于谷歌的 SayCan 项目和国内的 RoboCodeX 项目。⑦ 此外,Figure 01 可能建立了一个数据飞轮,通过遥操作和仿真平台收集大量专家示范数据。这些数据被用于端到端模仿学习,以生成可调用的 API2、Covariant 开发的「机器人基础模型」RFM-1 是一个多模态任意序列(multimodal any-to-any sequence)模型,基于一个 80 亿参数的 Transformer 在文本、图像、视频、机器人动作和一系列数值传感器读数等数据训练所得。① Covariant 没有公开模型细节,根据现有介绍,「机器人基础模型」的概念于斯坦福和普林斯顿《Foundation Models in Robotics: Applications, Challenges, and the Future》中提及的 Robot Transformer 相似。(详情请参考 2024 年 Week 05 期会员通讯)② RFM-1 的训练基于 Covariant 公司收集的真实、复杂的机器人数据集,这些数据来自于在真实客户现场部署的机器人系统。③ 在对世界的理解方面,RFM-1 通过学习生成视频来模拟世界的每一秒变化,通过输入初始图像和机器人动作的 token,然后生成视频,预测相应动作带来的影响,从而确定最佳方案。3、谷歌 DeepMind 的 RT-H 的核心思路在于过将复杂任务分解为简单的语言指令(称为「语言动作」),再将这些指令转化为机器人的具体行动,来提高任务执行的准确性。这种层级结构使得 RT-H 能够更好地理解和执行任务。[3]① RT-H 利用视觉语言模型(VLM)来预测语言动作,例如「向前移动手臂」和「向右旋转手臂」,这些语言动作作为高层次任务描述与低层次行动之间的中间层。② RT-H 使用单一的 Transformer 模型来处理语言动作和行动查询,这使得模型可以利用广泛的互联网规模知识来支持行动层级的各个层次。③ 自动化语言动作提取是 RT-H 框架中的一个关键组成部分,研究者开发了一种自动化方法,从机器人的本体感受(proprioception)信息中提取出语言动作。本体感受信息包括机器人关节的位置、速度、加速度等数据。④ 通过分析机器人的所有动作维度(包括位置变化的三个维度、姿态变化的三个维度、基座移动的两个维度以及夹爪的开闭状态),研究者能够确定机器人当前的主要动作。然后,这些主要动作被转换成描述性的自然语言指令,即语言动作。⑤ 为了生成有意义的语言动作,研究者过滤掉了小于特定阈值的微小动作,并将剩余的主要动作按照动作幅度的大小进行排序和组合,形成一个连贯的语言动作描述。⑥ 通过上述过程,研究者能够从机器人的演示数据中自动提取并创建一个包含超过 2500 个语言动作的丰富库。这个库中的每个语言动作都是从实际的机器人动作中自动提取出来的,无需人工进行标注。⑦ 这种方法的一个显著优点是减少了人工干预的需求。传统的机器学习模型通常需要大量的手动标注数据,而 RT-H 的自动化语言动作提取方法大大降低了这一需求,提高了数据收集的效率和规模。RT-H 所用的 VLM 是什么?和机器人 LLM 是同一个技术吗?1、Figure 01 和 RT-H 均利用了 VLM 来帮助机器人理解文本和图像,乃至动作预测。① 视觉-语言模型(VLM)是一种多模态模型,同时接受图像和文本输入。VLM 可以使用互联网上几乎无限可获得的大规模图像-文本对进行预训练,预训练的 VLM 可以直接应用于下游视觉识别任务,无需微调。② VLM 预训练通常由某些视觉-语言目标指导,使其能够从大规模图像-文本对中学习图像-文本对应关系。VLM 可以使用互联网上几乎无限可获得的大规模图像-文本对进行预训练。③ Figure 称其机器人由 OpenAI 的 VLM 加持。OpenAI 此前的代表性 VLM 为 CLIP,但穆尧推断 Figure 01 可能采用了 GPT-4V 或更高级的模型。
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线