全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-03-10_「转」LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?

您的位置:首页 >> 新闻 >> 行业资讯

LeCun 的 IWM 能否成为实现 AGI 的关键世界模型? 转载来源:机器之能 LeCun 的 IWM 能否成为实现 AGI 的关键世界模型? http://mp.weixin.qq.com/s?__biz=MzUyODA3MDUwMA==&mid=2247517905&idx=1&sn=3a460377c7988202a1a05b9cfd47e02c&scene=45#wechat_redirect 机器之心PRO · 会员通讯 Week 10 ---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. LeCun 的 IWM 能否成为实现 AGI 的关键世界模型? Google、Meta 、OpenAI 三家巨头对于实现 AGI 的技术路径存在分歧?Yann LeCun 提出的世界模型新范式 IWM 是什么?IWM 与 I-JEPA 是什么关系?IWM 与传统的自监督学习方法有哪些不同?... 2. Scaling Law 又一次性感了吗? Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law?为什么 OpenAI 能用好 Scaling Law?... 3. 53页「OpenAI 2027 AGI 规划」要点解读 53 页 PDF 讲了 OpenAI 什么计划?有 Q* 的消息吗?来源可靠吗?OpenAI 打算如何在2027年实现 AGI?... ...本期完整版通讯含 3项专题解读 + 29项本周 AI & Robotics 赛道要事速递,其中技术方面9项,国内方面 6项,国外方面 14项... 本期通讯总计 24172字,可免费试读至 9%消耗99微信豆即可兑换完整本期解读(约合人民币9.9元) 要事解读 ①LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?日期:3 月 5 日事件:今年 2 月,三大科技巨头 Google、Meta 和 OpenAI 分别推出了其最近的技术成果 Gemini Pro 1.5、V-JEPA 以及 Sora。关于 AGI 实现的技术路径,三家巨头各有不同。DeepMind CEO Demis Hassabis 近期在接受采访时表示,结合大型语言模型(LLM)和树搜索技术是实现 AGI 的有效路径。与此同时,Meta FAIR 团队近期也发表论文,提出了图像世界模型(Image World Models,IWM)的新范式,将世界模型作为预测器(predictor)进行训练,探索世界模型在视觉任务中的学习和利用。关于三家巨头对于实现 AGI 的技术路径之争引起广泛关注。[1]Yann LeCun 提出的世界模型新范式 IWM 到底是何方神圣?[7]1、据论文《Learning and Leveraging World Models in Visual Representation Learning》,图像世界模型(IWM)是一种全新的视觉表征学习范式,通过学习预测视觉变换对数据的影响来建模世界知识。与传统的对比学习和掩码建模方法不同,IWM 不仅能够学习高质量的视觉表征,还能获得一个可复用的「世界模型」。2、图像世界模型(IWM)的架构基于此前 Yann LeCun 提出的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)框架。在这个框架中,预测器是世界模型的实例化,IWM 的核心思想是使世界模型能够在潜在空间中应用变换,从而学习到等变(equivariant)表示。3、简单来说,IWM 的工作流程包括:① 首先,从原始图像产生一对「源视图」和「目标视图」,两者通过数据增强(如裁剪、颜色变换等)获得。② 然后,将源视图和目标视图分别输入到编码器网络,得到两个视觉特征表示。③ 再次,预测器网络以源视图的特征表示和变换参数为输入,目标是重建或预测目标视图的特征表示。④ 最后,通过最小化预测值和目标值之间的差异来训练整个模型。⑤ 如果预测器能够很好地重建或预测目标视图的表示,即意味着学习到了一个强大的「世界模型」,能够捕捉输入数据在遭受变换时的本质特征;相反,如果预测器无法准确预测,其所学习到的「世界模型」就较为简陋。4、IWM 架构的关键组成部分包括:① 编码器(Encoder):编码器 fθ负责将输入图像转换为潜在空间的表示,表示捕捉了图像的关键特征,同时忽略了不必要的信息。② 指数移动平均(Exponential Moving Average, EMA):EMA 网络 fEMAθ是编码器的一个变体,通过计算参数的指数移动平均来提供更稳定的表示。有助于避免解决方案崩溃,即在模型参数变得非常小的情况下,导致模型无法学习。③ 掩蔽标记(Mask Tokens):在 IWM 中,掩蔽标记 ma 用于表示源图像和目标图像之间的几何关系。这些标记是通过对图像进行掩蔽操作得到的,指示了在潜在空间中需要进行的变换。④ 预测器(Predictor):预测器 p?是世界模型的核心,它接收编码器输出的潜在表示、转换参数 ax→y 和掩蔽标记 ma 作为输入,并尝试预测目标表示 zy。预测器的目标是匹配 p?(zx, ax→y, ma) = z?y 到 zy。⑤ 损失函数(Loss Function):使用的损失函数是预测值 z?y 和它们的目标 zy 之间的平方 L2 距离。⑥ 潜在空间(Latent Space):潜在空间是模型内部的一个抽象表示空间,其中图像被转换为低维的向量。在这个空间中,模型可以更容易地学习和应用变换。⑦ 源视图(Source View) 和 目标视图(Target View):源视图 x 和目标视图 y 是从同一图像 I 生成的不同视图。源视图通常经过一系列增强操作,而目标视图则保持尽可能多的信息,以便预测器可以从中学习。⑧ 转换参数(Transformation Parameters):转换参数 ax→y 描述了从源视图 x 到目标视图 y 的转换过程。这些参数包含了颜色抖动的差异以及是否应用了破坏性增强的信息。IWM 与前一阵小有热度的 I-JEPA 有什么关系?1、去年 6 月,Meta AI 研究团队发表论文,提出了首个基于 Yann LeCun 世界模型概念的图像联合嵌入预测架构 I-JEPA(Image Joint Embedding Predictive Architecture ),可通过创建外部世界的内部模型来学习、比较图像的抽象表示。[2]① I-JEPA 的核心思路是以更类似于人类理解的抽象表征来预测缺失信息。与在像素 /token 空间中进行预测的生成方法相比,I-JEPA 使用抽象的预测目标,潜在地消除了不必要的像素级细节,从而使模型学习更多语义特征。2、与 I-JEPA 相同的是,IWM 也是基于 JEPA(Joint Embedding Predictive Architecture ) 架构,同样基于 Vision Transformer 的自监督学习方法,使用预测任务来学习图像的表示,且都强调了表示空间的重要性。3、IWM、I-JEPA 虽然同属于 Yann LeCun 的「世界模型」系列,但两者同样存在着差异与不同:1)对世界模型的学习和应用:I-JEPA 主要关注于从单个上下文块预测目标块的表示,而 IWM 则进一步学习了一个可以应用于多种任务的世界模型。① I-JEPA:专注于通过预测任务学习图像的表示,而不直接构建或利用世界模型。它通过预测图像块的表示来学习语义信息,但这些预测是在图像的潜在空间中进行的,而不是直接在像素空间或输入空间。

上一篇:2025-04-20_如何通过75天高效学习成为职业广告影视剪辑师 下一篇:2025-08-20_千亿企业玩抽象 , IP营销成品牌“王炸“?

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价