全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-12-29_「付费」「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?

您的位置:首页 >> 新闻 >> 行业资讯

「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要? 机器之心PRO · 会员通讯 Week 52 ---本周为您解读 ③个值得细品的AI & Robotics业内要事 --- 1. 「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?空间推理是什么?为什么各家大厂都在布局空间推理方向?实现空间推理需要具备哪些能力?有哪些难点?不同大厂、创企在空间推理方面的技术研究方向有什么异同?空间推理可能对哪些领域的实际应用产生重要影响?...2. 模型越强,公司越怂?为什么模型越强的公司战略越保守?LLM 的问题如何从「蠢」转移到「坏」?越先进的模型越会伪装?现有对齐方法反而会起反效果?头部 AI 厂商有哪些新的安全措施?...3. LeCun 深度访谈:FAIR 追求的是「大概念模型」LeCun 为什么说 AGI 只要 5-10 年?什么是「大概念模型」?LeCun 如何解读 AI 的「情感」?LeCun 对开源的态度有什么变化?为什么 LeCun 认为担忧 AI 未来的潜在风险为时过早?... ...本期完整版通讯含 3 项专题解读 + 30项本周 AI & Robotics 赛道要事速递,其中技术方面 12项,国内方面 10项,国外方面 8 项。本期通讯总计 25269 字,可免费试读至 6%消耗99微信豆即可兑换完整本期解读(约合人民币9.9元) 要事解读① 「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?日期: 12 月 23 日事件:来自纽约大学、耶鲁大学、斯坦福大学的李飞飞、谢赛宁等研究者近期发布了一项新工作,探究了多模态大语言模型(MLLM)是否具备具备视觉空间智能(visual-spatial intelligence)。研究发现,MLLMs 在空间推理方面的能力与人类相比有显著差距,而空间推理对人类智能至关重要。此外,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强模型的空间推理能力。各家大厂抢占布局「空间推理」,模型理解「内外远近」空间概念为何如此重要?1、在纽大、耶鲁等机构的这项新工作中,研究者通过探究 MLLMs 在语言和视觉方面如何进行空间思考,发现空间推理能力是 MLLMs 性能提升的主要瓶颈。2、空间推理是指理解和推理物体之间的空间关系、它们的运动和相互作用的能力,要求模型能够识别物体间的关系,并通过距离和方向进行推理。3、不同于 LLM 等仅关注处理结构化的数据和遵循预定义的规则,模型在现实的物理世界中的应用,如环境导航、地图理解和物体操控等,需要具备更为复杂、细致的 3D 空间推理能力。 空间推理在增强现实、机器人等领域的重要性不言而喻。4、空间推理是实现空间智能的核心关键部分。目前,模型在空间推理方面仍然面临种种挑战,要求模型需要具备对空间信息的真正理解,现有的模型仍难以区分简单的空间概念,例如「内」和「外」以及「近」和「远」以及更复杂的关系。5、近期,业内关于空间智能、空间推理方面的探索、进展颇多。如李飞飞的创业公司「World Lab」发布了其首个项目「使用单图生成 3D 世界」;谷歌计划将其 Gemini 2.0 多模态模型所具备的空间推理能力应用于机器人领域,机器人公司 Apptronik 达成合作开发在复杂环境中工作的 AI 人形机器人等。① 同时,谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究,探究从不同角度和方法来增强 VLMs 和 LLMs 的空间推理能力,包括直接的 3D 数据整合、从多视图图像中重建场景等,在技术路线上各有差异。表:部分公司近期在空间推理领域的技术进展(不完全统计)从 2D 到 3D 真实物理环境,模型完成空间推理需要具备哪些能力?难点在哪?在纽大、耶鲁等机构的新工作中,研究者将视觉空间智能所需能力分为视觉感知、语言智能、时间处理和空间推理四类,进一步将空间推理细分成关系推理、自我中心-环境中心转换两方面能力。1、在纽大、耶鲁等机构的新工作中,研究者通过构建名为「VSI-Bench」的视频基础视觉空间智能基准测试,来评估研究多模态大型语言模型(MLLMs)在理解和记忆空间信息方面的能力。① 研究发现,尽管 MLLMs 在视觉空间智能方面展现出一定的竞争力,但与人类相比仍有显著差距,特别是在空间推理方面;② 研究发现,传统的语言推理技术并不能提升 MLLMs 在空间任务上的表现,而生成认知地图则有助于提高模型在空间距离问题上的回答能力。2、在该工作中,研究者提出了视觉空间智能的能力框架,并详细描述了空间推理所需的能力。

上一篇:2025-06-12_科技赋能光影,创新驱动未来——CinemaS 2025第12届上海国际电影论坛暨展览会盛大开幕 下一篇:2020-09-28_JetBrains 2020 Java调查报告:中国开发者使用比例最高,Java 8最受欢迎

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价