全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-02-13_PRO | AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗?

您的位置:首页 >> 新闻 >> 行业资讯

PRO | AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗? 2023年,几乎 AI 的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。 多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索基于 MoE (专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?... 我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。 本篇解读来自2023年Week39业内通讯??专题解读AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗? 日期:9月26日-9月30日 事件:近日,Meta推出了多模态版Llama2,即AnyMAL;OpenAI推出了GPT-4V(ision)LMM;与此同时,Meta推出MetaQuest3VR头显,并与Ray-Ban合作打造的智能眼镜Ray-Ban,两款设备均计划接入MetaAI智能助理;随着多模态LLM技术的日益成熟,AR赛道似乎又迎来了新的曙光? Meta和OpenAI最新的LMM了解一下? 1、Meta推出了多模态版Llama2,即AnyMAL(Any-ModalityAugmentedLanguageModel)。AnyMAL基于Llama2模型,可以对不同模态输入内容(文本、图像、视频、音频、IMU运动传感器数据)实现理解,并生成文本响应。具体来说,这是一个经过训练的多模态编码器集合,可将来自各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换到LLM的文本嵌入空间。[17] 2、OpenAI上线了GPT-4V(ision)大模型,用户可以使用基于更新后的ChatGPT上传一张或多张图像配合进行对话,获取相关帮助和见解。同时,用户还可以使用设备的触摸屏圈出希望ChatGPT关注的图像部分。 3、OpenAI在发布时仅放出了18页的技术文档,后续微软方面公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。 4、微软的报告共分为11个章节,重点介绍了GPT-4V可以执行的任务,包括: ①用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。 ②对这些样本的观察表明,GPT-4V在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使GPT-4V成为强大的多模态通用系统。 ③GPT-4V对图像独特的理解能力可以催生新的人机交互方法,例如视觉参考提示(visualreferringprompting)。报告最后深入讨论了基于GPT-4V的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强LMM解决现实问题的新方法,并更好地理解多模态基础模型。[18] 5、报告中提及LMM的未来趋势方向如下 ①LMM应该能够生成交织的图像文本输出,以支持全面的多模态内容理解和生成。 ②LMM应该能够从各种信息源持续学习,如网上内容、真实世界环境等,以实现持续自我进化。 ③未来的LMM不应该仅仅依赖组织良好的数据进行学习,它应该能够处理更加杂乱的数据源。 ④未来LMM的学习过程不应该仅仅依赖于图像-文本对的数据集,应该是更加通用和连续的。 LMM为什么这么重要?为何基于LMM的NUI已成为科技大厂必争之地? 1、AR技术的目标是为用户提供一个沉浸式、真实和自然的体验。尽管AR技术已经取得了一定的进展,但它仍未真正达到类似ChatGPT上线时令用户惊叹的“ahamoment”。核心的问题在于NUI(自然用户界面)的体验尚不完善。 2、NUI是指一种用户界面设计哲学,旨在使用户与计算机系统或设备的交互尽可能自然和直观。这通常涉及触摸、手势、语音和其他自然的交互方式。 3、为了实现真正的沉浸式体验,AR应用通常需要用户能够以最自然、直观的方式与其互动,这就是NUI的核心。例如,用户可能通过手势、眼动、语音命令或身体动作与AR内容进行交互。这种交互方式不仅更符合AR的沉浸式特性,而且在许多情况下(如穿戴AR眼镜时)也更为实用和方便。 4、LMM可以处理多种类型的输入,如文本、图像、声音等,从而为用户提供更加丰富和多样化的交互体验。这些模型的能力不仅仅是识别和生成内容,更重要的是理解和响应用户的需求,为他们提供有价值的反馈。 ①多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。 ②多模态技术的目标是让AI能够同时处理和理解多种类型的输入,如文本、图像、声音等,从而为用户提供更加自然和直观的交互体验。 5、基于LMM的AIAgent、智能助理等交互式AI可以为NUI提供智能,使其能够理解和响应用户的需求,而NUI为交互式AI提供了一种自然、直观的交互方式。 ...... 完整版专题解读「AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗?」已上架至机器之心Pro会员收件箱。新用户订阅限时特惠,单期低至 2.99 元! Step 1:关注「机器之心PRO 会员」服务号Step 2:进入服务号,点击菜单栏「收件箱」Step 3:进入「收件箱」,点击「参考」板块,畅读往期所有专题解读 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

上一篇:2023-01-10_ConvNeXt V2来了,仅用最简单的卷积架构,性能不输Transformer 下一篇:2024-08-16_Ilya Sutskever 离职后首次采访:个人经历,Scaling Laws,AI幻觉

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价