全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-02-18_PRO | 多模态趋势下,Transformer并非主流架构唯一解

您的位置:首页 >> 新闻 >> 行业资讯

PRO | 多模态趋势下,Transformer并非主流架构唯一解 2023年,几乎 AI 的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。 多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索基于 MoE (专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?... 我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。 本篇解读来自2023年Week52业内通讯??专题解读多模态趋势下,Transformer 并非主流架构唯一解日期:12月24日事件:腾讯AI实验室与港中文联合团队提出了新CNN架构「UniRepLKNet」,在图像识别精度和速度上都超过了Transformer架构模型。要点速览1、UniRepLKNet的设计遵循了四条guideline,包括使用大卷积核来保证大感受野,使用depthwise小卷积来提高特征抽象层次,以及使用高效结构来增强模型的深度和表示能力。2、UniRepLKNet的每个block主要由depthwiseconv、SEBlock和FFN三个部分组成。其中depthwiseconv可以是大卷积核,也可以只是depthwise3x3。3、UniRepLKNet在多个图像任务上表现出色,包括ImageNet、COCO和ADE20K,其精度和速度都达到了SOTA水平。同时,切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越SOTA。①UniRepLKNet-XL的ImageNet精度达到88%,而且实际速度是DeiTIII-L的三倍;②在COCO目标检测任务上,UniRepLKNet-L不及InternImage-L,但是UniRepLKnet-XL超过了InternImage-XL。③在ADE20K语义分割上,UniRepLKNet的优势相当显著,最高达到55.6的mIoU。与ConvNeXt-XL相比超出了整整1.6。4、此外,为了验证UniRepLKNet处理时序数据的能力,该工作还挑战了一个数据规模超大的《Nature》级别的任务:全球气温和风速预测。实验结果显示,UniRepLKNet在时序预测任务上超越了基于Transformer的前SOTA模型。5、研究者认为,「CNN在大一统这一点上可能不弱于Transformer」。Transformer和CNN仅仅是相互交融的两种结构设计思路,没有理由认为前者具有本质的优越性。在该项工作上,证明了CNN在点云、音频、视频方面的优势。CNNVS.Transformer,做多模态谁更强?1、一直以来,Transformer都被认作为AI大模型的主流架构。但在近期的一些研究工作中,RWKV、Mamba、Hyena,以及RecurrentMemoryTransformers等新的架构出现,也许「最先进的模型仍然是基于Transformer」的局面未来可能会改变。2、腾讯AI实验室与港中文联合团队提出的这项新CNN架构「UniRepLKNet」,在图像识别精度和速度上均超过了Transformer架构模型。作者认为,Transformer和CNN仅仅是相互交融的两种结构设计思路,没有理由认为前者具有本质的优越性。3、此前,CNN长期以来一直是图像处理任务的首选。①CNN擅长通过卷积层捕获局部空间信息,从而实现分层特征提取。CNN擅长从大量图像数据中学习,并在图像分类、目标检测和分割等任务中效果显著。②CNN由于其可并行性而具有更高计算效率,这使得它们适用于需要实时运行和资源受限的应用程序。2、在多模态学习中,Transformer的输入可以包含一个或多个token序列,每个序列的属性(例如,模态标签、顺序)可以自然地进行MML而无需架构修改。此外,通过控制self-attention的输入模态可以简单地实现学习每个模态的特异性和模态间的相关性。①Transformer的优势在于它们可以以与模态无关的方式工作。因此,它们与各种模态(和模态的组合)兼容。②相较于CNN,VisionTransformer拥有全局注意力和上下文理解等至关重要的优势。③但VisionTransformer通常需要大量的训练数据才能达到与CNN相当的性能。3、目前,大多数先进的模型都是以CNN-Transformer混合体的形式设计的。这些模型主要在初期阶段使用卷积块,并将Transformer块的堆叠保留到最后阶段。目前,无论是卷积块还是Transformer块,在现有工作中都不能同时实现高效性和性能。基于Transformer的多模态模型又有哪些局限性?1、融合困难①一般来说,MMLTransformers主要在三个常规级别融合多种模态的信息:输入(即早期融合)、中间表示(即中间融合)和预测(即晚期融合)。将两种模态的表示直接输入标准注意力模块可以实现中间融合和潜在适应,最终得到最终双模态表示的后期融合。②选择合适的融合方法(早期、晚期或中间融合)是实现高效多模态学习的关键难点。2、对齐挑战①现实世界的数据通常以多种具有内在同步的模态出现(例如,视听对应),这支持了跨模态对齐。最近,基于Transformers的对齐导致利用大量网络数据(例如,图像-文本对)进行视觉和语言任务的激增。主要思想是将两种模态映射到一个共同的表示空间中,并在配对样本上进行对比学习。②跨模态对齐是许多实际应用程序的关键因素,这要求模型能够理解和处理来自不同源的数据之间的复杂相互关系,确保数据间的有效协同。3、可迁移性难题 ...... 完整版专题解读「多模态趋势下,Transformer 并非主流架构唯一解」已上架至机器之心Pro会员收件箱。新用户订阅限时特惠,单期低至 2.99 元! Step 1:关注「机器之心PRO 会员」服务号Step 2:进入服务号,点击菜单栏「收件箱」Step 3:进入「收件箱」,点击「参考」板块,畅读往期所有专题解读 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

上一篇:2019-07-30_资深创意人吐槽:在戛纳的一百种死法 下一篇:2023-07-17_减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价