全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-10-09_patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

您的位置:首页 >> 新闻 >> 行业资讯

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了 来源:机器之心 ViT(Vision Transformer)等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch 作为输入,实验表明,ConvMixer 性能优于 ResNet 等经典视觉模型,并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。 近年来,深度学习系统中的卷积神经网络在处理计算机视觉任务中,一直占据主要地位。但最近,基于 Transformer 模型的架构,例如 ViT(Vision Transformer)架构(Dosovitskiy 等人,2020 年),在许多任务中都表现出了引人注目的性能,它们通常优于经典卷积网络,尤其是在大型数据集上表现更佳。 我们可以假设,Transformer 成为视觉领域的主导架构只是时间问题,就像它们在 NLP 领域中一样。然而,为了将 Transformer 应用于图像领域,信息的表示方法必须改变:因为如果在每像素级别上应用 Transformer 中的自注意力层,它的计算成本将与每张图像的像素数成二次方扩展,所以折衷的方法是首先将图像分成多个 patch,再将这些 patch 线性嵌入 ,最后将 transformer 直接应用于此 patch 集合。 我们不禁会问:像 ViT 这种架构强大的性能是来自 Transformer ,还是至少部分是由于使用 patch 作为输入表示实现的? 在本文中,研究者为后者提供了一些证据:具体而言,该研究提出了 ConvMixer,这是一个极其简单的模型,在思想上与 ViT 和更基本的 MLP-Mixer 相似,这些模型直接将 patch 作为输入进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率。然而,相比之下,该研究提出的 ConvMixer 仅使用标准卷积来实现混合步骤。尽管它很简单,但研究表明,除了优于 ResNet 等经典视觉模型之外,ConvMixer 在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。 论文地址:https://openreview.net/pdf?id=TVHS5Y4dNvM Github 地址:https://github.com/tmp-iclr/convmixer 特斯拉 AI 高级总监 Andrej Karpathy 在其个人社交网站推特上感叹道:我被新的 ConvMixer 架构震撼了。 有网友认为:「这项研究具有很重要的理论意义,因为它挑战了 ViT 有效性的原因。」 还有网友表示:「作为消融实验,我认为很有趣。我不认为这篇论文的目的是表达『 ConvMixer 是一个好的架构,值得研究者使用』,而是『这个简单的架构有效的帮助我们缩小了其他模型最有价值的特性范围』。」 一个简单的模型:ConvMixer ConvMixer 由一个 patch 嵌入层和一个简单的全卷积块的重复应用组成。该研究保持 patch 嵌入的空间结构,如下图 2 所示。patch 大小为 p 和嵌入维度为 h 的 patch 嵌入可以实现具有 c_in 输入通道、h 个输出通道、内核大小 p 和步长 p 的卷积: ConvMixer 块本身由 depthwise 卷积(即组数等于通道数 h 的分组卷积)和 pointwise(即内核大小为 1 × 1)卷积组成。每个卷积之后是一个激活函数和激活后的 BatchNorm: 在 ConvMixer 块的多次应用之后,执行全局池化以获得大小为 h 的特征向量,并将其传递给 softmax 分类器。 设计参数:ConvMixer 的实例化取决于四个参数:(1)宽度或隐藏维度 h(即 patch 嵌入的维度),(2)深度 d,或 ConvMixer 层的重复次数,(3 ) 控制模型内部分辨率的 patch 大小 p, (4) 深度卷积层的内核大小 k。研究者根据它们的隐藏维度和深度命名 ConvMixers,如 ConvMixer-h/d。他们将原始输入大小 n 除以 patch 大小 p 作为内部分辨率;但是请注意,ConvMixers 支持可变大小的输入。 动机:ConvMixer 架构基于混合思想。具体地,该研究选择了 depthwise 卷积来混合空间位置,选择 pointwise 卷积来混合通道位置。先前工作的一个关键思想是 MLP 和自注意力可以混合较远的空间位置,即它们可以具有任意大的感受野。因此,该研究使用较大的内核卷积来混合较远的空间位置。 实验结果 研究者首先在 CIFAR-10 上执行了小规模的实验,其中 ConvMixers 仅使用 0.7M 的参数实现了 96% 以上的准确率,验证了卷积归纳偏置的数据高效性。 此外,研究者不使用任何预训练或额外数据,在 ImageNet-1k 分类数据集上对 ConvMixers 进行了评估。他们将 ConvMixer 添加到 timm 框架中,并使用近乎标准的设置进行训练,包括默认 timm 增强、RandAugment、mixup、CutMix、随机删除(random erasing)和梯度标准裁剪。 研究者还使用了 AdamW 优化器和一个简单的 triangular 学习速度时间表。由于计算受限,他们没有在 ImageNet 上进行超参数调整,并较竞品模型训练了更少的 epoch。 结果如下表 1 所示。参数量为 52M 的 ConvMixer-1536/20 在 ImageNet 上实现了 81.4% 的 top-1 准确率,参数量为 21M 的 ConvMixer-768/32 实现了 80.2% 的 top-1 准确率。更宽的 ConvMixers 在训练 epoch 更少时出现收敛,但需要内存和计算。当卷积核更大时表现也很好:当卷积核大小从 K = 9 降至 K = 3 时,ConvMixer-1536/20 的准确率大约降了 1%。当 patch 更小时,ConvMixers 的表现明显更好。因此,研究者认为,更大的 patch 需要更深的 ConvMixers。他们使用 ReLU 训练了一个模型,以证明 GELU 是不必要的。 ConvMixers 模型和训练设置与 DeiT 非常相似。在最近的各向同性模型中,研究者认为 DeiT 和 ResMLP 是最公平的竞品模型,并且使用相同的过程训练了 ResNet(它的原始结果已经过时了)。从表 1 和下图 1 可以看到,ConvMixer 在给定的参数预算下实现了具有竞争力的结果:ConvMixer-1536/20 在使用明显更少参数的情况下,优于 ResNet-152 和 ResMLP-B24,并能够与 DeiT-B 竞争。不仅如此,ConvMixer-768/32 仅使用 ResNet-152 的 1/3 参数,就实现了与之相似的准确率。 但是,ConvMixers 的推理速度较竞品模型慢得多,这可能因为它们的 patch 更小。超参数调整和优化可以缩小这一差距,具体参见下表 2: 推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载! 年薪制,博士38万/年,硕士23万/年,南方某高校 香港大学赵恒爽助理教授招收CV/ML等方向全奖博士生、博士后 MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展! 北京大学智能计算与感知实验室招收博士、硕士、本科实习生 北京大学崔斌教授组招收图机器学习、AutoML等方向科研实习生 香港科技大学Minhao Cheng助理教授招收全奖博士生、硕士生 清华大学智能产业研究院AI医疗团队招聘知识图谱方向实习生 博士申请 | 香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生 周志华教授:如何做研究与写论文?(附完整的PPT全文) 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何? 常用 Normalization 方法的总结与思考:BN、LN、IN、GN 注意力可以使MLP完全替代CNN吗?未来有哪些研究方向? 欢迎大家加入DLer-计算机视觉&Transformer群! 大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明) ??长按识别,邀请您进群!

上一篇:2025-05-27_快递盒文案疯狂圈粉?策划和领导出来挨夸! 下一篇:2020-10-13_原滴滴AI Labs负责人叶杰平正式加入贝壳找房

TAG标签:

19
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价