全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-12-21_北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文

您的位置:首页 >> 新闻 >> 行业资讯

北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文 转自:新智元 什么叫卷?CV大神何恺明的力作「Masked Autoencoders Are Scalable Vision Learners」(MAE) 刚出了一个多月。又有新SOTA出来了!这是一个能用于视频模型的自监督预训练方法:掩码特征预测(MaskFeat)。https://arxiv.org/abs/2112.09133简而言之,MaskFeat的ViT-B在ImageNet 1K上的准确率达到了84.0%,MViT-L在Kinetics-400上的准确率达到了86.7%,成功地超越了MAE,BEiT和SimMIM等方法。一作Chen Wei是约翰·霍普金斯大学的计算机科学博士生,此前在北京大学获得了计算机科学学士学位。并曾在FAIR、谷歌和华为诺亚方舟实验室实习,主要研究方向是视觉自我监督学习。 MAE刚提出就OUT了? MAE最大的贡献,可能就是将NLP领域和CV两大领域之间架起了一座更简便的桥梁。https://arxiv.org/abs/2111.06377此前,大名鼎鼎的GPT和BERT已经将大型自然语言处理(NLP)模型的性能提升到了一个新的高度。直观点讲,就是事先遮住一些文本片段,让AI模型通过自监督学习,通过海量语料库的预训练,逐步掌握上下文语境,把这些被遮住的片段,用尽可能合乎逻辑的方式填回去。这和我们做「完形填空」的方式有些类似。经过海量数据的学习和训练,AI模型慢慢学会了自己生成自然文本。目前,随着GPT及其后续改进模型的不断进步,生成的自然文本几乎可以乱真。而何恺明的MAE就是把NLP领域已被证明极其有效的方式:「Mask-and-Predict」,用在了计算机视觉(CV)领域,先将输入图像的随机部分予以屏蔽(Mask),再预测(Predict)丢失的像素(pixel)。MAE模型简单,效果却很拔群。而就在上周,Facebook AI Research和约翰霍普金斯大学的研究人员提出了MaskFeat,也是采用「Mask-and-Predict」的方法,性能却比MAE上更进一步。那MAE输在了哪里呢?HOG VS Pixel Colors 「Mask-and-Predict」总要有个可以「Predict」的特征来让模型学习到东西。MaskFeat最核心的改变就是将MAE对图像像素(pixel)的直接预测,替换成对图像的方向梯度直方图(HOG)的预测。图像HOG特征向量说到HOG,这可不是什么新鲜玩意儿。HOG是一种经典的图像特征提取算法,发表于2005年的CVPR,到现在已经收获了37000+的引用。https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf那为什么预测图像的HOG比直接预测像素更好呢?像素作为预测目标,有一个潜在的缺点,那就是会让模型过度拟合局部统计数据(例如光照和对比度变化)和高频细节,而这些对于视觉内容的解释来说很可能并不是特别重要。相反,方向梯度直方图(HOG)是描述局部子区域内梯度方向或边缘方向分布的特征描述符,通过简单的梯度滤波(即减去相邻像素)来计算每个像素的梯度大小和方向来实现的。通过将局部梯度组织化和归一化,HOG对模糊问题更加稳健HOG的特点是善于捕捉局部形状和外观,同时对几何变化不敏感,对光的变化也有不变性,计算引入的开销还很小,可以忽略不计。这次,MaskFeat引入HOG,其实正是将手工特征与深度学习模型结合起来的一次尝试。MaskFeat首先随机地mask输入序列的一部分,然后预测被mask区域的特征。对未见过的验证图像的HOG预测只不过,模型是通过预测给定masked input(左)的HOG特征(中间)来学习的,原始图像(右)并不用于预测。方向梯度直方图(HOG)这个点子的加入使得MaskFeat模型更加简化,在性能和效率方面都有非常出色的表现。在不使用额外的模型权重、监督和数据的情况下,MaskFeat预训练的MViT-L在Kinetics-400数据集上获得了86.7%的Top-1准确率。这个成绩以5.2%的幅度领先此前的SOTA,也超过了使用如IN-21K和JFT-300M这些大规模图像数据集的方法。此外,MaskFeat的准确率在Kinetics-600数据集上为88.3%,在Kinetics-700数据集上为80.4%,在AVA数据集上为38.8 mAP,而在SSv2数据集上为75.0%。结果分析 Kinetics-400数据集相比于不使用预训练的CNN,严重依赖大规模图像数据集和监督性预训练的基于Transformer的方法,MaskFeat表现出极佳的性能。在Kinetics-400数据集上的比较经过300个epoch预训练的MaskFeat将MViT-S,16×4的81.1%的top-1准确率提高了1.1%。其中,16×4表示该模型在训练过程中采用16个时间跨度为4的帧作为输入。而在K400上用MaskFeat预训练了800个epoch的MViT-L 16×4达到了84.3%的top-1准确率,比其基线高出了3.8%,比使用IN-21K训练的监督模型高出了0.8%。MaskFeat也以一己之力将K400上没有外部数据的最佳准确率(MoViNet-A6的81.5%)提高了5.2%。此外,MaskFeat仅用K400的结果(86.7%)就能和86.5%的Florence和86.8%的SwinV2-G不相上下。其中,Florence使用了9亿个文本-图像对,SwinV2-G使用了一个具有30亿个参数的巨型模型,并首先在IN-21K和7千万张内部图像的大型数据集上进行自我监督和监督预训练。可以说,MaskFeat在参数量、计算成本、数据和注释方面的高效性再次证明了直接在未标记的视频上进行预训练的优势,也为一种全新的视频预训练方式打开了大门。Kinetics-600 & Kinetics-700数据集在Kinetics-600数据集上的比较在Kinetics-700数据集上的比较MaskFeat在K600和K700上分别达到了86.4%和77.5%的top-1准确率,与之前基于Transformer的方法相比,既没有使用外部的图像数据,而且FLOPs还减少了10倍以上。而在更大的输入分辨率312和更长的持续时间40×3下,MaskFeat在K600上实现了88.3%的top-1准确率,在K700上实现了80.4%的top-1准确率。于是,MaskFeat在没有任何外部监督(如IN-21K和JFT-300M)的情况下,为每个数据集都创造了新的SOTA。ImageNet-1K数据集对MaskFeat进行1600个epoch的预训练,在ViT-B上微调100个epoch,在ViT-L上微调50个epoch。当图像大小为224x224时,MaskFeat与在IN-21K上进行的有监督的预训练相比,在ViT-B上打成了平手,而在ViT-L上直接实现了超越。当图像大小为384x384时,利用IN-21K的有监督预训练需要用到比MaskFeat多10倍的图像和标注。通常来说,由于缺乏典型的CNN归纳偏置,ViT模型对数据要求很高,并且需要大规模的监督预训练。而MaskFeat可以在没有外部标记数据的情况下通过解决特征图像修复任务来克服这个问题。此外,与BEiT相比,MaskFeat只需要计算HOG特征,摆脱了dVAE的tokenizer。而后者在250M DALL-E数据集上引入了额外的预训练阶段,并在mask预测期间引入了不可忽视的推理开销。与MoCo v3和DINO相比,MaskFeat也更准确、更简单。此处MaskFeat的预训练为300个epoch 随着MAE、MaskFeat等模型的出现,NLP界的制胜武器「Mask-and-Predict」会是CV自监督预训练的下一个标准范式吗? 对此,来自清华大学的知友「谢凌曦」表示: 视觉自监督领域做了这么些年,从最早的生成式学习出发,绕了一圈,又回到生成式学习。到头来,我们发现像素级特征跟各种手工特征、tokenizer、甚至离线预训练网络得到的特征,在作为判断生成图像质量方面,没有本质区别。 也就是说,自监督也许只是把模型和参数调得更适合下游任务,但在「新知识从哪里来」这个问题上,并没有任何实质进展。 参考资料: https://arxiv.org/pdf/2112.09133.pdf https://www.zhihu.com/question/506657286/answer/2275700206 推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载! 仅需12层网络,在ImageNet上准确率达到80.7%!普林斯顿大学最新提出ParNet! MobileViT: 一种更小,更快,高精度的轻量级Transformer端侧网络架构(附代码实现) 【移动端最强架构】LCNet吊打现有主流轻量型网络(附代码实现) 基于Attention机制的轻量级网络架构以及代码实现 深度学习中的轻量级网络架构总结与代码实现 一文详解Inception家族的前世今生(从InceptionV1-V4、Xception)附全部代码实现 华为2012实验室诺亚方舟实验室招聘视觉感知算法实习生 欢迎大家加入DLer-计算机视觉&Transformer群! 大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明) ??长按识别,邀请您进群! 或许,答案并不遥远了。

上一篇:2023-03-10_终于,乔姆斯基出手了:追捧ChatGPT是浪费资源 下一篇:2020-12-10_2021彩通年度代表色,TOPYS第一时间告诉你

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价