2021-07-03_20亿参数+30亿张图像，刷新ImageNet最高分！谷歌大脑华人研究员领衔发布最强Transformer-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

20亿参数+30亿张图像，刷新ImageNet最高分！谷歌大脑华人研究员领衔发布最强Transformer 转自：新智元近日，谷歌大脑团队公布了Vision Transformer（ViT）进阶版ViT-G/14，参数高达20亿的CV模型，经过30亿张图片的训练，刷新了ImageNet上最高准确率记录——90.45%，此前的ViT取得的最高准确率记录是 88.36%，不仅如此，ViT-G/14还超过之前谷歌提出的Meta Pseduo Labels模型。 Vision Transformer模型的缩放规律在多项基准测试中，ImageNet, ImageNet-v2和VTAB-1k，ViT-G/14的表现都刷新了记录。例如，在几张照片的识别挑战中，准确率提高了五个百分点以上。研究人员随后训练了多个更微型的模型版本，以寻找架构的缩放规律（scaling law），结果观察到性能遵循幂律函数（power-law function），类似于用于NLP的Transformer模型。 2017年由谷歌首次引入的 Transformer 架构迅速成为最受欢迎的NLP深度学习模型设计，其中 OpenAI的GPT-3是最著名的。OpenAI 去年发布的一项研究描述了这些模型的缩放规则（Scaling rules）。 OpenAI 通过训练几个不同规模的可比模型，改变训练数据的数量和处理能力，开发了一个用于评估模型准确性的幂律函数。此外，OpenAI 发现更大的模型不仅性能更好，而且计算效率也更高。与 NLP 模型不同，大多数SOTA的 CV 深度学习模型，采用的是卷积神经网络架构(CNN)。2012年，一个CNN模型赢得了ImageNet竞赛，CNN因此声名鹊起。随着Transformer最近在 NLP 领域的成功，研究人员已经开始关注它在视觉问题上的表现; 例如，OpenAI 已经构建了一个基于 GPT-3的图像生成系统。谷歌在这个领域一直非常活跃，在2020年年底使用他们专有的 JFT-300M 数据集训练了一个600m 参数的 ViT 模型。 △ 去年10月，谷歌大脑团队发布了Vision Transformer（ViT）而新的ViT-G/14模型使用 JFT-3B 预先训练，JFT-3B是升级版数据集，包含大约30亿张图片。研究团队改进了 ViT 架构，增加了内存使用，使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则，类似于 NLP 规则: 根据幂律函数，缩放更多的计算、模型和数据可以提高准确性；在较小的模型中，准确性可能是一个障碍；大型数据集有助于大型模型。目前，ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的，而第十个模型来自Facebook。作者团队本次论文团队成员是此前发布ViT模型的4名成员，其中，第一作者是Xiaohua Zhai (翟晓华)。 https://sites.google.com/site/xzhai89/home 翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。根据他的个人网站提供的信息，2009年，翟晓华本科毕业于南京大学，2014年取得北京大学计算机科学博士学位。另外，论文作者Alexander Kolesnikov，同为谷歌大脑研究员，研究领域包括人工智能、机器学习、深度学习和计算机视觉。毕业于奥地利Institute of Science and Technology Austria (IST Austria)，博士论文为Weakly-Supervised Segmentation and Unsupervised Modeling of Natural Images（自然图像的弱监督分割和无监督建模）。另一名作者Neil Houlsby（下图），研究领域为机器学习、人工智能、计算机视觉和自然语言处理。第四名作者Lucas Beyer，是一名自学成才的黑客、研究科学家，致力于帮助机器人了解世界、帮助人类了解深度学习（本作者暂未找到图片）。参考资料： https://arxiv.org/pdf/2106.04560.pdf https://www.marktechpost.com/2021/06/28/google-trains-an-ai-vision-model-with-two-billion-parameter/ 推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结，84页ppt开放下载！分层级联Transformer！苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度！清华姚班教师劝退文：读博，你真的想好了吗？ 2021李宏毅老师最新40节机器学习课程！附课件+视频资料最强通道注意力来啦！金字塔分割注意力模块，即插即用，效果显著，已开源！登上更高峰！颜水成、程明明团队开源ViP，引入三维信息编码机制，无需卷积与注意力常用 Normalization 方法的总结与思考：BN、LN、IN、GN 注意力可以使MLP完全替代CNN吗？未来有哪些研究方向？清华鲁继文团队提出DynamicViT：一种高效的动态稀疏化Token的ViT 并非所有图像都值16x16个词--- 清华&华为提出一种自适应序列长度的动态ViT 重磅！DLer-计算机视觉&Transformer群已成立！大家好，这是计算机视觉&Transformer论文分享群里，群里会第一时间发布最新的Transformer前沿论文解读及交流分享会，主要设计方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。进群请备注：研究方向+学校/公司+昵称（如Transformer+上交+小明） ??长按识别，邀请您进群！

上一篇：2023-09-07_7年6次升级，3000人的选择：HOMEBOY调色职业班课程介绍

下一篇：2023-01-21_ICLR 2023 放榜，31.8%的接受率，你中了吗？

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系