2021-10-26_2015年的ResNet潜力都挖掘出来了吗？新研究：不用蒸馏、无额外数据，性能还能涨一波-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

2015年的ResNet潜力都挖掘出来了吗？新研究：不用蒸馏、无额外数据，性能还能涨一波来源：机器之心基线：我要是用上最新的训练流程，性能还能涨一波。在计算机视觉领域，何恺明等人 2015 年提出的 ResNet（deep residual network，深度残差网络）一直被视为经典架构，它解决了深度 CNN 模型难训练的问题，是 CNN 图像史上的一个里程碑之作。自提出以来，ResNet 系列模型一直被用作研究中的默认架构，或者新模型提出时用来对比的基线。然而，在过去的几年里，神经网络训练方面的最佳实践已经取得了很大进展。新颖的优化、数据增强等方法提高了训练流程的有效性。在这篇论文中，独立研究者 Ross Wightman 以及 Facebook AI、索邦大学的两位研究者重新评估了普通 ResNet-50 在加入上述训练进展之后所能达到的性能。论文链接：https://arxiv.org/pdf/2110.00476.pdf 具体而言，研究者重新评估了使用不同训练方法时普通 ResNet-50 的性能，并在 timm 开源库中分享了有竞争力的训练设置和预训练模型，希望它们可以成为未来研究工作的更好基线。例如，在 ImageNet-val 数据集上，使用研究者更高要求的训练设置，并在无额外数据或蒸馏的情况下，普通 ResNet-50 在分辨率 224×224 下实现了 80.4% 的 top-1 准确率。此外，研究者还报告了其他流行模型使用他们的训练流程时取得的性能结果。基线也需要与时俱进在过去的十几年里，人们已经见证了图像分类领域的很多重大进展，这些反映在了 ILSVRC’2012 挑战赛或其他图像分类基准测试结果的改进上。从原理上来讲，性能的提升反映了社区对下面这个问题的最大化求解： A 为架构设计，T 为训练设置和超参数，N 为测量噪声，其中还包括从大量超参数或方法中选择最大值时经常出现的过拟合。降低 N 的良好做法有几种，比如使用不同的 seed 测量标准差、使用单独的评估数据集或者在迁移任务上对模型进行评估。暂且撇开 N 不谈，评估 A 或 T 上的进展也构成了一个挑战，这是因为它们的进展随时间推移而变化。当在 (A, T ) 上进行联合优化时，无法保证给定架构 A_1 的最优选择 T_1 依然是另一模型设计 A_2 的最佳选择。因此，即使是在同一训练流程下比较模型时，人们也可能隐式地偏爱某一个模型。将训练流程与架构各自带来的改进分开的一个好处是确保基线包含来自文献的新「成分」，并在调整超参数方面付出合理的努力。理想状态下，如果没有资源和时间限制，人们可以为每个架构适配最佳的训练流程，如下公式（1）所示：但在现实中，这种理想状态是不可能的。当比较架构时，大多数论文往往与以往发表论文中的结果进行比较，但被比较的这些架构使用的通常是相对较弱的训练流程，最好的情况下也仅仅是使用类似或相同的流程。本文作者表示，他们还没有发现专门通过广泛的成分选择和超参数搜索来提升 ResNet-50 训练流程的研究努力。在以往的文献中，ImageNet-1k-val 上报告的针对 ResNet-50 架构的性能范围区间为 75.2% 到 79.5%，具体取决于论文本身。目前还不清楚是否已经投入足够的努力来进一步推动基线。因此，研究者想要填补这方面的研究空白。研究者探究的是何恺明等人提出的普通 ResNet-50 架构。他们优化训练流程以最大化该模型在原始测试分辨率 224 × 224 下的性能。这里只考虑训练流程（training recipe）。因此，研究者排除了 ResNet-50 的所有变体，如 SE-ResNet-50 或 ResNet-50-D，这些变体通常会在相同的训练流程下提升准确率。 3 种不同的训练流程研究者提出了 3 种具有不同成本和性能的训练流程，以覆盖不同的用例，下表 1 展示了 3 种训练流程的资源使用情况和 top-1 准确率结果。这 3 种训练流程以实现测试分辨率 224 × 224 下 ResNet-50 的最佳性能为目标。研究者探索了很多使用不同优化器、正则化以及超参数合理网格搜索数量的变体。其中，他们主要关注以下三个不同的训练流程：流程 A1 旨在为 ResNet-50 提供最佳性能，因此 epoch 数量最多（600），训练时间最长（在一个配有 4 个 V100 32GB GPU 的节点上训练 4.6 天）流程 A2 的 epoch 数量为 300，可与 DeiT 等其他几个优秀训练流程媲美，但批大小更大（2048）。流程 A3 旨在通过 100 个 epoch 和 2048 的批大小超越普通 ResNet-50 的流程，它在 4 个 V100 16GB GPU 上训练了 15 个小时，并且可能是探索性研究的良好设置。如下表 2 所示，研究者将用于训练普通 ResNet-50 的不同方法与他们的方法进行了比较，其中只考虑修改了未修改的 ResNet-50 架构（即不考虑其他变体）。此外，研究者不考虑使用蒸馏之类的高级训练设置，或者通过自监督或伪标签预训练的模型。实验结果上表 1 总结了文中提出的训练流程的主要特点。研究者表示，就他们所知，使用训练流程 A1 训练的一个普通 ResNet-50 架构在 224×224 分辨率的 ImageNet 图像测试中超越了 SOTA 模型。其他两个训练流程（A2、A3）虽然没有达到 A1 的水平，但也用较少的资源实现了较高的性能。在下表 3 中，研究者记录了使用本文提出的训练流程训练其他架构时的效果，以测试这些训练流程在其他模型上的泛化能力。在某些情况下，研究者观察到 A2 要优于 A1，这表明超参数不适用于较长的 schedule（通常需要更多的正则化）。在下表 4 中，研究者对表 3 中的结果进行了补充。在下表 5 中，研究者记录了使用不同的预训练流程在 7 个细粒度数据集上得到的迁移学习性能数据，并与默认的 PyTorch 预训练进行了比较。总体来看，A1 在大多数下游任务中都达到了最好的性能。更多细节请参见论文。推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结，84页ppt开放下载！一文总结微软研究院Transformer霸榜模型三部曲！ Swin Transformer为主干，清华等提出MoBY自监督学习方法，代码已开源加性注意力机制！清华和MSRA提出Fastformer：又快又好的Transformer新变体！ MLP进军下游视觉任务！目标检测与分割领域最新MLP架构研究进展！周志华教授：如何做研究与写论文？（附完整的PPT全文）都2021 年了，AI大牛纷纷离职！各家大厂的 AI Lab 现状如何？常用 Normalization 方法的总结与思考：BN、LN、IN、GN 注意力可以使MLP完全替代CNN吗？未来有哪些研究方向？欢迎大家加入DLer-计算机视觉&Transformer群！大家好，这是计算机视觉&Transformer论文分享群里，群里会第一时间发布最新的Transformer前沿论文解读及交流分享会，主要设计方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。进群请备注：研究方向+学校/公司+昵称（如Transformer+上交+小明） ??长按识别，邀请您进群！

上一篇：2024-03-20_利物浦用DeepMind的AI制定战术已有三年了

下一篇：2022-07-25_2022 年轻人理财大调查：仅14.5%年轻人不考虑理财，基金是最主流选择｜T-ask

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系