2024-11-16_Make U-Nets Great Again！北大&华为强强联合-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

Make U-Nets Great Again！北大&华为强强联合来源：机器之心 Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作，DiT 模型抛弃了传统的 U-Net 扩散架构，转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众，后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。然而令人感到不解的是，U-Net 结构是之前最常用的扩散架构，在图像空间和隐空间的生成效果均表现不俗；可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此，北大和华为的研究者们产生了一个疑问：能否重新拾起 U-Net，将 U-Net 架构和 Transformer 有机结合，使扩散模型效果更上一层楼？带着这个问题，他们提出了基于 U-Net 的 DiT 架构 U-DiT。论文标题：U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers 论文地址：https://arxiv.org/pdf/2405.02730 GitHub 地址：https://github.com/YuchuanTian/U-DiT 从一个小实验谈开去首先，研究者开展了一个小实验，在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而，如表 1 所示，在相似的算力比较下，U-Net 的 DiT（DiT-UNet）仅仅比原始的 DiT 有略微的提升。在图 3 中，作者们展示了从原始的直筒 DiT 模型一步步演化到 U-DiT 模型的过程。根据先前的工作，在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力，在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到，简单的下采样可以自然地滤除噪声较多的高频，强调信息充沛的低频。既然如此，是否可以通过下采样来消除对特征图自注意力中的冗余？ Token 下采样后的自注意力由此，作者提出了下采样自注意力机制。在自注意力之前，首先需将特征图进行 2 倍下采样。为避免重要信息的损失，生成了四个维度完全相同的下采样图，以确保下采样前后的特征总维度相同。随后，在四个特征图上使用共用的 QKV 映射，并分别独立进行自注意力运算。最后，将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比，下采样自注意力可以使得自注意力所需算力降低 3/4。令人惊讶的是，尽管加入下采样操作之后能够显著模型降低所需算力，但是却反而能获得比原来更好的效果（表 1）。 U-DiT：全面超越 DiT 根据此发现，作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力，作者提出了三个 U-DiT 模型版本（S/B/L）。在完全相同的训练超参设定下，U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中，U-DiT-L 在 400K 训练迭代下的表现比直筒型 DiT-XL 模型高约 10 FID，U-DiT-S/B 模型比同级直筒型 DiT 模型高约 30 FID；U-DiT-B 模型只需 DiT-XL/2 六分之一的算力便可达到更好的效果（表 2、图 1）。在有条件生成任务（表 3）和大图（512*512）生成任务（表 5）上，U-DiT 模型相比于 DiT 模型的优势同样非常明显。研究者们还进一步延长了训练的迭代次数，发现 U-DiT-L 在 600K 迭代时便能优于 DiT 在 7M 迭代时的无条件生成效果（表 4、图 2）。 U-DiT 模型的生成效果非常出众，在 1M 次迭代下的有条件生成效果已经非常真实。论文已被 NeurIPS 2024 接收，更多内容，请参考原论文。推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程，附Slides与资料下载西电IEEE Fellow团队出品！最新《Transformer视觉表征学习全面综述》如何做好科研？这份《科研阅读、写作与报告》PPT，手把手教你做科研奖金675万！3位科学家，斩获“中国诺贝尔奖”！最新 2022「深度学习视觉注意力」研究概述，包括50种注意力机制和方法！【重磅】斯坦福李飞飞《注意力与Transformer》总结，84页ppt开放下载！2021李宏毅老师最新40节机器学习课程！附课件+视频资料欢迎大家加入DLer-计算机视觉技术交流群！大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明） ??长按识别，邀请您进群！

上一篇：2019-08-23_产业互联网让世界变得简单

下一篇：2021-05-06_「转」【电视广告新动态】3月化妆品行业电视广告花费同比增长53.4%

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系