全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2023-07-20_速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

您的位置:首页 >> 新闻 >> 行业资讯

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸 来源:机器之心 此前,谷歌和波士顿大学的研究者提出了一种「个性化(Personalization)」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。 对于「个性化」我们可以这样理解,以输入图像为参考,生成的图像在各种情境和不同风格中都能保持对其身份的高度忠实。 举例来讲,输入左侧 4 张小狗的照片,DreamBooth 就可以生成不同类型的小狗,如小狗在景点里旅游、在海里游泳、趴在窝棚里睡觉、甚至人类给它修剪毛发,而生成的图片都高度保持了原图像的特点。 然而,个性化过程在时间和内存需求方面还存在很多挑战。具体到单个个性化模型,进行微调需要大量的 GPU 时间投入,不仅如此,个性化模型还需要很高的存储容量。 为了克服这些挑战,时隔 8 个月,谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和风格的人脸,同时还能保留脸部关键知识。 在只使用一张参考图像的情况下,HyperDreamBooth 在大约 20 秒内实现了对人脸的个性化处理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不仅如此,生成的图像与 DreamBooth 质量一样、风格还多样性。此外,HyperDreamBooth 还比常规的 DreamBooth 模型小 10000 倍。 论文地址:https://arxiv.org/pdf/2307.06949.pdf论文主页:https://hyperdreambooth.github.io/ 在我们深入探讨技术细节之前,先看一些效果。 下图中,左边一栏是输入图像,给定一张图像就可以;中间一栏是根据不同的提示生成的人脸,提示语分别是 Instagram 上一张 V 型脸的自拍照;皮克斯卡通人物的 V 型脸;摇滚明星 V 型脸;树皮一样的 V 型脸。最右边生成的是人物专业照片 V 型脸。结果显示,HyperDreamBooth 具有相当大的可编辑性,同时还能保持人物关键面部特征的完整性。 HyperDreamBooth 与 Textual Inversion 、DreamBooth 方法比较有何优势呢? 下图展示了两个示例、5 种风格,结果显示,HyperDreamBooth 可以很好的保持输入图像特性,还具有很强的可编辑性。 ? 接下来我们看看 HyperDreamBooth 具体是如何实现的。 方法介绍 该研究提出的方法由 3 个核心部分组成,分别是轻量级 DreamBooth(Lightweight DreamBooth,LiDB)、预测 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。 LiDB 的核心思想是进一步分解 rank-1 LoRa 残差的权重空间。具体来说,该研究使用 rank-1 LoRA 权重空间内的随机正交不完全基(random orthogonal incomplete basis)来实现这一点,如下图所示: HyperDreamBooth 的训练和快速微调如下图 2 所示,分为两个阶段。 第 1 阶段:训练 HyperNetwork 以根据人脸图像预测网络权重。该研究使用预先计算的个性化权重进行监督,使用 L2 损失和 vanilla 扩散重建损失函数。第 2 阶段:给定面部图像,用 HyperNetwork 预测网络权重的初步猜测(initial guess),然后使用重建损失进行微调以增强保真度。 HyperNetwork 架构 该研究使用的 HyperNetwork 架构如下图 4 所示。其中,视觉 Transformer(ViT)编码器将人脸图像转换成潜在的人脸特征,然后将其连接到潜在层权重特征(初始化为 0)。Transformer 解码器接收连接特征的序列,并通过使用 delta 预测细化初始权重来迭代地预测权重特征的值。 值得一提的是,这是 transformer 解码器首次被用于 HyperNetwork。 如下图所示,HyperNetwork + 快速微调取得了良好的效果: 实验 下表为 HyperDreamBooth 与 DreamBooth、 Textual Inversion 比较结果。表明,在所有指标上,HyperDreamBooth 得分最高。 下表为不同迭代次数下的比较结果,比较模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。结果显示,HyperDreamBooth 在三项指标上都超过其他模型。 下表为消融实验结果:主要对比的是 HyperNetwork 对性能的影响。 用户研究。该研究还让用户以投票的方式参与评估,结果显示用户对 HyperNetwork 生成的结果偏好强烈。 了解更多内容,请参考原论文。推荐阅读 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2025-08-04_2025年上半年品牌营销市场趋势盘点 下一篇:2022-08-26_直播预告丨杨茂君:呼吸的奥秘

TAG标签:

13
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价