全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-09-08_苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

您的位置:首页 >> 新闻 >> 行业资讯

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码! 作者丨我爱计算机视觉来源丨我爱计算机视觉编辑丨极市平台苹果公司的研究人员最近推出了MobileCLIP2,这是其高效端侧多模态模型家族的最新成员。作为MobileCLIP的继任者,MobileCLIP2通过改进多模态增强训练方法,在低延迟、轻量级的模型上实现了新的SOTA(State-of-the-Art)性能。 该研究不仅在训练方法上进行了多项创新,还设计了新的模型架构,并在多个基准测试中取得了优异的成绩,特别是在ImageNet-1k零样本分类任务上,其性能媲美甚至超越了许多更大、更复杂的模型。 论文标题:MobileCLIP2: Improving Multi-Modal Reinforced Training 作者天团:Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari 机构:苹果(Apple) 论文地址:https://arxiv.org/abs/2508.20691 代码和模型地址: https://github.com/apple/ml-mobilecliphttps://github.com/apple/ml-mobileclip-dr发表会议:Transactions on Machine Learning Research (TMLR), 2025年8月 研究背景像CLIP这样的视觉-语言基础模型(Vision-Language Foundation Models)因其强大的零样本(zero-shot)能力而备受关注,能够广泛应用于各种下游任务。然而,这些模型通常参数量巨大,计算复杂,难以直接部署在手机等资源受限的边缘设备上。 为了解决这一挑战,研究界开始探索如何构建轻量级、低延迟的CLIP模型。苹果之前提出的MobileCLIP就是其中的佼佼者,它通过专门设计的轻量化架构和一种名为“多模态增强训练”(multi-modal reinforced training)的方法,在3-15ms的延迟和50-150M的参数量级上实现了当时的SOTA性能。 MobileCLIP2的目标是在前作的基础上更进一步,通过全方位优化训练流程的每一个环节——包括数据集、教师模型和模型架构——来突破移动端多模态模型的性能极限。 MobileCLIP2的核心改进MobileCLIP2的成功主要归功于一套经过精心改良的多模态增强训练“配方”。增强训练的核心思想是通过利用预训练好的强教师模型(teacher models)和合成数据来“增强”原始数据集,从而在不增加太多计算开销的情况下提升学生模型(student model)的性能。 MobileCLIP2从以下几个方面对这个配方进行了升级: 1. 更强大的基础数据集:DFN训练数据是决定模型性能的基石。MobileCLIP使用的是DataComp-1B数据集,而MobileCLIP2则转向了质量更高的DFN (Data Filtering Network)数据集。实验证明,即使在不使用蒸馏和合成标题的情况下,仅在DFN上训练也比在DataComp上训练效果更好。 2. 更优的教师模型与蒸馏策略知识蒸馏是增强训练的关键。MobileCLIP2使用了在DFN数据集上预训练的、性能更强的CLIP模型作为教师天团。研究发现,教师模型的选择至关重要。 一个有趣的发现是,在进行对比知识蒸馏时,为每个教师模型独立调整蒸馏温度(temperature),即logit scale,可以获得最佳性能。这表明不同的教师模型有着不同的“教学风格”,需要个性化对待。 此外,通过集成(ensemble)多个强大的DFN CLIP教师模型,学生模型的ImageNet-1k验证准确率提升了2.8%。 3. 更高质量的合成标题生成器除了从教师模型蒸馏知识,为图片生成高质量的合成标题(synthetic captions)是另一种有效的数据增强手段。MobileCLIP2采用了在DFN上预训练、并在多种高质量图文对数据集(如MSCOCO, DOCCI)上微调的CoCa(Contrastive Captioner)模型作为标题生成器。 实验表明,使用在DFN上预训练的CoCa模型能带来更好的零样本分类性能,但可能会牺牲一些检索性能。通过在MSCOCO等高质量数据集上进行微调,可以恢复甚至提升检索性能。 4. 最终的增强数据集:DFNDR综合以上所有改进,研究者构建了最终的增强数据集DFNDR (DFN with Distillation and Reinforcement)。与之前的方法相比,使用DFNDR进行训练的效率极高。如下图所示,在DFNDR-12M上训练的效率比DataComp-1B12M高出5倍,比DFN-12M高出3.3倍。这意味着达到相同的模型精度,DFNDR所需的训练样本和时间要少得多。 新的MobileCLIP2架构除了改进训练方法,MobileCLIP2还引入了两个新的、更大的模型变体:S3和S4。这些新架构旨在填补之前B(Base)和L(Large)尺寸模型之间的性能和延迟差距。 对于S3和S4这样更大的变体,研究者为其图像编码器设计了一个5阶段(5-stage)的结构,取代了之前小型模型中的4阶段结构。这种5阶段设计有两个主要优点: 参数可以更均匀地分布在五个阶段,最大的层处理的token数量减少了4倍。能更有效地扩展到更高的图像分辨率。实验证明,在相同参数量下,5阶段设计的MCi3模型在处理高分辨率图像时,延迟远低于简单缩放的4阶段模型MCi2-Scaled。 实验结果与分析MobileCLIP2模型家族在各种延迟水平上都展现出了卓越的性能。 最引人注目的结果是: MobileCLIP2-S4在ImageNet-1k零样本分类任务上,准确率追平了强大的SigLIP-SO400M/14模型,而参数量仅为后者的一半。与同样在DFN上训练的ViT-L/14模型相比,MobileCLIP2-S4在性能超越的同时,延迟降低了2.5倍。与前代MobileCLIP-B相比,MobileCLIP2-B在ImageNet-1k上的准确率提升了2.2%。下表详细对比了MobileCLIP2家族与其他主流模型在延迟、参数量和各项性能指标上的表现。可以看出,在相似的延迟区间内,MobileCLIP2模型在38个数据集的平均性能上具有明显优势。 除了零样本分类,研究者还在多种下游任务上评估了MobileCLIP2学习到的视觉表示的质量,包括: 视觉语言模型(VLM)评估:在LLaVA-1.5框架下,使用DFNDR预训练的ViT-B/16模型比DFN预训练的模型平均准确率高3.5%。 密集预测任务(Dense Prediction):在物体检测、实例分割、语义分割和深度估计等任务上,使用MobileCLIP2进行预训练的模型性能显著优于从零开始训练或使用监督预训练的模型。 总结与贡献总而言之,MobileCLIP2的贡献可以总结为以下几点: 提出了一套更优的多模态增强训练方法,核心是使用了更强的DFN数据集、更优的CLIP教师模型集成和更高质量的合成标题生成器,最终合成了高效的DFNDR数据集。对知识蒸馏过程提出了新的见解,如为不同教师模型调整独立蒸馏温度的重要性。设计了新的MobileCLIP2-S3/S4模型架构,特别是其5阶段设计,有效提升了模型在高分辨率下的推理效率。在低延迟模型上实现了新的SOTA性能,为在移动设备上部署高性能多模态应用铺平了道路。开源了预训练模型和数据生成代码,极大地便利了社区的研究和应用。这一点对于推动领域发展非常有价值。推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-大模型技术交流群! ??长按识别,邀请您进群! 阅读原文

上一篇:2024-09-11_华为居然给三折叠手机拍了近20支广告 下一篇:2020-06-03_再见Christo,包裹凯旋门仍然在路上

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价