全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-02-20_涨分30%!只需共享注意力分布

您的位置:首页 >> 新闻 >> 行业资讯

涨分30%!只需共享注意力分布 来源:量子位 这次不是卷参数、卷算力,而是卷“跨界学习”—— 让Stable Diffusion当老师,教多模态大模型(如Llama-3.2)如何“看图说话”! 性能直接飙升30%。 中国研究员联合DeepMind团队的最新研究《Lavender: Diffusion Instruction Tuning》,通过简单的“注意力对齐”,仅需1天训练、2.5%常规数据量,即可让Llama-3.2等模型在多模态问答任务中性能飙升30%,甚至能防“偏科”(分布外医学任务提升68%)。 且代码、模型、训练数据将全部开源! 下面具体来看。 模仿Stable Diffusion的交叉注意力机制当前遇到的问题是: 传统多模态大模型(VLM)的“视觉课”总不及格?数据不够、过拟合、细节抓不准……像极了考前突击失败的学渣。 对此,团队提出了新的解决方案: 让Stable Diffusion这位“图像生成课代表”,直接共享它的“学霸笔记”——注意力分布。 展开来说,其跨界教学可分为三步走: Step1:拜师学艺。VLM(如Llama-3.2)向Stable Diffusion学习如何“看图”,通过轻量级对齐网络(Aligner)模仿其交叉注意力机制。 Step2:高效补课:仅用13万样本(常规数据量的2.5%)、8块GPU训练1天,不卷数据不烧卡。 Step3:防偏科秘籍。引入LoRA技术“轻装上阵”,保留原模型能力的同时,专攻薄弱环节。 然后来看下具体效果。 从论文晒出的成绩单来看,在16项视觉-语言任务中,Lavender调教后的Llama-3.2,性能大有提升—— 在预算有限的小模型赛道上,超过SOTA(当前最优模型)50%。 在超大模型圈子里,Lavender调教的Llama-3.2-11B居然能和那些“巨无霸”SOTA打得有来有回。 要知道,这些对手的体量一般在它的10倍以上。 更令人惊讶的是,Lavender连医学数据都没“补习”,就直接让Llama-3.2-11B在WorldMedQA这个“超纲考试”中成绩暴涨68%。 具体分数见图表(柱状图已标出) 代码/模型/训练数据全开源小结一下,新研究主要技术亮点如下: 1、注意力对齐:Stable Diffusion的“独家教案” 传统VLM的注意力机制像“散光患者”,而Stable Diffusion的注意力分布则是“高清显微镜”。Lavender通过MSE损失函数,让VLM学会Stable Diffusion的“聚焦技巧”,直接提升视觉理解精度。 2. 数据不够?知识蒸馏来凑 无需海量标注数据,直接从图像生成模型中蒸馏视觉知识,堪称“小样本学习神器”。正如论文团队调侃:“这大概就是AI界的‘名师一对一补习班’。” 3. 防过拟合Buff:LoRA+注意力约束 通过低秩适配(LoRA)锁定核心参数,避免模型“死记硬背”。实验显示,Lavender在分布外任务上的鲁棒性吊打传统SFT方法,具备“抗偏科体质”。 另外,从具体应用场景来看,Lavender的视觉理解能力直接拉满。 无论是表格标题还是图表里的小数据点,Lavender都能一眼锁定关键信息,不会“偏题”;且对于复杂图形、大小位置关系,Lavender也能避免视觉误导,轻松拿捏。 实验显示,从医学病灶定位到多语言问答,Lavender不仅看得准,还答得对,连西班牙语提问都难不倒它。 目前,团队不仅公开了论文,代码/模型/训练数据也全部开源了。 训练数据:由Stable Diffusion标注的高质量对齐样本; 预训练模型:基于Llama-3.2、MiniCPMv2.5等架构的Lavender适配版; 调参指南:从小白到进阶的“注意力对齐”实操手册; 对于上述研究,团队负责人表示: 我们希望证明,高效、轻量的模型优化,比无脑堆参数更有未来。 论文: https://arxiv.org/abs/2502.06814 项目主页: https://astrazeneca.github.io/vlm/ 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2021-05-12_CVPR 2021 | 无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉 下一篇:2023-09-09_蚂蚁集团开 “卷” 金融大模型,“四力和一” 解决产业真命题

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价