全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-02-13_陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

您的位置:首页 >> 新闻 >> 行业资讯

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More 来源:量子位 造大模型的成本,又被打下来了! 这次是数据量狂砍95%的那种。 陈丹琦团队最新提出大模型降本大法—— 数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。 指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。 这样一来,让大模型术业有专攻,也就更便宜高效了。 更关键的是,所选的训练数据还具备可迁移性,只要针对特定任务,在其他大模型以及各种类型的模型上同样适用。 快来瞅瞅这篇新鲜出炉的论文到底说了什么? LESS算法目前指令微调释放了大模型的强大功能,可有效利用组合数据集开发ChatBot。 但面临的挑战在于,如何从这些数据集中识别出最相关的数据,从而来训练专门的技能。这种情况称为有针对性的指令微调。 为了解决这一难题,受过去相关研究——利用梯度信息估算单个训练数据点影响的启发,研究人员设计了一种优化器感知方法来选择这些数据。 LESS(Low-rank gradiEnt Similarity Search),简言之,优先使用对目标任务有直接帮助的数据进行训练,而不是依赖表面形式特征。 主要分为四个步骤。 首先从训练数据集摘取一小部分子集,用LoRA训练出一个选择模型。 随后,为单个训练数据点计算Adam LoRA梯度特征,并将其保存在梯度数据存储库中。 第三步,选择数据。对于具有少量示例的任务(含多个子任务),研究人员计算每个验证子任务的梯度特征。再从存储库中选出排名前5%训练子集。 最后,训练目标模型。该模型可以使用 LoRA 或完全微调进行训练。 其中第一步和第二步可以离线操作,每个候选训练集D只需计算一次。 归结起来,LESS具备这样几个特性: 与Adam优化器兼容。LESS将梯度信息与优化器状态相结合,来研究数据对模型性能的影响。 高效。LESS使用LoRA和随机投影来构建梯度数据存储,该数据存储具有低维、易操作的梯度特征,允许高效、有效地选择数据集。梯度数据存储可重复用于新的目标任务。 最终在评估结果中,MMLU、TydiQA以及BBH的任务中,5%数据量给大模型训练比整个数据集训练效果要好。 并且同随机选择相比,LESS性能始终高出 2 到 5 个百分点,这表明这一方法十分有效。 此外,他们还特别发现LESS具备可转移性。 LLAMA-2-7B上选择的数据结果,在LLAMA-2-13B和MISTRAL-7B的性能(列表LESS- T)同样更好。 甚至有的表现还比自己用LESS的(列表LESS)性能还好。 除此之外,还有可解释性。LESS选择的数据具有与目标任务相似的推理和技能类型,而现有方法(比如BM25、RDS)往往只根据表面形式线索(如语言或文本)选择数据。 陈丹琦团队出品论文作者来自普林斯顿大学、华盛顿大学的研究人员。 普林斯顿计算机专业的博士生夏梦舟和Sadhika Malladi为共同一作。 其中夏梦舟本科毕业于复旦,硕士毕业于CMU,目前是陈丹琦的学生。 在陈丹琦的个人主页显示,“这些天主要被开发大模型吸引”,正在研究主题包括: 检索如何在下一代模型中发挥重要作用,提高真实性、适应性、可解释性和可信度。 大模型的低成本训练和部署,改进训练方法、数据管理、模型压缩和下游任务适应优化。 还对真正增进对当前大模型功能和局限性理解的工作感兴趣,无论在经验上还是理论上。 前段时间,他们曾提出爆火的“羊驼剪毛”大法—— LLM-Shearing大模型剪枝法,只用3%的计算量、5%的成本取得SOTA,统治了1B-3B规模的开源大模型。 大模型科研的上半场是把参数搞上去实战涌现,下半场嘛,less is more,更小的参数,更好的效果,帮助大模型在更多领域更快落地。 论文链接: https://arxiv.org/abs/2402.04333 推荐阅读 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2019-10-17_让机器更好地理解数字,微信AI登顶数字离散推理榜单 下一篇:2020-01-15_腾讯研究院发布《数字变革与治理创新:2019年全球互联网法律政策观察》

TAG标签:

11
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价