全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2023-10-09_「转」Hugging Face 大语言模型优化技术

您的位置:首页 >> 新闻 >> 行业资讯

Hugging Face 大语言模型优化技术 作者 | Sergio De Simone 译者 | 明知山 策划 | 丁晓昀 大语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上下文信息的输入序列。Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术。 Patrick von Platen 在文中介绍的 Hugging Face 研究的三种技术是降低数值精度、使用一种叫作 Flash Attention 的注意力算法,以及使用专门的推理架构。 大语言模型需要大量的 VRAM 来加载,从几十 (bigcode/starcoder) 到数百 GB (Llama、Bloom、GPT3)。第一个优化手段是从 float32 切换到 bfloat16 精度: 现在几乎所有的模型都是基于 bfloat16 训练的,如果你的 GPU 支持 bfloat16,就没有理由基于全 float32 精度运行模型。float32 不会给出比训练模型所使用的精度更好的推理结果。这可以使总体内存消耗减少一半,但可惜的是,在许多情况下仍然需要很大的内存。一种更激进的方法是将模型权重量化为 8 位或 4 位,这已经被证明不会导致显著的性能下降。量化对于文本生成来说特别有效,因为我们所关心的是选择最有可能的下一个标记集合,而不是下一个标记 Logit 分布的确切值。这将进一步减少所需的内存,使得在只有 16GB VRAM 的 GPU 上运行较小的模型成为可能,尽管代价是推理时间稍长。 von Platen 写道,使用 Flash Attention 是另一相关键的优化,它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法,有可能打破输入标记数量的二次增长。 因为该算法太过复杂,无法在这里描述,但可以这么说,它利用了 softmax 规范化统计数据和一些数学手段,在只需要随输入标记线性增长的内存的情况下提供相同的输出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。 在实践中,目前绝对没有理由不使用 Flash Attention。该算法在数学层面给出了相同的输出,并且速度更快,内存效率更高。Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache. 在生产环境中部署大语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。von Platen 写道,最近的研究有助于我们如何对两个很快成为瓶颈的组件做出选择——一个是 _ 位置嵌入 (positional embeddings)_,一个是 _ 键值缓存 _。 位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型,应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。 RoPE 和 ALiBi 位置编码都可以外推到训练期间未遇到过的输入长度,而事实证明,与 RoPE 相比,外推对于开箱即用的 ALiBi 的效果要好得多。目前的许多大语言模型中已经在使用这两种算法。 键值缓存可以作为对对话上下文进行编码的一种方法。键值缓存在发生每个新交互时增加一个元素,这比为每个请求编码 / 解码上下文的方法要有效得多。von Platen 详细介绍了两类键值缓存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。 von Platen 的文章所涵盖的内容不只有本文所概述的这些,他的文章中还提供了实际的例子来证明他的观点,所以请不要错过他的文章。 原文链接: https://www.infoq.com/news/2023/09/hugging-face-optimizing-llms/ 活动推荐大模型的出现从根本上改变了数字化转型的赛道,在 InfoQ《超级连麦. 数智大脑》直播中,富滇银行数字金融中心副主任李涛深入探讨了自身对于 AIGC 在金融领域创新方面的思考,分享了银行数字化发展的历程及背后的架构演进。识别下方二维码或关注「InfoQ 数字化经纬」公众号,即可阅读全文。

上一篇:2022-02-05_用了五年 VS Code ,我决定换成 JetBrains…… 下一篇:2020-04-15_阿里巴巴资深算法专家张伟:百科类知识图谱构建和应用已到深水区,行业和多模态知识图谱引关注

TAG标签:

14
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价