全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-01-26_「付费」与其颠覆 Transformer,不如专注改良 Attention?

您的位置:首页 >> 新闻 >> 行业资讯

与其颠覆 Transformer,不如专注改良 Attention? 机器之心PRO · 会员通讯 Week 04---本周为您解读 ③个值得细品的AI & Robotics业内要事 ---1. 与其颠覆 Transformer,不如专注改良 Attention?为什么 Transformer 不会是 AGI 的最终版本?Attention 的局限引出了哪些改良路线?传统 Attention 变体被优化到什么程度了?结合线性 Attention 的架构优势更明显吗?Titans 有机会接替 Transformer 吗?...2. 大厂、AR 厂商们扎堆 AI 眼镜产品,仅为了数据积累能活到下一轮吗?CES 2025 上爆火、大厂排队入局...AI 眼镜赛道情况如何?AI 眼镜相比其他 AI 硬件,有哪些天然的优势?为什么数据对于 AI 眼镜厂商关注的核心?目前市面上热门的 AI 眼镜产品都有哪些异同?为什么说 AI 眼镜产品仅处于「及格」状态?差在哪?... ...本期完整版通讯含 2项专题解读 + 29项本周 AI & Robotics 赛道要事速递,其中技术方面 7项,国内方面 12 项,国外方面 10项。本期通讯总计 20328字,可免费试读至 7%消耗99微信豆即可兑换完整本期解读(约合人民币9.9元) 要事解读① 与其颠覆Transformer,不如专注改良 Attention?引言:Transformer 架构自 2017 年被提出以来,基于 Attention 机制的优势迅速崛起,并成为 LLM 的主流架构。然而,计算成本和 KV 缓存问题等局限让业内认为原始的 Transformer 不会是 AGI 的最终版本,因而涌现出大量对 Attention 的改良、近似乃至替换工作,且热度越来越高。替换 Transformer 不如 爆改 Attention?深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer 的新架构,以解决其在计算效率和内存占用方面的局限性。然而,随着研究的深入,继续使用Transformer但改进注意力机制(Attention Mechanism)的做法又开始升温。1、随着模型规模的扩大和应用场景的复杂化,Transformer 的局限性不断显现,这些缺陷促使研究者们不断探索新的改进方向① Transformer 最明显局限在于 Attention 机制的二次方的复杂度带来的计算成本,其需要计算每个词与其他所有词的注意力权重,导致时间复杂度为 O(n2),序列长度增加时计算成本急剧上升。② KV 缓存问题同样明显,为了加速推理,Transformer 需要缓存每个词的 Key 和 Value,这在处理长序列时会占用大量内存,空间复杂度为 O(n)。③ Transformer 还存在注意力分散的问题,在长序列中,全局注意力机制可能使重要信息被稀释,导致模型难以聚焦关键信息。④ 由于 Transformer 依赖额外的位置编码来理解词序,但在处理特别长的序列时,位置编码的可靠性会下降。⑤ 此外,Transformer 逐词生成的机制导致了训练和推理不一致问题。2、众多局限引发的共识是,原始的 Transformer 不会是 AGI 的最终版本,但这些局限引出了许多改进工作。3、由于 Attention 机制被广泛认为是 Transformer 成功的关键,因此许多研究都集中在如何改进自注意力机制,以提高其效率和效果。[1-2] [1-1]① 第一种是基于传统 Softmax Attention 的各类改进和变种,涵盖 MHA、MQA、GQA 等。② 第二种是以 RetNet、GLA 和 Lightning Attention 等工作为代表的 Linear Attention 路线。这些方法通过数学变换将计算复杂度从二次方降到线性(O(n)),同时基本保留了原有的模型表现。③ 在试图降低 Attention 二次方复杂度至线性复杂度的工作中,还衍生了 Mamba 为代表的态空间模型和以 DeltaNet 为代表的在线学习等路线。④ 还有类似如 MiniMax-01 的工作尝试结合 Softmax Attention 和 Linear Attention 的,用混合架构发挥两种机制的优势。由 Softmax Attention 衍生的最新变体有什么特点?在自然语言处理(NLP)领域,Softmax Attention 机制及其变体已成为提升模型性能和效率的关键技术。然而,随着模型规模的扩大和任务复杂度的提升,Softmax Attention 的时间复杂度为 O(n2)的局限性逐渐显现。这促使研究者们提出了多种变体,以优化 Softmax Attention 的性能和效率。

上一篇:2025-04-03_年轻人都想要的“松弛感”,算是被这个品牌玩明白了 下一篇:2024-02-01_赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

TAG标签:

15
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价