全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-08-27_一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer

您的位置:首页 >> 新闻 >> 行业资讯

一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer 来源:新智元 【导读】Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷了个sota。 Transformer 的强大毋庸置疑,想要在CV和NLP的排行榜上取得一席之地,Transformer几乎是必不可少的骨架模型。 但它的效率相比传统的文本理解模型来说却不敢恭维,Transformer的核心是自注意力(self-attention)机制,对于输入长度为N的文本,它的时间复杂度达到二次O(N^2)。 虽然已经有很多方法来处理 Transformer 加速问题,但是对于长序列来说,这些方法要么效率仍然较低或是效果还不够好,例如BigBird使用稀疏注意力却丢失了全局上下文信息。 清华大学提出了一个新模型Fastformer,基于additive attention能够以线性复杂度来建立上下文信息。 论文地址:https://arxiv.org/abs/2108.09084 文章的第一作者武楚涵,是清华大学电子工程系的博士研究生。 目前的研究兴趣包括推荐系统、用户建模和社会媒体挖掘。在人工智能、自然语言处理和数据挖掘领域的会议和期刊上发表过多篇论文。 仅2021年就在顶会上发表了六篇论文,大神的世界只能仰望。 论文的通讯作者是黄永峰,清华大学电子系教授,博士,博导,信息认知和智能系统研究所副所长,首届全国十佳网络安全优秀教师。 主要从事网络及网络安全技术的研究和教学。现为IEEE Senior Member、中国电子学会信息隐藏与多媒体安全专家委员会委员。 已在IEEE Transaction IFS和中国科学等国内外著名期刊和AAAI和ACL等重要国际会议发表论文300多篇;出版专著4部、译著2部,教材2部。申请和授权发明专利10余项。 Fastformer首先对输入的attention query矩阵合并为一个全局query向量,然后对attention的key和全局query向量采用element-wise的乘法学习到全局上下文相关key矩阵,再通过additive attention合并为全局key向量。 通过元素乘积对全局key和attention之间的交互进行建模,并使用线性变换学习全局上下文感知的注意力,最后将它们与attention query查询一起添加以形成最终输出。 由此,计算复杂度可以降低到线性,并且可以有效地捕获输入序列中的上下文信息。 对于学习全局query和key向量的additive attention网络,其时间和内存开销均为O(N·d),参数总数为2hd(h为注意头数)。此外,元素乘积的时间代价和内存代价也是O(N·d),总复杂度是,比标准的Transformer复杂度要更有效率。 如果采用权重共享(weight sharing)方法,每层Fastformer的总参数量为,也有更少的参数。 模型验证 论文在五个不同任务的数据集上进行实验来验证Fastformer的效率: IMDB,电影评论星级预测数据; MIND,一个大规模的新闻推荐数据集。在这个数据上进行两个任务:新闻主题分类和个性化推荐; CNN/DailyMail数据集,一个广泛使用的文本摘要数据集; PubMed数据集,包含更长文本的文本摘要数据集; Amazon 电子产品领域评论星级预测数据。 实验过程中使用Glove词向量初始化,在32GB的V100 GPU上进行5次实验取性能的平均值。 对比模型包括: 标准的Transformer; Longformer,基于稀疏注意力的Transformer,结合了滑动窗口注意力和全局注意力来建模局部和全局上下文; BigBird,Longformer的扩展,包括稀疏随机注意力机制; Linformer,一个线性复杂度的Transformer,使用低维key和value矩阵来计算近似self-attention; Linear Transformer,也是线性复杂度的Transformer,使用核函数来估计self-attention机制; Poolingformer,一种层次结构,首先使用滑动窗口自注意力来捕捉短距离的内容,然后使用pooling self-attention来捕捉长距离的上下文。 在分类任务上,可以看到FastFormer要比标准的Transformer要更好。 比较不同方法在新闻推荐任务中的性能时,又增加了三个模型: NRMS,它使用多头自注意力网络学习新闻和用户表征; FIM,一种用于个性化新闻推荐的细粒度兴趣匹配方法; PLM-NR,使用预训练的语言模型为新闻推荐提供基础。 在不同的Transformer结构中,Fastformer达到了最好的性能,并且它也优于基本NRMS模型。此外,Fastformer可以进一步提高PLM-NR的性能,并且集成模型在MIND排行榜上获得最佳结果。 结果分析 结果表明,Fastformer不仅在文本建模方面是有效的,而且在理解用户兴趣方面也是有效的。 既然提到快,在效率的对比上也要进行实验。将输入序列的长度从128调整为65535,并将batch size的大小与序列长度成反比。使用随机生成token作为伪样本,并固定token embedding以更好地测量不同方法的计算成本。 当序列长度相对较长时(例如512),Transformer效率较低。此外还发现,虽然Poolingformer在理论上具有线性复杂性,但在实践中效率低下。这是因为它使用的窗口大小(例如256)以类似卷积的方式计算池权重,这导致计算成本的非常大的常数项。 在训练和推理时间方面,Fastformer比其他线性复杂度Transformer更有效,这些结果验证了Fastformer的有效性。 不同的参数共享技术对Fastformer的技术也有影响,通过共享query和value转换矩阵,在不同的注意头之间共享参数,可以发现,与没有任何参数共享技术的Fastformer模型相比,使用query-value参数共享可以获得类似或略好的性能。因此可以通过共享query和value转换矩阵来减少参数大小。 此外,头部参数共享将导致显著的性能下降。这是因为不同的注意头需要捕捉不同的上下文模式,而共享它们的参数对上下文建模是不利的,采用分层共享方法可以进一步提高模型的性能,因为不同层之间的参数共享可以缓解过拟合的风险。 说个正事哈 由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为: (1)点击页面最上方“深度学习技术前沿”,进入公众号主页。 (2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。 感谢支持,比心。 推荐阅读【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载! MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展! 北京大学智能计算与感知实验室招收博士、硕士、本科实习生 博士申请 | 香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生 周志华教授:如何做研究与写论文?(附完整的PPT全文) 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何? 常用 Normalization 方法的总结与思考:BN、LN、IN、GN 注意力可以使MLP完全替代CNN吗?未来有哪些研究方向? 重磅!DLer-计算机视觉&Transformer群已成立! 大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明) ??长按识别,邀请您进群!

上一篇:2022-03-19_泰国7-11催泪广告 , 请备好纸巾 下一篇:2019-01-28_算法偏见就怪数据集?MIT纠偏算法自动识别「弱势群体」

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价