2019-04-15_微软亚研：对深度神经网络中空间注意力机制的经验性研究-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

微软亚研：对深度神经网络中空间注意力机制的经验性研究机器之心专栏来源：微软亚洲研究院作者：朱锡洲、程大治、张拯、StephenLin（林思德）、代季峰空间注意力（SpatialAttention）机制最近在深度神经网络中取得了很大的成功和广泛的应用，但是对空间注意力机制本身的理解和分析匮乏。论文：AnEmpiricalStudyofSpatialAttentionMechanismsinDeepNetworks 链接：https://arxiv.org/abs/1904.05873 摘要：空间注意力（SpatialAttention）机制最近在深度神经网络中取得了很大的成功和广泛的应用，但是对空间注意力机制本身的理解和分析匮乏。本论文对空间注意力机制进行了详尽的经验性分析，取得了更深入的理解，有些认知是跟之前的理解很不一样的，例如，作者们发现TransformerAttention中对query和key的内容进行比较对于空间注意力帮助很小，但对于Encoder-DecoderAttention（编码器-解码器注意力）是至关重要的。另一方面，将可变形卷积（DeformableConvolution）与和query无关的keysaliency进行适当组合可以在空间注意力中实现最佳的准确性-效率之间的权衡。本论文的研究结果表明，空间注意力机制的设计存在很大的改进空间。引言图1.不同的注意力因子的描述。采样点上方的颜色条表示其内容特征。当图中存在内容特征或相对位置时，表明该项将它们用于注意力权重计算。注意力机制使神经网络能够更多地关注输入中的相关部分。自然语言处理（NLP）中最先研究了注意力机制，并开发了Encoder-Decoder模块以帮助神经机器翻译（NMT），当给定一个query（例如，输出句子中的目标词），计算其输出时，会依据query对某些key元素（例如，输入句子中的源词）进行优先级排序。后来空间注意力模块被提出，用于建模句子内部的关系，此时query和key都来自同一组元素。重磅论文AttentionisAllYouNeed中提出了TransformerAttention模块，大大超越了过去的注意力模块。注意力建模在NLP中的成功，激发了其在计算机视觉领域中的应用，其中TransformerAttention的不同变体被应用于物体检测和语义分割等识别任务，此时query和key是视觉元素（例如，图像中的像素或感兴趣的区域）。在给定query，确定分配给某个key的注意力权重时，通常会考虑输入的三种特征：(1）query的内容特征，可以是图像中给定像素的特征，或句子中给定单词的特征；(2）key的内容特征，可以是query邻域内像素的特征，或者句子中的另一个单词的特征；(3）query和key的相对位置。基于这些输入特征，在计算某对query-key的注意力权重时，存在四个可能的注意力因子：（E1）query内容特征和key内容特征；（E2）query内容特征和query-key相对位置；（E3）仅key内容内容特征；（E4）仅query-key相对位置。在TransformerAttention的最新版本Transformer-XL中，注意力权重表示为四项（E1，E2，E3，E4）的总和，如图1所示。这些项依赖的属性有所区别。例如，前两个（E1，E2）对query内容敏感。而后两者（E3，E4）不考虑query内容，E3主要描述显著的key元素，E4主要描述内容无关的的位置偏差。尽管注意力权重可以基于这些因子被分解，但是这些因子之间的相对重要性尚未被仔细研究。此外，诸如可变形卷积和动态卷积（DynamicConvolution）之类的流行模块虽然看起来与TransformerAttention无关，但也采用了关注输入的某些相关部分的机制。是否可以从统一的角度看待这些模块以及它们的运行机制如何不同等问题也未被探索过。这项工作将TransformerAttention，可变形卷积和动态卷积视为空间注意力的不同实例（以不同注意力机制，涉及了注意力因子的不同子集）。为分析不同注意力机制和因子的影响，本文在广义注意力形式下对比了不同的注意力机制的各种因素，该调查基于多种应用，包括神经机器翻译，语义分割和物体检测。本研究发现：（1）在TransformerAttention模块中，对query敏感的项，尤其是query和key内容项E1，在SelfAttention（自注意力）中起着微不足道的作用。但在Encoder-DecoderAttention中，query和key内容项E1至关重要；（2）尽管可变形卷积仅利用基于query内容和相对位置项的注意力机制，但它在图像识别方面比在TransformerAttention中对应的项E2更有效且高效；（3）在SelfAttention中，query内容和相对位置项E2以及仅考虑key内容的项E3是最重要的。将可变形卷积与TransformerAttention中仅考虑key内容的项E3进行适当组合会提供比TransformerAttention模块更高的精度，且在图像识别任务上具有低得多的计算开销。本文中的观察挑战了对当前空间注意力机制的传统理解。例如，人们普遍认为，注意力机制的成功主要归功于对query敏感的注意力项E1和E2，尤其是query和key内容项E1。这种理解可能源于最开始Encoder-DecoderAttention模块在神经机器翻译中的成功。事实上，在最近的一些变体，如Non-Local模块和Criss-Cross模块中，仅有query和key内容项E1得到保留，所有其他项都被丢弃。这些模块在SelfAttention应用中仍能很好地发挥作用，进而增强了这种理解。但是本文的研究表明这种理解是不正确的。本文发现这些仅具有query敏感项的注意力模块实际上与那些仅具有query无关项的注意力模块性能相当。本文的研究进一步表明，这种退化可能是源于注意力模块的设计，而不是SelfAttention的固有特征，因为可变形卷积被发现在图像识别任务中能有效且高效地利用query内容和相对位置。这一实证分析表明，深度网络中空间注意力机制的设计还有很大的改进空间。本文的研究结果在这个方向上取得了一些初步进展，希望这项研究能够激发关于建模空间注意力中的运行机制的进一步研究。广义注意力形式给定query元素和一组key元素，注意力函数根据注意力权重对key内容进行相应的聚合，其中注意力权重衡量了query-key的兼容性。为了允许模型处理来自不同特征子空间和不同位置的key内容，多个注意力函数的输出依照一组可学习的权重进行线性组合。令q索引某内容特征为z_q的query元素，并且k索引具有内容特征x_k的key元素，最终输出的注意力特征y_q被计算为：表示第m个注意力函数中的注意力权重，key元素遍历区域Ω_q，W_m和W'm是可学习权重。通常，注意力权重在Ω_q内被标准化到和为1。在这个广义注意力形式下，TransformerAttention与可变形卷积、动态卷积的区别在如何计算。Transformer中A_m由E1，E2，E3，E4四项计算得到，形式为：而可变形卷积的计算形式为（G为双线性插值函数）: 动态卷积也可以在进行微小修改后纳入广义注意力形式，详见论文。 Transformer Attention 中各项因子的对比图2.TransformerAttention中四项的准确性–效率权衡（E1对应key和query内容，E2对应query内容和相对位置，E3对应于仅考虑key内容，E4对应于仅考虑相对位置）。这里数字对应着每项是否被激活（例如，0011表示E3和E4被激活，w/o表示不采用TransformerAttention）。由于Encoder-DecoderAttention机制对于NMT是必不可少的，因此（d）中没有w/o设置。一些配置的结果在图中重叠，因为它们具有相同的精度和计算开销。研究中的关键配置以红色突出显示。图中还画出了本文中SelfAttention的推荐配置「“0010+可变形卷积”」。（1）在SelfAttention中，与和query无关项相比，query敏感项起着很小的作用。特别是query和key内容项，该项对准确性的影响可忽略不计，而在图像识别任务中计算量很大。总的来说，TransformerAttention模块带来的精度提升很大（从不带TransformerAttention模块的配置（「“w/o”」）到使用完整版Transformer注意力的配置（「“1111”」））。其中，query无关项（从配置「“w/o”」到「“0011”」）带来的收益比query敏感项（从配置「“0011”」到「“1111”」）带来的收益大得多。特别地，query和key内容项E1带来的性能增益可以忽略不计。删除它（从配置「“1111”」到「“0111”」）只会导致精度微弱下降，但能大大减少图像识别任务中的计算开销。（2）在Encoder-DecoderAttention中，query和key内容项是至关重要的。如果不用E1会导致精度明显下降，而仅使用配置「“1000”「提供的精度几乎与完整版本（配置「“1111”」）相同。这是因为NMT的关键步骤是对齐源语句和目标语句中的单词。遍历query和key内容对于这种对齐是必不可少的。（3）在SelfAttention中，query内容及相对位置的项E2和仅有key内容项E3是最重要的。相应的配置「“0110”」提供的精度非常接近完整版（配置「“1111”」），同时在图像识别任务中节省了大量的计算开销。还值得注意的是，捕获显著性信息的仅有key内容项E3可以有效地提高性能，而几乎没有额外的开销。本文的研究结果与人们普遍认知相反，尤其是人们认为query敏感项，特别是query和key内容项对于TransformerAttention的成功至关重要。实验结果表明，这仅适用于Encoder-DecoderAttention场景。在SelfAttention场景中，query和k_ey内容项甚至可以删除。可变形卷积和 Transformer Attention 中 E_2 的对比图 3. 可变形卷积和 Transformer Attention 中 E_2 的对比（1）对于目标检测和语义分割，可变形卷积在准确性和效率上都大大超过E2项。对于NMT，可变形卷积在准确性和效率方面与E2项相当。在效率方面，可变形卷积不需要遍历所有关键元素。这种优势在图像上是显而易见的，因为涉及许多像素。在准确性方面，可变形卷积中的双线性插值基于特征图的局部线性假设。这种假设在图像上比在语言上更好，因为图像局部内容变化很缓慢，但语言中单词会发生突然变化。（2）可变形卷积与仅有Key内容项（「“0010+可变形卷积”」）的组合提供了最佳的准确性-效率权衡。其准确性与使用可变形卷积和完整的TransformerAttention模块（「“1111+可变形卷积”」）相当，计算开销略高于仅有可变形卷积的开销（「“w/o+可变形卷积”」）。动态卷积和 Transformer Attention 中 E_2 的对比图4.动态卷积和TransformerAttention中E_2的对比。二者都利用了query的内容信息和相对位置。在表的后四行中，E_2的空间范围也被限制到了一个固定大小，以进一步揭示其和动态卷积的区别。（1）在机器翻译中，动态卷积和TransformerAttention的E_2项性能相当，且动态卷积计算量较低。但在物体检测和语义分割中，动态卷积比E_2性能显著下降。（2）在对E_2限制空间范围与动态卷积和卷积核一致后，随着卷积核缩小，动态卷积和TransformerAttentionE_2的性能都有所下降，但是E_2还是比动态卷积性能好且计算量更低。动态卷积在图片识别任务上表现欠佳的可能原因是该模块的许多细节是为了机器翻译设计的，可能不适用于图像识别任务。本文为机器之心专栏文章，转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心（全职记者/实习生）：hr@jiqizhixin.com 投稿或寻求报道：editor@jiqizhixin.com 广告&商务合作：bd@jiqizhixin.com

上一篇：2025-05-12_RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

下一篇：2019-04-25_Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系