2021综述：计算机视觉中的注意力机制（一）

科技 07-17 来源： CV成长笔记

计算机视觉中的注意力机制：一项调查

论文题目：Attention Mechanisms in Computer Vision: A Survey
”

paper是清华大学计图团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作，2021年在ArXiv上发布的工作
”

论文链接：链接[1]
”

Abstract

人类可以自然而有效地在复杂场景中找到显著区域。受这一观察的启发，注意力机制被引入计算机视觉，目的是模仿人类视觉系统的这一方面。这种注意力机制可以看作是基于输入图像特征的动态权重调整过程。注意力机制在许多视觉任务中取得了巨大成功，包括图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务和自监督学习。在本次调查中，全面综述了计算机视觉中的各种注意力机制，并根据方法对其进行了分类，例如通道注意力、空间注意力、时间注意力和分支注意力；相关存储库 链接[2] 专门收集相关工作。作者还提出了注意力机制研究的未来方向。

Index Terms :注意力,Transformer,调查,计算机视觉,深度学习,显著
”

1 INTRODUCTION

将注意力转移到图像中最重要的区域而忽略不相关的部分的方法被称为注意力机制；人类的视觉系统使用了一种[1], [2], [3], [4]，以协助高效和有效地分析和理解复杂的场景。这反过来又启发了研究人员将注意力机制引入计算机视觉系统以提高其性能。在视觉系统中，注意力机制可以被视为一个动态选择过程，通过根据输入的重要性对特征进行自适应加权来实现。注意力机制在许多视觉任务中都有帮助，例如图像分类, 目标检测, 语义分割, 人脸识别, 行人重识别、动作识别、少量显示学习、医学图像处理、图像生成、姿态估计、超分辨率、3D 视觉和多模态任务。

在过去的十年中，注意力机制在计算机视觉中发挥着越来越重要的作用；图3简要总结了深度学习时代计算机视觉中基于注意力的模型的历史。进展可以粗略地分为四个阶段。

第一阶段从RAM开始，这是一项将深度神经网络与注意力机制相结合的开创性工作。它通过策略梯度以端到端的方式循环预测重要区域并更新整个网络。后来，各种工作采用了类似的视觉注意力策略。在这个阶段，循环神经网络（RNN）是注意力机制的必要工具。
在第二阶段开始时，Jaderberg等人提出了STN，它引入了一个子网络来预测用于选择输入中重要区域的仿射变换。显式预测有区别的输入特征是第二阶段的主要特征；DCNs是代表工作。
第三阶段从SENet开始，它提出了一种新的通道注意力网络，它隐式地和自适应地预测潜在的关键特征。CBAM和ECANet是这一阶段的代表工作。
最后一个阶段是自注意力时代。自注意力在 [33] 中首次提出，并迅速在自然语言处理领域取得了巨大进展。Wang等人率先将自注意力引入计算机视觉，并提出了一种新的非局部网络，在视频理解和目标检测方面取得了巨大成功。随后是EMANet、CCNet、HamNet和Stand-Alone Network等一系列工作，提高了速度、结果质量和泛化能力。最近出现了各种纯深度自注意力网络（视觉transformer），展现了基于注意力的模型的巨大潜力。很明显，基于注意力的模型有可能取代卷积神经网络，成为计算机视觉中更强大、更通用的架构。

图3

图 3. 计算机视觉注意力主要发展的简要总结，大致分为四个阶段。第 1 阶段采用 RNN 来构建注意力，一种代表性的方法是 RAM [31]。第 2 阶段明确预测了重要区域，一种代表性的方法是 STN [32]。第 3 阶段隐含地完成了注意力过程，一个具有代表性的方法是 SENet [5]。第 4 阶段使用了自我注意方法 [15]、[33]、[34]。

本文的目的是总结和分类当前计算机视觉中的注意力方法。本文的方法如图1所示，并在图2中进一步解释：它基于数据域。有些方法考虑到重要数据发生的时间，或其他人发生的地点等问题，并相应地试图找到数据中的关键时间或地点。本文将现有的注意力方法分为六类，其中包括四个基本类别：通道注意力（注意什么）、空间注意力（注意哪里）、时间注意力（何时注意）和分支注意力（注意哪些），以及两个混合组合类别：通道和空间注意力和空间和时间注意力。这些观点与相关工作一起在表2中进一步简要总结。

图1

图 1. 注意力机制可以根据数据域进行分类。其中包括通道注意力、空间注意力、时间注意力和分支注意力的四个基本类别，以及结合通道和空间注意力和空间和时间注意力的两个混合类别。表示这种组合（尚）不存在。

本文的主要贡献是：

对视觉注意方法的系统回顾，涵盖注意力机制的统一描述、视觉注意力机制的发展以及当前的研究，
根据数据领域对注意力方法进行分类，能够将视觉注意力方法与它们的特定应用联系起来，以及对未来视觉注意力研究的建议。

第2节考虑了相关的调查，然后第3节是作者调查的主要内容。第4节给出了对未来研究的建议，最后，作者在第5节给出了结论。

2 OTHER SURVEYS

在本节中，作者将本文与现有的各种调查进行了简要比较，这些调查综述了注意力方法和视觉transformer。Chaudhari等人对深度神经网络中的注意力模型进行了调查，重点关注它们在自然语言处理中的应用，而本文的工作则侧重于计算机视觉。三个更具体的调查 [141]、[142]、[143] 总结了视觉transformer的发展，而本文更广泛地综述了视觉中的注意力机制，而不仅仅是自注意力机制。Wang等人对计算机视觉中的注意力模型进行了调查，但它只考虑了基于RNN的注意力模型，这只是本文调查的一部分。此外，与以前的调查不同，本文提供了一个分类，该分类根据其数据域而不是根据其应用领域对各种注意方法进行分组。这样做可以专注于注意力方法本身，而不是将它们视为其他任务的补充。

参考文献

[1] L. Itti, C. Koch, and E. Niebur,“A model of saliency-based visual attention for rapid scene analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254–1259, 1998.

[2] M. Hayhoe and D. Ballard,“Eye movements in natural behavior,” Trends in cognitive sciences, vol. 9, no. 4, pp. 188–194, 2005.

[3] R. A. Rensink,“The dynamic representation of scenes,” Visual cognition, vol. 7, no. 1-3, pp. 17–42, 2000.

[4] M. Corbetta and G. L. Shulman,“Control of goal-directed and stimulus-driven attention in the brain,” Nature reviews neuroscience, vol. 3, no. 3, pp. 201–215, 2002.

[5] J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu,“Squeeze-andexcitation networks,” 2019.

[15] X. Wang, R. Girshick, A. Gupta, and K. He,“Non-local neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[31] V. Mnih, N. Heess, A. Graves, and K. Kavukcuoglu,“Recurrent models of visual attention,” 2014.

[32] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” 2016.

[33] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,“Attention is all you need,” 2017.

[34] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby,“An image is worth 16x16 words: Transformers for image recognition at scale,” ICLR, 2021.

[141] Y. Xu, H. Wei, M. Lin, Y. Deng, K. Sheng, M. Zhang, F. Tang, W. Dong, F. Huang, and C. Xu,“Transformers in computational visual media: A survey,” Computational Visual Media, vol. 8, no. 1, pp. 33–62, 2022.

[142] K. Han, Y. Wang, H. Chen, X. Chen, J. Guo, Z. Liu, Y. Tang, A. Xiao, C. Xu, Y. Xu, Z. Yang, Y. Zhang, and D. Tao,“A survey on visual transformer,” 2021.

[143] S. Khan, M. Naseer, M. Hayat, S. W. Zamir, F. S. Khan, and M. Shah, “Transformers in vision: A survey,” 2021.