论文题目:Attention Mechanisms in Computer Vision: A Survey
”
paper是清华大学计图团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作,2021年在ArXiv上发布的工作
”
论文链接:链接[1]
”
人类可以自然而有效地在复杂场景中找到显著区域。受这一观察的启发,注意力机制被引入计算机视觉,目的是模仿人类视觉系统的这一方面。这种注意力机制可以看作是基于输入图像特征的动态权重调整过程。注意力机制在许多视觉任务中取得了巨大成功,包括图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务和自监督学习。在本次调查中,全面综述了计算机视觉中的各种注意力机制,并根据方法对其进行了分类,例如通道注意力、空间注意力、时间注意力和分支注意力;相关存储库 链接[2] 专门收集相关工作。作者还提出了注意力机制研究的未来方向。
Index Terms :注意力,Transformer,调查,计算机视觉,深度学习,显著
”
将注意力转移到图像中最重要的区域而忽略不相关的部分的方法被称为注意力机制;人类的视觉系统使用了一种[1], [2], [3], [4],以协助高效和有效地分析和理解复杂的场景。这反过来又启发了研究人员将注意力机制引入计算机视觉系统以提高其性能。在视觉系统中,注意力机制可以被视为一个动态选择过程,通过根据输入的重要性对特征进行自适应加权来实现。注意力机制在许多视觉任务中都有帮助,例如图像分类, 目标检测, 语义分割, 人脸识别, 行人重识别、动作识别、少量显示学习、医学图像处理、图像生成、姿态估计、超分辨率、3D 视觉和多模态任务。
在过去的十年中,注意力机制在计算机视觉中发挥着越来越重要的作用;图3简要总结了深度学习时代计算机视觉中基于注意力的模型的历史。进展可以粗略地分为四个阶段。
图3
图 3. 计算机视觉注意力主要发展的简要总结,大致分为四个阶段。第 1 阶段采用 RNN 来构建注意力,一种代表性的方法是 RAM [31]。第 2 阶段明确预测了重要区域,一种代表性的方法是 STN [32]。第 3 阶段隐含地完成了注意力过程,一个具有代表性的方法是 SENet [5]。第 4 阶段使用了自我注意方法 [15]、[33]、[34]。
本文的目的是总结和分类当前计算机视觉中的注意力方法。本文的方法如图1所示,并在图2中进一步解释:它基于数据域。有些方法考虑到重要数据发生的时间,或其他人发生的地点等问题,并相应地试图找到数据中的关键时间或地点。本文将现有的注意力方法分为六类,其中包括四个基本类别:通道注意力(注意什么)、空间注意力(注意哪里)、时间注意力(何时注意)和分支注意力(注意哪些),以及两个混合组合类别:通道和空间注意力和空间和时间注意力。这些观点与相关工作一起在表2中进一步简要总结。
图1
图 1. 注意力机制可以根据数据域进行分类。其中包括通道注意力、空间注意力、时间注意力和分支注意力的四个基本类别,以及结合通道和空间注意力和空间和时间注意力的两个混合类别。表示这种组合(尚)不存在。
本文的主要贡献是:
第2节考虑了相关的调查,然后第3节是作者调查的主要内容。第4节给出了对未来研究的建议,最后,作者在第5节给出了结论。
在本节中,作者将本文与现有的各种调查进行了简要比较,这些调查综述了注意力方法和视觉transformer。Chaudhari等人对深度神经网络中的注意力模型进行了调查,重点关注它们在自然语言处理中的应用,而本文的工作则侧重于计算机视觉。三个更具体的调查 [141]、[142]、[143] 总结了视觉transformer的发展,而本文更广泛地综述了视觉中的注意力机制,而不仅仅是自注意力机制。Wang等人对计算机视觉中的注意力模型进行了调查,但它只考虑了基于RNN的注意力模型,这只是本文调查的一部分。此外,与以前的调查不同,本文提供了一个分类,该分类根据其数据域而不是根据其应用领域对各种注意方法进行分组。这样做可以专注于注意力方法本身,而不是将它们视为其他任务的补充。
[1] L. Itti, C. Koch, and E. Niebur,“A model of saliency-based visual attention for rapid scene analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254–1259, 1998.
[2] M. Hayhoe and D. Ballard,“Eye movements in natural behavior,” Trends in cognitive sciences, vol. 9, no. 4, pp. 188–194, 2005.
[3] R. A. Rensink,“The dynamic representation of scenes,” Visual cognition, vol. 7, no. 1-3, pp. 17–42, 2000.
[4] M. Corbetta and G. L. Shulman,“Control of goal-directed and stimulus-driven attention in the brain,” Nature reviews neuroscience, vol. 3, no. 3, pp. 201–215, 2002.
[5] J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu,“Squeeze-andexcitation networks,” 2019.
[15] X. Wang, R. Girshick, A. Gupta, and K. He,“Non-local neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[31] V. Mnih, N. Heess, A. Graves, and K. Kavukcuoglu,“Recurrent models of visual attention,” 2014.
[32] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” 2016.
[33] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,“Attention is all you need,” 2017.
[34] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby,“An image is worth 16x16 words: Transformers for image recognition at scale,” ICLR, 2021.
[141] Y. Xu, H. Wei, M. Lin, Y. Deng, K. Sheng, M. Zhang, F. Tang, W. Dong, F. Huang, and C. Xu,“Transformers in computational visual media: A survey,” Computational Visual Media, vol. 8, no. 1, pp. 33–62, 2022.
[142] K. Han, Y. Wang, H. Chen, X. Chen, J. Guo, Z. Liu, Y. Tang, A. Xiao, C. Xu, Y. Xu, Z. Yang, Y. Zhang, and D. Tao,“A survey on visual transformer,” 2021.
[143] S. Khan, M. Naseer, M. Hayat, S. W. Zamir, F. S. Khan, and M. Shah, “Transformers in vision: A survey,” 2021.
[1] 链接: https://arxiv.org/pdf/2111.07624.pdf
[2] 链接: https://github.com/MenghaoGuo/Awesome-Vision-Attentions
留言与评论(共有 0 条评论) “” |