2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3 Spatial Attention


空间注意力可以看作是一种自适应的空间区域选择机制:关注哪里。如图 4 所示,RAM [31]、STN [32]、GENet [61] 和 Non-Local [15] 代表了不同种类的空间注意方法。RAM 代表基于 RNN 的方法。STN 代表那些使用子网络来明确预测相关区域的人。GENet 代表那些隐式使用子网络来预测软掩码以选择重要区域的方法。Non-Local 表示自注意力相关的方法。

2021综述:计算机视觉中的注意力机制(三):空间注意力

图4

图 4. 视觉注意力的发展背景。

按类别和日期排序的代表性空间注意机制。应用领域包括:Cls = 分类,FGCls = 细粒度分类,Det = 检测,SSeg = 语义分割,ISeg = 实例分割,ST = 风格迁移,Action = 动作识别,ICap = 图像字幕。Ranges 表示注意力图的范围。S 或 H 表示软注意力或硬注意力。(A) 根据预测选择区域。(B) 逐元素相乘,(C) 通过注意力图聚合信息。(I) 将网络集中在判别区域,(II) 避免对大型输入图像进行过多计算,(III) 提供更多的变换不变性,(IV) 捕获远程依赖关系,(V) 去噪输入特征图 (VI) 自适应聚合邻域信息,(七)减少归纳偏差。

2021综述:计算机视觉中的注意力机制(三):空间注意力

表4

3.3.1 RAM

2021综述:计算机视觉中的注意力机制(三):空间注意力

2021综述:计算机视觉中的注意力机制(三):空间注意力

图6

图 6. RAM中的注意力过程。(A):a glimpse传感器将图像和中心坐标作为输入并输出多个分辨率补丁。(B):a glimpse网络包括a glimpse传感器,以图像和中心坐标作为输入并输出特征向量。(C) 整个网络循环使用一个 glimpse 网络,输出预测结果以及下一个中心坐标。

这提供了一种简单但有效的方法,可以将网络集中在关键区域,从而减少网络执行的计算次数,特别是对于大输入,同时改善图像分类结果。

3.3.2 Glimpse Network


受人类如何顺序执行视觉识别的启发,Ba 等人提出了一种类似于RAM的深度循环网络,能够处理输入图像的多分辨率裁剪,称为a glimpse,用于多对象识别任务。所提出的网络使用a glimpse作为输入来更新其隐藏状态,然后在每一步预测一个新对象以及下一个a glimpse位置。a glimpse通常比整个图像小得多,这使得网络的计算效率很高。

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.3 Hard and soft attention

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.4 Attention Gate

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.5 STN

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.6 Deformable Convolutional Networks

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.7 Self-attention and variants

2021综述:计算机视觉中的注意力机制(三):空间注意力

2021综述:计算机视觉中的注意力机制(三):空间注意力

图7

图 7. 视觉Transformer。左:架构。视觉Transformer首先将图像分割成不同的块并将它们投影到特征空间中,在特征空间中,Transformer编码器对其进行处理以产生最终结果。右图:具有多头注意力核心的基本视觉Transformer模块。


2021综述:计算机视觉中的注意力机制(三):空间注意力

2021综述:计算机视觉中的注意力机制(三):空间注意力

2021综述:计算机视觉中的注意力机制(三):空间注意力

现在考虑使用局部自注意力作为基本神经网络块的几个具体工作

SASA提出使用自注意力来收集全局信息的计算量太大,而是采用局部自注意力来代替 CNN 中的所有空间卷积。作者表明,这样做可以提高速度、参数数量和结果质量。他们还探索了位置嵌入的行为,并表明相对位置嵌入是合适的。他们的工作还研究了如何将局部自注意力与卷积结合起来。

LR-Net与SASA同时出现。它还研究了如何使用局部自注意力对局部关系进行建模。一项综合研究探讨了位置嵌入、内核大小、外观可组合性和对抗性攻击的影响。

SAN探索了两种利用注意力进行局部特征聚合的模式,成对和切片。它提出了一种新的内容和通道自适应的向量注意,并从理论和实践上评估了它的有效性。除了在图像域中提供显著改进外,它还被证明在3D点云处理中很有用。

3.3.8 Vision Transformers

2021综述:计算机视觉中的注意力机制(三):空间注意力

2021综述:计算机视觉中的注意力机制(三):空间注意力

图8

图 8. 左:自注意力。右图:多头自注意力。

ViT证明纯基于注意力的网络可以比卷积神经网络获得更好的结果,尤其是对于大型数据集,如 JFT-300和ImageNet-21K。

在ViT之后,许多基于Transformer的架构,在包括图像在内的多种视觉任务中取得了优异的成绩分类、目标检测、语义分割、点云处理、动作识别和自监督学习。

3.3.9 GENet

2021综述:计算机视觉中的注意力机制(三):空间注意力

3.3.10 PSANet

2021综述:计算机视觉中的注意力机制(三):空间注意力

参考文献

[15] X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[31] V . Mnih, N. Heess, A. Graves, and K. Kavukcuoglu, “Recurrent models of visual attention,” 2014.

[32] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” 2016.

[61] J. Hu, L. Shen, S. Albanie, G. Sun, and A. V edaldi, “Gather-excite: Exploiting feature context in convolutional neural networks,” 2019.

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章