Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity
Cheng Luo Qinliang Lin Weicheng Xie Bizhu Wu Jinheng Xie Linlin Shen
Shenzhen University
导读
论文Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity发表在计算机视觉和模式识别顶级会议CVPR 2022上,由深圳大学计算机与软件学院计算机视觉研究所沈琳琳团队情感计算课题组完成。
项目主页:https://github.com/LinQinLiang/SSAH-adversarial-attack
该工作提出了一种基于频率空间约束的新型对抗攻击方法,该方法将对抗噪声限制在图片的高频成分当中,确保人眼对噪声的感知相似性比较低;在攻击分类模型方面,采取增大对抗样本和随机选取的样本的特征语义相似性,而减小对抗样本和原图特征相似度的攻击方式。该方法跳出了原有基于Lp范数约束的框架,并提供了在频率空间进行对抗噪声生成和约束的新思路。
引言
传统的不可见对抗攻击主要通过提升分类损失来反向传播得到梯度,而且还采用Lp范数距离来约束良性图片和对抗样本的视觉差异性。然而,传统的方法可能会带来对抗样本跨数据集泛化性能较低以及较差的人眼不可见性的问题;相比之下,在特征空间进行对抗攻击能够规避在分类层进行攻击的弱点,并且,将对抗噪声约束到特殊的域中能使得对抗噪声更加隐蔽。因此,本文提出了一种语义相似性攻击(SSA)方法并使用了一个低频约束来将噪声限制在高频空间当中。
上图是我们的方法和其他攻击方法的生成的对抗样本和对抗噪声的对比。先前的工作已经证明了距离度量[2-4]不足以评估感知相似性,换句话说,视觉上的不可感知性不能仅仅使用扰动强度来明确地体现,例如著名的攻击方法C&W[1],即使达到了比较好的约束效果,但是仍然容易在平滑的背景上产生容易察觉的扰动,如上图(a)所示。因此我们提出了基于低频约束的语义相似性对抗攻击,它从频率空间来衡量人眼的不可感知性,达到了较高的扰动不可见性的效果,如上图(b)和(c)所示。
技术贡献
本工作主要贡献如下:
方法介绍
该方法的具体流程如图1所示。其输入为能被目标模型分类正确的一个批次的图片,值得注意的是,与以往的方法不同,在我们的方法中,批次的大小也会影响攻击的效果。
首先,我们介绍我们的语义相似性攻击方法。如上图左边,我们将图片输入到目标模型中获取每一张图片在特征空间的高维表示;然后,我们为每一个待攻击的样本,从生成的批量高维表示中,抽取与其相似度最低的样本作为正样本,以拉近它们的余弦距离;将攻击样本自身作为负样本,拉远与对抗样本的余弦相似度,从而达到在高维特征空间进行语义相似性攻击的目的;同时,我们还使用了自适应的权重,根据余弦相似度的大小来自适应地调整攻击强度;最后,我们将以上流程进行有限次的迭代,通过反向传播,对对抗样本进行更新,得到在语义空间上和原来样本完全不同的一个结果。
接下来将具体介绍我们对对抗噪声低频成分的约束。从频域的角度来看,代表噪声和纹理的高频分量比包含基本对象结构的低频分量更加令人难以察觉。离散小波变换(DWT)[5]作为一种时频分析工具,能够将一幅图像分解为一个低频分量和三个高频分量xll,xlh,xhl,xhh。xll保存了原始图像的低频信息。相反地,逆离散小波变换(IDWT)能够使用上述四个分量来重建图片ϕ(x)。在我们的低频约束中,我们去掉了高频分量,重建了一个只有低频分量的图片,因此,我们在原样本和对抗样本之间开发了一个新的约束条件,低频成分约束:
我们将上述的攻击方法和约束条件统一在一起,形成了我们提出的基于低频约束的语义相似性攻击方法。网络使用的损失函数为:
其中,Dlf (x,x’) 可以确保对抗噪声受到低频空间的约束,LSSA使得对抗样本在高维空间表示进行攻击,使得对抗噪声的跨数据集和跨网络架构能力更强,并在视觉感知上和原图尽可能接近。
结果展示
如图2所示,该方法可以自动生成大量高频噪声,将噪声隐藏在人眼不可见的高频空间,在同样的攻击成功率之下,我们的方法对于人眼系统的不可见性更加高。
总结展望
不可见攻击已经被应用于安全(对合法分类器的推断部分进行保护)和隐私(防止非法分类器对图片进行推断)领域[6]。在安全领域,难以察觉的扰动可能意味着对抗性图像可以在毒害训练数据的情况下,而不被人类注意到。而在隐私领域,难以察觉的对抗扰动意味着更广泛地接受使用对抗样本,来防止恶意分类器对我们个人隐私的攻击。我们的工作对最近的工作做出了贡献,这些工作试图创造出人类观察者眼中无法察觉的敌对图像,我们从特殊的频率空间创造了对抗样本,并为接下来不可见对抗攻击提供了新的解决思路。
思考讨论
Q: 文章中的实验数据集主要是ImageNet、CIFAR10等这些公开通用的自然数据集,能不能泛化到未见过的数据集,也就是我们称为开集(open set)上面?A: 可以。我们在文章中还对目前市面几个主流的分类API进行了实验,我们测试了我们的攻击方法对于百度、微软以及谷歌提供的在线图片分类API的攻击效果,也取得了一个比较好的黑盒攻击成功率。 以下是开放性问题,欢迎读者朋友留言讨论: Q: 对于不可见攻击,不可见性和攻击成功率的trade-off问题一直是一个研究热点问题,找到最高攻击成功率下,使得对抗噪声对人眼最不可见,是一个带约束的优化问题,有没有更的优化方式?
参考文献
[1] Nicholas Carlini and David Wagner. Towards evaluating the robustness of neural networks. In IEEE Symposium on Security and Privacy (S&P), pages 39–57, 2017. 1, 2, 6, 8 [2] Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, AK Qin, and Yuan He. Advdrop: Adversarial attack to dnns by dropping information. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 7506– 7515, 2021. 6, 8[3] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. In International Conference on Learning Representations (ICLR), 2015. 1, 2 [4] Muhammad Zaid Hameed and Andras Gyorgy. Perceptually constrained adversarial attacks. arXiv preprint arXiv:2102.07140, 2021. 2 [5] Qiufu Li, Linlin Shen, Sheng Guo, and Zhihui Lai. Wavelet integrated cnns for noise-robust image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7245–7254, 2020.3 [6] Zhengyu Zhao, Zhuoran Liu, and Martha Larson. Towards large yet imperceptible adversarial image perturbations with perceptual color distance. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1039–1048, 2020. 2, 5, 6,
留言与评论(共有 0 条评论) “” |