论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration

2023-05-16

CVPR2020-通过选择性特征再生防御通用攻击

有一段时间自己看的论文都没有把相应的翻译或者笔记整理成文档的形式了，虽然在PDF上会有一些标注，但是觉得还是成稿的形式会方便很长一段时间之后回过头继续看及时回顾起来。

摘要

深度神经网络(DNN)的预测已经被证明容易受到精心设计的对抗性扰动的影响。特别地是，向任何图像中添加图像不可知的扰动（即通用对抗扰动）都可以欺骗目标网络，使其做出错误的预测。现有的防御策略主要在图像域进行，而我们提出了一种在DNN特征域进行防御的新型防御策略，有效地防御了这种通用扰动。我们的方法识别出最容易受到对抗噪声影响的预训练卷积特征，并部署了可训练的特征再生单元，将这些DNN滤波器激活转换成对通用扰动具有鲁棒性的弹性特征。在最多6个DNN层中只恢复最高50%的相对敏感性活动，并保持所有剩余的DNN活动不变，我们在恢复精度上比现有的跨不同网络架构的防护策略提高了10%以上。我们证明，在没有任何额外修改的情况下，我们在ImageNet上用一种类型的通用攻击样本进行的防御训练能有效防御其他类型的未知通用攻击。

介绍

尽管DNN在计算机视觉任务中不断取得成功并得到广泛应用[25,59,62,18,55,54,58,68]，当一个小幅度的、精心设计的扰动(对抗噪声)，人们几乎察觉不到它的存在，被添加到一个输入图像中时，这些网络还是做出了错误的预测[63,15,35,6,24,41,48,26,49]。此外，这种干扰已经成功地通过物理对抗样本[3,12,26]放置在现实世界的场景中，从而构成了安全风险。

大多数现有的对抗性攻击都使用目标网络模型梯度来构建一个依赖于图像的对抗样本[63,15,26,41,49,6]，限制了在其他网络或图像上的迁移性[63,32,47]。其他产生依赖图像的对抗样本的方法包括只访问网络预测结果[20,46,61]，使用替代网络[48]和梯度近似[2]。虽然之前在对抗防御方面已经做了大量的工作，例如对抗性训练[63,15,35,66]，集成训练[64]，随机图像转换和去噪[16,52,10,40,52,60,10,33,31]，以及对抗性样本排斥[29,34,67,36,37]，DNN仍然是脆弱的，在面向这种添加到输入不可忽视部分的对抗扰动时[2,65]。这些防御措施主要集中在使DNN对依赖图像的对抗性扰动具有鲁棒性，而图像相关的对抗性扰动在现实的视觉应用中不太可能遇到[1,45]。

我们提出的工作重点是防御通用对抗性攻击。与前面提到的依赖图像的对抗性攻击不同，通用对抗性攻击[38,44,43,51,23,45,53,42,30]构建了一个单一的图像不可知的扰动，当添加到任何未知的图像可以以高置信度愚弄模型输出错误的结果。这些通用的扰动也不是唯一的，许多对抗的方向可能存在于Dnn的特征空间(图1，第2行)[39,14，]。此外，对一个DNN产生的通用扰动可以迁移到其他DNN，使它们具有双重通用性[38]。这种与图像无关的干扰为许多视觉应用提供了一个强有力的现实威胁模型[45]，因为扰动可以很容易地预先计算，然后实时地插入到任何场景中(以打印的对抗性补丁或贴纸的形式)[28,5]。例如，当执行语义分割时，这种图像不可知扰动可以在分割后的场景输出中完全隐藏目标类(即行人)，并对自动驾驶汽车的刹车行为产生不利影响[19]。

这项工作提出了一种新颖的防御方法来对抗通用的对抗性威胁模型[38,43,44,51,23,45]，有以下贡献:

1.我们证明了一组易受攻击的卷积滤波器的存在，它们对DNN在对抗环境下的错误预测负有很大的责任，“卷积滤波器权重的1-norm”可用于识别这类滤波器。

2.与现有的图像域防御不同的是，我们提出的DNN特征空间防御使用可训练的特征再生单元，将上述易受攻击的卷积滤波器再生为弹性特征(对抗性噪声掩蔽)。

3.提出了一种为训练产生强合成对抗扰动的快速方法。

4.我们在一系列DNN体系结构上广泛评估了提出的防御方案，并表明我们提出的防御方案优于所有其他现有的防御方案[1,52,66,31,35,45](图1)。

5.在没有任何额外的特定攻击训练的情况下，我们的防御系统针对一种通用攻击[38]有效地防御其他不同的未知通用攻击[44,43,51,45,23,42](图1)，我们是第一个在不同的通用攻击中显示如此广的泛化性能的防御方法。

图1.提出的防御对各种通用扰动的效果：第1行展示了受到不同通用攻击（UAP [38]，NAG [44]，GAP [51]和sPGD）干扰的图像（类别标签：“冰淇淋”） [45]），第二行展示了不同的通用扰动之间的差异。第3行显示了提出的防御方法和次优防御方法（PRN [1]，PD [52]，FD [66]和HGD [31]）的预测和置信度得分。我们的方法有效地防御了每个通用攻击，以较高的置信度正确分类图像（绿色），而所有其他防御将图像错误分类（红色）。

通用威胁模型

令µc表示Rd中干净（不受干扰）图像的分布，F(·)是一个预测器，可预测图像x∈Rd的类别标签F(x)。通用对抗扰动攻击在以下约束条件下寻找扰动向量v∈Rd [38]：

其中P（·）表示概率，||.||p是p∈[1，∞]的lp-范数，（1-δ）是δ∈[0，1）的目标愚弄率（即干净样本在受到对抗干扰时改变标签的占比），并且ξ控制对抗扰动的大小。

特征域对抗防御

在这项工作中，我们评估了单个卷积过滤器的脆弱性并表明，对于每一层，某些过滤器激活的破坏性明显大于其他过滤器，尤其是在DNN的前几层。
对于给定的层，令φm（u）为第m个卷积滤波器的输出（激活图），其中输入u的kernel权重为Wm。令em =φm（u + r）−φm（u）是由于在输入u上施加了附加扰动r而在输出激活图φm（u）中引起的附加噪声（扰动）。可以证明（请参阅补充材料）em的边界如下：

像以前一样||.||p是p∈[1，∞）的L-p范数。公式2表明，卷积核权重的L1-范数可用于识别和限制卷积滤波器激活的能力，以限制它们在其激活图中的扰动。例如，当滤波器的输入受到扰动时，权重的L-1范数较小的滤波器将在输出中产生微不足道的小扰动，因此被认为没那么容易受到输入扰动的影响。对于L∞-范数的通用对抗输入，图2a显示了CaffeNet [25]和GoogLeNet [62]的排名（使用提出的L1-范数排名）conv-1滤波器激活的对抗噪声上限。图2b显示了在相应的DNN滤波器激活中对抗性噪声的相应观测到的L∞范数。我们可以看到，基于||W||1的排名与滤波器输出中引起的扰动程度（噪声扰动的最大量）具有很好的相关性。网络中的其他卷积层也可以进行类似的观察。

图2 在CaffeNet [25]和GoogLeNet [62]第一层的卷积滤波器（使用我们的L1-norm排名度量，从最弱到最不脆弱）的激活图中观察到的通用对抗性噪声的L∞范数。 L∞-范数攻击用于ξ≤10，即||r||∞≤10。（a）DNN在排序conv-1滤波器激活中的对抗性噪声上限（公式2）。（b）在DNN的排序conv-1滤波器激活中观察到对抗性噪声的L∞范数。

在图3中，我们评估了在这种排名的滤波器中掩盖对抗性噪声对CaffeNet [25]，VGG-16 [59]和GoogLeNet [62]的top-1准确性的影响。具体来说，我们从ImageNet [9]训练集中随机选择1000个图像的子集（每个类别1个图像），并通过添加L∞-范数通用对抗性扰动来生成对抗性扰动图像[38]。对于CaffeNet，GoogLeNet和VGG-16，干净图像的top1精度分别为0.58、0.70和0.69。同样，对于CaffeNet，GoogLeNet和VGG-16，相同子集的对抗性扰动图像的top1精度分别为0.10、0.25和0.25。在50％最脆弱的过滤器激活中掩盖对抗性扰动可显着改善DNN性能，从而使CaffeNet，GoogLeNet和VGG-16的top-1精度分别为0.56、0.68和0.67，并验证了我们提出的选择性特征再生方案。有关更高层的类似实验，请参见补充材料中的图1。

图3.对CaffeNet [25]，GoogLeNet [62]和VGG-16 [59]的第一层进行排序的卷积滤波器激活中掩盖L∞-范数通用对抗性噪声的效果，在ImageNet的1000个图像子集上进行了评估 [9]训练集。对于CaffeNet，GoogLeNet和VGG-16，无扰动图像的top1acc分别为0.58、0.70和0.69。类似地，CaffeNet，GoogLeNet和VGG-16的无噪声掩盖的对抗性扰动图像的top-1精度分别为0.1、0.25和0.25。在排名仅50％的滤波器激活中掩盖噪声，可以恢复所有三个DNN的大部分精度损失。

4.2弹性特征再生防御

我们提出的防御措施如图4所示。我们学习了任务驱动的特征恢复转换（即特征重新生成单元），用于对抗性输入严重破坏的卷积滤波器激活。我们的特征再生单元不会修改基线DNN的其余激活。在文献[4]中已经探索了一种类似的方法来学习校正变换，以使网络对图像模糊和加性高斯白噪声更具弹性。
令Sl代表由DNN的第l层中的卷积滤波器的索引组成的集合。此外，令Slreg为我们希望再生的过滤器的索引集（第4.1节），令Sladv为激活不用再生的过滤器的索引集（即Sl = Slreg∪Sladv）。如果ΦSlreg表示在第l层中重新生成的卷积滤波器输出，则我们的第l层中的特征再生单元将在以下条件下执行特征再生变换Dl（·）：

其中u是卷积滤波器第l层的无扰输入，r是作用于u的扰动。在等式3和4中，‘’约等于号‘’基于分类精度的相似性，表示特征被恢复以重新获得原始的无扰动激活图的分类精度的意义上。等式3迫使Dl（·）进行任务驱动的特征再生，以恢复DNN的精度损失，而等式4确保在没有任何额外的对抗性扰动检测器的情况下，不会降低未扰动激活的预测精度。我们将Dl（·）（即特征再生单元）实现为浅层残差块[18]，它由两个堆叠的3×3卷积层夹在一对1×1卷积层和一个skip连接之间。 D1（·）是使用基线网络通过反向传播的目标损失来估计的，请参见图4，但是与基线网络相比，可训练参数明显更少。

图4 弹性特征再生防御：首先使用各自的权重过滤器对基线DNN（图中顶部）中的卷积滤波器激活进行排序，根据其易于受到对抗性噪声影响的程度（第4.1节）。对于每个要考虑的层，我们都使用一个特征再生单元，该单元由一个残差块和一个单跳连接（4层）组成，仅将最具对抗性的敏感激活再生为弹性特征，以恢复基线DNN失去的准确性，同时保持其余过滤器激活不变。我们使用与基准DNN相同的目标损失，在每个mini-batch中的干净和扰动图像上训练这些单元，以使基准DNN的所有参数在训练过程中保持不变。

给定一个针对图像分类任务进行了预训练的L层DNNΦ，则Φ可以表示为将网络输入x映射到N维输出标签矢量Φ（x）的函数，如下所示：

其中Φl是表示第l个DNN层的映射函数（卷积滤波器组后跟非线性），而N是DNN输出的维度（即类别数）。在不失一般性的前提下，在部署了一个特征再生单元作用于第l层中由Slreg表示的一组滤波器上运行，其结果为：

其中Φlreg表示第l层的新映射函数，因此Dl（·）仅重新生成过滤器子集ΦSlreg的激活，而所有其余过滤器激活（即ΦSladv）保持不变。如果Dl（·）由θl参数化，则特征再生单元可以通过最小化来训练：

其中L是基准DNN的相同目标损失函数（例如，交叉熵分类损失），yk是第k个输入图像xk的目标输出标签，K表示训练集中的图像总数，包括干净和扰动的图像。由于我们在训练期间同时使用了干净的图像和扰动的图像，因此公式7中的xk表示干净的图像或对抗扰动的图像。
在图5中，我们可视化了受各种通用扰动干扰的DNN特征图以及由我们的特征再生单元所再生的相应特征图，这些特征图仅在UAP [38]攻击样本中进行了训练。与无扰动特征图（干净）相比，对抗性扰动图像的相应特征图（行1）具有明显可见的伪像，这些伪像反映了图像主要部分的通用扰动模式。相比之下，由我们的特征再生单元（第2行）再生的特征图有效地抑制了这些对抗性扰动，保留了干净特征图的对象区分属性，并且对于未知的攻击也具有鲁棒性（例如，NAG [44]， GAP [51]和sPGD [45]），如图5和表5所示。

图5.在DNN特征图中，特征再生单元掩盖对抗性扰动的有效性，用于受到通用扰动（UAP [38]，NAG [44]，GAP [51]和sPGD [45]）扰动的图像。对于VGG-16的conv1_1层中的单个过滤器通道，可以获得无扰动的特征图（纯净），不同的对抗性扰动的特征图（行1）和由特征再生单元再生的相应特征图（行2）[59]，以及特征图中小区域的放大图（黄色框）。特征再生单元仅在UAP [38]攻击示例上受过训练，但是在抑制由看不见的攻击（例如NAG [44]，GAP [51]和sPGD [45]）产生的对抗伪像方面非常有效。

4.3生成合成扰动

基于训练的方法容易出现数据过度拟合的情况，尤其是在训练数据稀缺或多样性不足的情况下。为了避免过度拟合，使用现有的攻击算法（例如[38、44、51、45]）生成各种对抗性扰动（≥100）可能会在计算上受到阻碍。我们提出了一种快速方法（算法1），使用任何现有的通用攻击生成方法（[38、44、51、45 ]）可以从一小部分对抗性扰动V⊆Rd构造合成的通用对抗性扰动。从将合成扰动vsyn设置为零开始，我们迭代地选择一个随机扰动vnew∈V和一个随机比例因子α∈[0，1]并更新vsyn，如下所示：

其中t是迭代次数。重复该过程直到vsyn的L2-范数超过阈值η。我们将阈值η设为集合V中扰动的最小L2-范数，其中t是迭代次数。

与Akhtar等人的方法不同。 [1]，它使用沿着预先计算的对抗方向的迭代随机游走，所提出的算法具有两个明显的优点：

相同的算法可用于不同类型的攻击准则，而无需进行任何修改，并且2）公式8（算法1中的步骤5）自动确保扰动的L∞范数不违反L∞范数的约束，因此，不需要额外的步骤，例如计算单独的扰动单位矢量，并确保所产生的扰动强度小于ξ。

5.评定
在实验中，我们将ImageNet验证集（ILSVRC2012）[9]用于所有50000张图像和sigle crop evaluation（除非另有说明）。我们所有的实验都是使用Caffe [21]实现的，对于每一次测试攻击，我们都使用公开提供的代码。我们根据top-1精度和Akhtar等人提出的恢复精度 [1]报告了我们的结果。给定包含干净图像的Ic集和包含相等数量的干净和扰动图像的Ip / c集，恢复精度由下式给出：

其中acc（·）是top1精度。我们使用通用对抗攻击（UAP）攻击[38]进行评估（除非另行指定），并使用从ImageNet随机选择的10000个保留图像集来计算每个网络5个独立的通用对抗扰动。每个扰动的虚假率下限为0.8，而同一DNN的任何两个扰动之间的最大归一化内积上限为0.15。

5.1防御训练方法
在我们提出的防御中（图4），仅需训练特征再生单元的参数，并更新这些参数以最小化方程7给出的代价函数。尽管我们期望防御模型的预测性能通过更高的再生率（卷积过滤器激活重生的占比）来改善，我们仅在一层中再生了50％的卷积过滤器激活，并限制了部署的特征再生单元的数量（每层1个）min（#DNN层，6）1。使用算法1，我们从25个原始扰动的集合V中生成2000个合成扰动[38]，并使用标准的SGD优化器在单个Nvidia Titan-X上训练特征再生单元，动量为0.9，重量衰减为0.0005。 ImageNet训练集的4个epoch[9]。在每个epoch之后，初始学习率为0.1，学习率下降10倍。在对防御模型进行了上述概述的训练之后，我们可以通过对防御进行额外的对抗性扰动来进一步迭代防御训练，从而确保对防御防御的次要攻击具有鲁棒性（第5.2.5节））。

5.2分析和比较

5.2.1 DNN架构的稳健性
表1列出了白盒（用于生成和测试攻击的同一网络）和黑盒（经过测试的网络）下各种DNN的对抗扰动测试图像的top-1准确性（无防御）以及我们为各DNN提出的防御建议与用于生成攻击的网络不同）。由于普遍的对抗性摄动可能是双重的，因此在黑盒设置下，我们针对针对不同网络所产生的摄动评估了目标DNN防御（针对目标DNN的攻击进行了防御训练）。基准DNN的Top-1准确性会受到白盒和黑盒攻击的严重影响，而我们提出的防御措施不仅能够有效地阻止白盒攻击，而且还能够推广到针对其他网络构建的攻击而无需进一步训练（表1）。由于不同的DNN可以在其特征空间中共享常见的对抗方向，因此我们的特征再生单元将学习如何针对看不见的数据对这些方向进行规范化，从而防御黑盒攻击。

5.2.2攻击规范的稳健性
在这里，我们评估了针对L∞范式和L2范式UAP [38]攻击的防御鲁棒性。由于有效的防御不仅必须针对敌方图像恢复DNN精度，而且还必须保持对干净图像的高精度，因此我们使用恢复精度（公式9）来衡量对抗防御的鲁棒性（表2和3）。而阿赫塔尔等。 [1]（PRN和PRN + det）仅报告针对UAP攻击的防御结果[38]，我们还将结果与像素域防御（例如，像素偏转（PD [52]）和高级制导降噪器（HGD））进行比较[31]），使用JPEG压缩（JPEG comp.[10]）或基于DNN的压缩（例如Feature Distillation（Feat.Distill[33]））的防御，使用一些对抗训练的变体，例如Feature Denoising（FD [ 66]）和标准对抗训练（Adv.tr. [35]）。
在表2中，我们报告了针对各种DNN的L∞-范数UAP攻击[38]的结果，并表明，对于所有网络，我们提出的防御性能优于所有其他防御2，其恢复准确度最高（98.2％），低于Res152 [18]实现。我们的特征再生单元经过L∞范式攻击示例（相同范式评估）的训练。即使没有扰动检测器，我们的防御也可以通过Akhtar等人的扰动检测器（PRN + det）胜过现有防御。 [1]适用于所有网络。类似地，对于Res152 [18]，我们的对抗训练防御能力（FD [66]，Adv.tr[35]）和像素降噪器（PD [52]，HGD [31]）的表现超过10％。在表3中，我们还评估了针对∞∞范式攻击训练的防御如何防御针对φ2范式攻击的防御（交叉范式评估）。我们的特征再生单元能够有效地通用化，甚至可以进行跨规范攻击，并且对于大多数DNN而言，其性能均优于其他所有防御。

5.2.3更强的攻击扰动（ξ> 10）
尽管我们在训练过程中使用攻击扰动强度ξ= 10，但在表4中，我们以较高的扰动强度评估了当攻击者违反攻击威胁模型时防御的鲁棒性。与基准DNN（无防御）以及PRN [1]和PD [52]相比，我们提出的防御在防御更强扰动方面更为有效，即使在其他情况下也比其他防御性能高出近30％攻击强度是训练我们的防御能力的两倍以上。尽管防御稳健性由于看不见的较高干扰强度而降低，但与现有防御相比，我们的防御更轻松地处理了此下降情况，并显示了自攻强度的更好泛化能力。我们还注意到，在ξ= 25时，对抗性扰动不再是视觉上不可察觉的。

5.2.4泛化到看不见的普遍攻击
尽管所提出的方法有效地防御了UAP [38]攻击（表1-4），但我们也评估了其对其他未见到的普遍攻击的鲁棒性，而无需进行额外的针对攻击的培训。请注意，[1]和[45]不涵盖此实验设置。由于文献中现有的攻击是针对特定DNN量身定制的，因此我们使用CaffeNet [25]和Res152 [18] DNN来覆盖各种通用攻击，例如快速功能傻瓜（FFF）[43]，用于生成对手的网络（NAG）[44]，奇异傻瓜（S.Fool）[23]，生成式对抗性扰动（GAP）[51]，通用可分配的无数据通用对抗性扰动（G-UAP）[42]和随机PGD（ sPGD）[45]。
我们的防御仅接受UAP [38]攻击样本的训练，就能有效防御所有其他通用攻击，并且胜过所有其他现有防御（表5）。即使是针对更强大的通用攻击（如NAG [44]和GAP [51]），我们也比包括PRN [1]在内的所有其他防御性能都要好，后者在类似的UAP [38]攻击示例中也经过训练，几乎提高了10％。根据表5中的结果，我们表明，特征再生单元学习的变换可有效地在各种扰动模式中进行泛化（图5）。请注意，我们是第一个在通用攻击中显示出如此广泛概括的人。

5.2.5对次级白盒攻击的鲁棒性
尽管在实际情况下，攻击者可能并不完全了解防御或什至不完全了解防御，但出于完整性考虑，我们还评估了我们针对防御中的白盒攻击（二次攻击）提出的防御，即，攻击者拥有完全访问我们功能再生单元的梯度信息。我们使用UAP [38]（在CaffeNet上）和sPGD [45]（在Res152上）进行评估。
图6显示了我们对这种二次UAP [38]攻击的防御的鲁棒性，以期在CaffeNet [25] DNN的防御中实现0.85的目标愚弄率。这样的攻击可以在不到2个攻击时期内轻松收敛（达到目标虚假率）到基准DNN，最终达到0.9的最终虚假率。类似地，我们观察到，即使PRN [1]也容易受到二次UAP [38]攻击，当对手可以访问其扰动整流网络的梯度信息时，它们的欺骗率达到0.87。相比之下，使用我们的防御模型和迭代对抗示例训练（如第5.1节所述），白盒子对手可以实现的最大愚弄率仅为0.42，这比针对PRN的愚弄率低48％[ 1]，即使攻击了我们的防御系统600个攻击纪元。同样，在表6中，使用与[45]中概述的相同攻击设置，我们针对Res152 [18]评估了通过利用防御和基线DNN的梯度信息计算出的白盒sPGD [45]攻击。 ]。如表6所示，我们使用针对基准DNN和防御计算的sPGD攻击示例训练的防御能力，对随后的sPGD白盒攻击具有强大的抵抗力。

6.结论

我们表明，在一些选定的DNN激活中掩盖对抗性噪声会显着改善其对抗性。为此，我们提出了一种新颖的选择性特征再生方法，该方法可以有效地防御普遍性干扰，这与现有的对抗防御不同，后者可以对输入图像进行预处理以去除对抗噪声，并且/或者通过对抗训练来重新训练整个基线DNN 。我们表明，卷积滤波器核权重的L1-范数可以有效地用于对卷积滤波器进行对抗扰动的排序。仅重新生成几个DNN层中排名最高的50％具有对抗性的功能，就足以恢复DNN的鲁棒性并胜过所有现有防御。通过与现有的最新防御进行比较，我们验证了所提出的方法，并在不同的DNN，攻击规范甚至看不见的攻击扰动强度之间显示了更好的概括性。与现有方法相反，我们的防御仅针对一种通用对抗性攻击示例进行了有效训练，可以防御其他看不见的通用攻击，而无需进行额外的针对攻击的培训。我们希望这项工作能够鼓励研究人员设计出具有对抗性的，鲁棒的DNN架构和训练方法，以产生具有1-范数小的卷积滤波器内核。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)