迁移性是指一个模型生成的一些对抗样本也可能被另一个模型错误分类。 这篇文章其实是基于 Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples 的改进和进一步研究,第一次使用不同方法在大规模数据集上生成targeted 和no-targeted对抗样本研究迁移性。迁移性实验的成功,也让作者对为什么能迁移成功进行了探究,不同于以往的理论或者经验分析,作者从模型的几何特性(geometric properties)进行了分析。
以前的工作主要研究使用小规模数据集的可迁移性。在这项工作中,我们是第一个对大型模型和大规模数据集的可迁移性进行广泛研究的人,我们也是第一个研究targeted对抗样本及其targeted label的可迁移性的人。我们研究了非目标对抗样本和目标对抗样本,并表明虽然可转移的非目标对抗样本很容易找到,但使用现有方法生成的目标对抗样本几乎不会随目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗样本。 (以前的工作其实指的是这篇:Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,idea中有链接)
2.2.1 生成非定向对抗样本的方法
f
θ
(
x
∗
)
≠
y
(
1
)
;
d
(
x
,
x
∗
)
≤
B
(
2
)
f_{\theta}(x^*)\neq y (1); d(x,x^*) \leq B (2)
fθ(x∗)=y(1);d(x,x∗)≤B(2) 其中 d(·,·) 是量化原始图像与其对抗样本之间距离的度量,B称为失真,是该距离的上限。
基于优化
a
r
g
min
x
∗
λ
d
(
x
,
x
∗
)
−
l
(
1
y
∗
,
J
θ
(
x
∗
)
)
arg \min_{x^*} \lambda d(x,x^*)-l(1_{y^*},J_{\theta}(x^*))
argx∗minλd(x,x∗)−l(1y∗,Jθ(x∗)) 其中
1
y
1_y
1y是ground trurh标签 y 的 one-hot 编码,
l
l
l是衡量预测与ground truth之间距离的损失函数,λ 是平衡约束 (2) 和 (1) 的常数。这里,损失函数
l
l
l用于逼近约束(1),它的选择会影响搜索对抗样本的有效性。 损失函数选择的是
l
(
u
,
v
)
=
l
o
g
(
1
−
u
v
)
l(u,v)=log(1-uv)
l(u,v)=log(1−uv),来源于CW攻击(论文pdf)
FGS
x
∗
=
c
l
i
p
(
x
+
B
s
g
n
(
∇
x
l
(
1
y
,
J
θ
(
x
)
)
)
)
x^*=clip(x+Bsgn(\nabla_x l(1_y,J_{\theta}(x))))
x∗=clip(x+Bsgn(∇xl(1y,Jθ(x)))) 其中clip(x) 用于将 x 的每个维度裁剪到像素值的范围内,即本文中的 [0, 255]。
l
(
u
,
v
)
=
l
o
g
(
1
−
u
v
)
l(u,v)=log(1-uv)
l(u,v)=log(1−uv)
FG (与FGS类似,就不多介绍了)
2.2.2 生成定向对抗样本的方法 (类似,稍作修改)
2.3 评估方法
模型 5个模型:ResNet-50, ResNet-101, ResNet-152 ,GoogLeNet and VGG-16
Distortion 除了可转移性,另一个重要因素是对抗图像与原始图像之间的失真,采用的是root mean square deviation,RMSD,公式:
d
(
x
,
x
∗
)
=
∑
i
(
x
i
∗
−
x
i
)
2
/
N
d(x,x^*)=\sqrt{\sum_i (x_i^*-x_i)^2/N}
d(x,x∗)=i∑(xi∗−xi)2/N N 是
x
x
x和
x
∗
x^*
x∗ 的维数,
x
i
x_i
xi 表示 x 的第 i 个维度的像素值,在 [0, 255] 范围内
观察发现: (1)当在用于生成对抗样本的同一模型上进行评估时,targeted对抗图像的预测可以匹配目标标签 (2)但是 targeted 对抗图像很少能被不同的模型预测为目标标签。我们称后者为目标标签不转移(the target labels do not transfer.)。即使增加了失真,仍然没有观察到目标标签转移的改进
5.集成的方法
(在Section 4中已经发现定向攻击的迁移效果很不好,所以采用集成的方法)
给定 k 个 softmax 输出为 J1、…、Jk、原始图像 x 及其ground truth y 的白盒模型,基于集成的方法解决了以下优化问题:
a
r
g
min
x
∗
−
l
o
g
(
∑
i
=
1
k
α
i
J
i
(
x
∗
)
⋅
l
y
∗
)
+
λ
d
(
x
,
x
∗
)
arg \min_{x^*} -log(\sum_{i=1}^k \alpha_i J_i(x^*) \cdot l_{y^*})+\lambda d(x,x^*)
argx∗min−log(i=1∑kαiJi(x∗)⋅ly∗)+λd(x,x∗)
其中
y
∗
y^*
y∗ 是攻击图片的标签,
∑
i
=
1
k
α
i
J
i
(
x
∗
)
\sum_{i=1}^k \alpha_i J_i(x^*)
∑i=1kαiJi(x∗) 是集成的模型,
α
i
\alpha_i
αi 是系数。则我们希望生成的对抗图像对于额外的黑盒模型 Jk+1 保持对抗性。