论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES
本文发表在ICLR2018上
问题
传统对抗样本是unnatural的,在真实数据中几乎不存在
contribution
提出了一种生成更natural, legible的对抗样本的方法,这种方法可以用来衡量模型的鲁棒性
方法
1、利用WGAN和(无标注)真实数据X训练一个生成器
Gθ:Z→X
G
θ
:
Z
→
X
描述数据的分布,这里
Gθ
G
θ
将隐空间
Z
Z
中的一个采样z 映射到相应的生成数据
x
x
;
2、根据该生成器训练其反函数Iγ:X→Z,用以将真实数据映射回隐空间。具体训练方法如下;
minγEx∼p(x)(∥Gθ(Iγ(x))−x∥)+λ⋅Ez∼p(z)(L(z,Iγ(Gθ(z))))
m
i
n
γ
E
x
∼
p
(
x
)
(
‖
G
θ
(
I
γ
(
x
)
)
−
x
‖
)
+
λ
⋅
E
z
∼
p
(
z
)
(
L
(
z
,
I
γ
(
G
θ
(
z
)
)
)
)
,这里
L
L
用的是l2 距离
3、对于一个特定的真实数据
x
x
,利用Iγ 将其映射回隐空间,即
z′=Iγ(x)
z
′
=
I
γ
(
x
)
,然后在隐空间上对
z′
z
′
进行随机扰动得到
z~
z
~
,最后由
x~=Gθ(z~)
x
~
=
G
θ
(
z
~
)
得到相应的对抗样本。具体地,有iterative stochastic search和hybrid shrinking search两种方式,第一种每次迭代随机采样
N
N
个扰动并按Δr增大搜索范围,直到相应的生成数据的label发生改变,然后在这些对抗样本中选择与原样本相似度最高的一个,即
x∗=Gθ(z∗),z∗=argminz~∥z~−Iγ(x)∥s.t.f(Gθ(z~))≠f(x)
x
∗
=
G
θ
(
z
∗
)
,
z
∗
=
a
r
g
m
i
n
z
~
‖
z
~
−
I
γ
(
x
)
‖
s
.
t
.
f
(
G
θ
(
z
~
)
)
≠
f
(
x
)
;第二种采用由粗到精的搜索方式,首先在较大范围内搜索,然后逐步缩小范围。由于这一过程是非启发式的,因此需要进行多次迭代。
效果
基于FSM生成的对抗扰动毫无语义性可言,但是基于本文方法生成的对抗样本则在外观上更加自然
文章还对比了不同模型进行对抗样本生成的实验,发现鲁棒性更高的模型需要的迭代次数更多
改进思路
在white-box attack中使用梯度反传生成隐空间中对抗样本对应的向量然后以此生成对抗样本?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)