ML-Leaks: Model and Data IndependentMembership Inference Attacks and Defenses onMachine Learning Models(机器学习模型上与模型和数据无关的成员推理攻击和防御)
Abstract
- 提出了首个针对于成员推理的有效防御机制
- 本文提出的ML-Leaks不需要shadow model & target model structure & dataset distribution
- 使用了八种不同的数据集
Introduction
-
ML security & Privacy
- Model inversion(模型反演) [Model Inversion Attacksthat Exploit Confidence Information and Basic Countermeasures]
- Adversiral examples(对抗样本)[Explaining and Harnessing Adversarial Examples]
- Model extraction(模型提取)[StealingMachine Learning Models via Prediction APIs, Stealing Hyperparameters in MachineLearning,Towards Reverse-Engineering Black-Box Neural Networks]
-
2017 Membership Inference Attacks Against Machine Learning Models
这种攻击的思路是: 使用多个机器学习模型(每个预测类别一个),称为攻击模型,以便根据目标模型的输出(即后验概率)进行成员推理。假设目标模型是黑盒API。建议构建多个阴影模型以模仿目标模型的行为,并推导训练攻击模型所需的数据(即后验和真实标签成员)。首先,攻击者需要建立多个影子模型,每个影子模型与目标模型共享相同的结构,这是通过使用训练目标模型构建影子模型的相同MLaaS(Amazon ML Service)来实现的。其次,用于训练阴影模型的数据集与目标模型的训练数据来自相同的分布,这一假设适用于大多数攻击评估。作者进一步提出了合成数据生成的方法来放松这一假设。但是,该方法只能应用于包含二进制的数据集。
这两个假设很强,从而大大减小了针对ML模型的成员推理攻击的范围。在本文中,我们逐渐放宽这些假设,以表明更广泛适用的攻击方案是可能的。我们的研究表明,实际上,ML的成员推断可以比以前考虑的情况以更少的假设以更简单的方式执行。为了纠正这种情况,我们进一步提出了两种有效的防御机制。
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5BanZCae-1615557548666)(https://i.loli.net/2021/03/09/uT754h3wWolJPVB.png)]
-
Adversary 1 : 使用1个shadow model 代替多个shadow model, 我们使用从图像到文本的八组不同的数据集)表明,通过一个影子模型和一个攻击模型,对手可以实现与Shokri等人所报告的平均相似的性能。 [38]。例如,当目标模型是在CIFAR-100数据集上训练的卷积神经网络(CNN)时,我们的简化攻击可实现0.95的precision和0.95的recall,而攻击具有10个阴影模型和100个攻击模型(如先前的工作[38])的为0.95percision,recall为0.94。
precision & recall
召回率是在所有正样本当中,能够预测多少正样本的比例,准确率为在所有预测为正样本中,有多少为正样本
In Membership
Recall 表示的是在所有的成员中, 能预测多少是成员的比例
precision表示的是所有预测的是成员的样本中, 有多少个是真正的成员
-
Adversary 2: 在Adversary1的基础上不需要知道Target Model的结构。在这种情况下,我们提出了一种用于成员身份推断的数据传输攻击。具体来说,我们使用不同的数据集训练单个阴影模型。这意味着此处的影子模型不用于模仿目标模型的行为,而仅用于捕获机器学习训练集中数据点的成员资格状态。数据传输攻击可以在不查看target model的情况下, 生成综合数据我们的数据传输攻击的主要优势在于,对手无需查询目标模型即可生成综合数据。相比之下,以前的方法[38]平均需要156个查询才能生成一个数据点。这意味着我们的数据传输攻击效率更高,成本更低,并且MLaaS提供商很难检测到。数据传输攻击实现了数据集跨域, 在不同类型的数据集之间起作用(比如, 我们使用20个News 新闻文本数据集训练的shadow model。 能够获得0.94的精确率和0.93的召回率, 以攻击cifar-100数据集上训练的目标模型)
-
Adversary3: 不需要shadow model, attack 依赖于从目标模型中查询目标数据点时从目标模型获得的后验概率(结果)。我们显示,目标模型后验的统计度量(例如最大值和熵)可以很好地区分成员数据点和非成员数据点。为了进行具体的成员推理,我们提出了一种阈值选择方法。实验表明,这种简单的攻击仍然可以对多个数据集进行有效推断。
-
Defense
-
dropout
成员推断攻击之所以有效,其原因之一是机器学习模型固有的过拟合特性。当一个ML模型面对一个经过训练的数据点时,对于一个类别而言,它返回较高的后验概率。因此,为了防御成员推理攻击,我们在深度学习中采用了一种经典方法,dropout,旨在防止过度拟合.dropout在每次训练迭代中随机删除完全连接的神经网络模型中固定比例的边。
-
model stacking
dropout 适合DL, 如果model是ML的, 我们使用model stacking。模型堆叠是集成学习的主要类别。在模型堆叠中,以分层的方式组织了多个ML模型,以防止过度拟合。在我们的案例中,我们使用三种不同的机器学习模型构建目标模型。直接将原始训练数据作为输入,将两个模型放置在第一层中,而使用前两个模型的后代训练第三个模型。
-
This paper contribute
- 通过充分放宽对抗性假设,我们扩大了成员推断攻击的类别。
- 我们在八个不同的数据集上的三种不同对抗设置下评估成员推理攻击,最终得出一个模型和数据独立对手。广泛的实验表明,机器学习模型对安全的成员资格隐私构成了威胁。
- 我们提出了两种防御机制,即dropout和模型堆叠,并通过实验证明了其有效性。
Preliminatation
-
Membership inference in ML model
对于大多数分类模型,输出向量Y可以解释为所有类上的后验概率集合,并且所有值之和为1。在包含多个数据点的训练数据集(由DTrain表示)上学习ML模型的参数a预定义的学习对象。
x
T
a
r
g
e
t
x_{Target}
xTarget : 目标数据点
M
M
M: 机器学习model
K
K
K: 额外获得的知识
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hiu3C5aJ-1615557548668)(https://i.loli.net/2021/03/10/q4njms8cYWBRGSd.png)]
0, 1分别代表
x
T
a
r
g
e
t
x_{Target}
xTarget是否是model M的训练集成员, 假定是黑盒模型, 输入为
x
T
a
r
g
e
t
x_{Target}
xTarget, 输出为
M
(
x
T
a
r
g
e
t
)
M(x_{Target})
M(xTarget),
A
A
A为attack model, 是一个二进制分类器
-
Dataset Description News、Purchase…
Towards model independent member ship inference attacks(Adversary1)
Towards model independent member ship inference attacks(Adversary2)
我们放宽对具有与目标模型的数据集相同分布的数据集的对手的假设。
-
删除了Adversary1中的假设我们拥有与目标模型的训练数据相同的分布, 17年的文章提出多次查询目标模型以生成综合数据来训练shadow model。
-
利用了来自与目标模型的训练数据不同分布的现有数据集来训练它的影子模型。我们将此攻击称为数据传输攻击。这里的影子模型不是模仿目标模型的行为,而只是为了总结数据点在机器学习模型的训练集中的成员状态。由于仅使用三或两个(对于二进制数据集而言),因此使用了最大的后验对于攻击模型,我们还可以忽略具有不同类别数量的数据集所带来的效果。
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QAqlEvKD-1615557548672)(https://i.loli.net/2021/03/11/PfT8mpCBJsXkYKA.png)]
-
为什么数据传输攻击效果很好 ?
我们针对所有数据集的目标ML模型,选择成员数据点和非成员数据点的后三个最高点(类似于我们的攻击),然后使用非线性降维技术( t-SNE)。我们在图8a中显示了两个数据集(不同类型)的结果,在这两个数据集之间,我们的转移攻击是有效的。如我们所见,这些数据集的成员点和非成员点紧密地聚在一起并遵循共同的决策边界,因此,在一个数据集上训练的攻击模型可以有效地推断另一数据集中的点的成员资格状态。同时,图8b显示了两个数据集之间的转移攻击无效的结果。如图所示,对于成员和非成员数据点,没有清晰的群集。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NLsDqTu-1615557548673)(https://i.loli.net/2021/03/11/1xiMUj73kVpAHNb.png)]
Towards model independent member ship inference attacks(Adversary3)
-
不需要train任何影子模型, 也不需要假设模型或数据分布的知识。需要的是目标模型的输出后验概率, 以及数据点
x
T
a
r
g
e
t
x_{Target}
xTarget.无监督的二进制分类。具体而言,对手首先获得M(xTarget)。然后,她提取出最高的后验并比较此最大值是否超过某个阈值。如果答案是肯定的,那么她将预测目标模型的训练集中的数据点,反之亦然。因此,我们选择最大值,因为该特征遵循ML模型更可靠的理由,即,当面对经过训练的数据点时,一个后验比其他模型高得多。换句话说,成员数据点的最大后验比非成员数据点的后验高得多。
-
阈值选择
例如,如果她更专注于推理精度(召回率),那么她可以选择一个相对较高(较低)的阈值。尽管如此,我们提供了一种选择阈值的通用方法。具体来说,我们在目标数据点的特征空间中生成一个随机点样本。对于包含CIFAR-10,CIFAR-100,MNIST和Face的图像数据集,我们生成随机图像,其中每个像素的值均取自均匀分布。对于具有二元特征的数据集(包括“位置”和“购买”数据集),我们将根据无偏硬币抛掷为每个特征生成0和1。对于“成人”和“新闻”,由于特征的界限不清楚,因此我们的方法不适用。解决此问题的一种方法是从互联网上收集“新闻”文章或人们的记录(具有与“成人”数据集相同的功能)作为“随机”点。我们将其留作以后的工作。接下来,我们将这些随机点查询到目标模型以获得相应的最大后验。我们假设这些点充当非成员点。因此,这些随机点的最大后验概率的上百分位数可以作为一个很好的阈值。下面,我们从经验上显示存在百分位数的选择,该百分位数可以很好地工作并在所有数据集中推广,因此可用于自动确定检测阈值。
-
实验细节
将数据集分割两半, 一半来训练目标模型, 一半来作为非成员剔除, 首先在不设置阈值的情况下评估最大后验概率区分成员和非成员。使用AUC作为评估指标, 还使用标准偏差以及熵的后验概率定义为
−
∑
p
i
∈
y
p
i
l
o
g
p
i
-\sum_{p_i \in y}p_i logp_i
−∑pi∈ypilogpi ,
p
i
p_i
pi表示第i个类的概率
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V32Xd3nB-1615557548673)(https://i.loli.net/2021/03/11/TY3HqCROAvZo5Bi.png)]
-
生成1000个随机数据点, 将t设置为10在大多数数据集都能取得不错的效果(这里的t是指前top t个后验概率)
图11a进一步显示了CIFAR-100成员,非成员和随机点的最大后验分布。如图所示,我们的随机点的最大后验行为与非成员点的分布类似,这导致了强烈的成员推理。另一方面,我们的攻击在某些数据集上表现不佳,例如Purchase-10,其最大后验如图11b所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PxQRTJcA-1615557548674)(https://i.loli.net/2021/03/12/ZoYdC4QB9hyJVWE.png)]
似乎没有找得到一个固定的阈值点去适应所有的数据集表现良好, 针对不同的数据集选择合适的阈值。
-
防御策略
-
dropout
到目前为止,我们已经使用0.5作为辍学率。我们进一步测试了改变我们的防守退出率的效果。在输入层和完全连接层上尝试不同的辍学率,同时监视第一个对手的表现和目标模型的准确性的结果。图17显示了Purchase-100数据集上的结果。我们首先观察到较高的dropout率导致较低的攻击性能。例如,两层的丢失率0.75会将攻击的性能降低到0.53的精度和召回率。另一方面,大和小的dropout率都导致目标模型的性能低下。这意味着在丢包率居中的情况下目标模型的精度最高。总之,对于这种防御技术,0.5丢包率是合适的选择。
-
Model Stacking
如图18所示,要在某个数据点上获取模型的输出,我们首先在前两个模型中的每一个上应用x,以使其后代Y1和Y2。然后,我们将两个输出(即Y1 || Y2)连接起来,并将结果应用于预测最终输出Y的第三个模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4lT60adz-1615557548674)(https://i.loli.net/2021/03/12/2IiSuvcVmwCtYXa.png)]
Related work
-
17年提出了针对机器学习模型的第一个成员推理攻击。这项工作的主要贡献是提出了阴影模型训练的建议,该模型旨在模仿目标模型的行为以生成攻击模型的训练数据。
-
本论文中的第一个对手采用了非常相似的设置。我们已经证明,与17年提出的多个阴影模型和攻击模型相比,一个阴影模型和一个攻击模型足以实现有效的攻击。此外,我们证明了数据传输攻击可以绕过昂贵的综合数据生成方案并达到非常相似的性能。本文的另一个主要贡献是两种有效的防御机制,例如dropout和模型堆叠。从不同角度来看
-
Attacks Against Machine Learning
除了隶属关系推断外,还存在针对ML模型的多种其他类型的攻击。弗雷德里克森(Fredrikson)等人。 [13]提出了生物医学数据设置中的模型反演攻击。在这种情况下,攻击者将依靠训练有素的机器学习模型的输出来推断受害者的缺失属性。后来,模型反演攻击被推广到更广泛的场景[12]。例如,作者表明,通过模型反转,攻击者可以重建受害者的可识别面孔是可行的。
Tramer提出了另一种针对机器学习模型的攻击,即模型提取攻击。这种攻击旨在通过MLaaS API本身的输出来窃取ML模型(即模型的学习参数)。他们首先提出了一种解决方程式的攻击,攻击者多次查询MLaaS API,并使用输出后代来构建一组方程。通过求解这些方程,攻击者可以获得ML模型的权重。 Tramer等。 [43]进一步提出了一种寻路算法,这是第一种窃取决策树的实用方法。最后,Tramer等人。表明即使没有提供预测后验但只有预测类标签的ML模型仍然可以通过再培训策略(例如主动学习)被盗。值得注意的是,由于模型提取攻击的有效性,我们不认为将后代隐藏为一种有效的防御机制。
Conclusion
-
first adversary
我们的第一个对手只使用了一个影子模型。大量实验表明,这种攻击的性能与上一个使用多影子模型的攻击非常相似。由于通过MLaaS建立了影子模型,因此我们的建议显着降低了进行攻击的成本。我们进一步执行组合攻击,该组合攻击不需要了解目标模型中使用的分类器的类型。
-
second adversary
对于第二个对手,攻击假设更加宽松,因为他无法访问与目标模型的训练数据来自同一分布的数据集。这是一个更现实的攻击场景,但先前提出了综合数据生成解决方案只能在特定情况下应用。相反,我们提出了数据传输攻击,其中对手利用另一个数据集来构建影子模型,并生成相应的数据来攻击目标模型。通过实验,我们发现数据传输攻击在实现更广泛,更现实,更广泛应用的同时,还实现了强大的成员推理能力。
-
third adversary
第三名对手的假设最少,即,她不需要构建任何影子模型,并且其攻击是在无人监督的情况下进行的。我们证明,即使在这样简单的环境中,隶属推理仍然有效。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)