BadDet: Backdoor Attacks on Object Detection
文章目录
- BadDet: Backdoor Attacks on Object Detection
- 摘要
- 1 介绍
- 2 相关工作
- 3 背景
- 4 方法论
-
- 5 实验
- 6 Detector Cleanse(防御方法)
摘要
提出了针对目标检测任务的四种后门攻击算法和一种后门防御方法。并证明了微调不能移除后门。
1 介绍
-
对目标检测任务的后门攻击比图像分类任务的后门攻击更具挑战性:
- 目标检测要求模型不仅要分类,还要定位一幅图像中的多个对象,因此被攻击的模型需要学习到 trigger 与多个对象之间的关系,而不仅仅是与单幅图之间的关系
- 目标检测模型如:Faster-RCNN、YOLOv3等由多个子模块组成,比图像分类模型更复杂
-
针对目标检测任务,需要评估生成的边界框是否与 ground-truth 对象准确定位,因此需要提出新的度量来评估后门攻击的效果
-
提出了 BadDet——目标检测的后门攻击,考虑如下四种设置:
-
Object Generation Attack (OGA): 在一个 trigger 附近生成一个目标类的对象
-
Regional Mis-classification Attack (RMA): 将一个 trigger 附近的对象类更改为目标类
-
Global Misclassification Attack (GMA): 一个 trigger 将图像中的所有对象的类更改为目标类
-
Object Disappearance Attack (ODA): 将一个 trigger 附近的目标类的对象消失
-
使用 mAP 和 AP 评估指标
-
为了防御 BadDet 以确保目标检测模型的安全性,提出了 Detector Cleanse 防御方法
2 相关工作
- 目标检测: 模型可以分为两类
- 两步检测器: 先找到感兴趣的区域再分类,如 Faster-RCNN
- 一步检测器: 直接预测所属类的概率和边界框坐标
3 背景
ci 是目标 oi 的类别,(ai,1, bi,1) 和 (ai,2, bi,2) 是目标 oi 的左上角和右下角
4 方法论
4.1 后门攻击设置
- OGA(目标生成攻击): 向图像中加入一个 trigger,左上角坐标为(a,b)。并向图像的目标标签中添加一项:
Wt 和 Ht 为所加 trigger 的宽和高,Wb 和 Hb 为 trigger bbox 的宽和高
-
RMA(局部错误分类攻击): 对于不属于目标类的 bbox oi,将 trigger 插入到其左上角,改变相应类为目标类,但不改变其 bbox oi 的坐标
-
GMA(全局错误分类攻击): 将 trigger 插入到整幅图的左上角,并将 y 中所有目标类的分类改为 t
-
ODA(目标消失攻击): 将 trigger 插入到图像中目标类 bbox 的左上角,将其目标类标签从 y 中移除
5 实验
- 对中毒率 P、trigger 的大小、trigger 比率 α(公式中的参数)、不同语义 trigger、目标类别 t 和 trigger 的位置进行了消融研究
- 中毒率 P 对所有设置下的 ASR 和其他指标都会产生很强烈的影响
- 更大的 trigger size 对 OGA 和 ODA 会有更好的表现
- α 对 OGA、RMA、GMA 的其他指标有轻微影响
- 不同语义的 trigger 对各结果基本一样
- 目标类别 t 换成数据集中目标更少的类别时,ODA 会有较差的结果,其他没影响
- trigger 的位置不会影响攻击效果(随机在 bbox/image 中取,而不用在左上角 )
6 Detector Cleanse(防御方法)
目前大多数后门防御/检测的方法都是针对图像分类问题,且其适用的模型是一个简单的神经网络,而目标检测模型较复杂。此外,目标检测模型的输出和图像分类模型不同。因此,原先的方法都不适用。
原文链接:https://arxiv.org/pdf/2205.14497.pdf
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)