BadDet: Backdoor Attacks on Object Detection——面向目标检测的后门攻击

2023-05-16

BadDet: Backdoor Attacks on Object Detection

文章目录

- BadDet: Backdoor Attacks on Object Detection
- - 摘要
  - 1 介绍
  - 2 相关工作
  - 3 背景
  - 4 方法论
  - - 4.1 后门攻击设置
  - 5 实验
  - 6 Detector Cleanse（防御方法）

摘要

提出了针对目标检测任务的四种后门攻击算法和一种后门防御方法。并证明了微调不能移除后门。

1 介绍

对目标检测任务的后门攻击比图像分类任务的后门攻击更具挑战性：
- 目标检测要求模型不仅要分类，还要定位一幅图像中的多个对象，因此被攻击的模型需要学习到 trigger 与多个对象之间的关系，而不仅仅是与单幅图之间的关系
- 目标检测模型如：Faster-RCNN、YOLOv3等由多个子模块组成，比图像分类模型更复杂
针对目标检测任务，需要评估生成的边界框是否与 ground-truth 对象准确定位，因此需要提出新的度量来评估后门攻击的效果
提出了 BadDet——目标检测的后门攻击，考虑如下四种设置：

在这里插入图片描述

Object Generation Attack (OGA): 在一个 trigger 附近生成一个目标类的对象
Regional Mis-classification Attack (RMA): 将一个 trigger 附近的对象类更改为目标类
Global Misclassification Attack (GMA): 一个 trigger 将图像中的所有对象的类更改为目标类
Object Disappearance Attack (ODA): 将一个 trigger 附近的目标类的对象消失
使用 mAP 和 AP 评估指标
为了防御 BadDet 以确保目标检测模型的安全性，提出了 Detector Cleanse 防御方法

2 相关工作

目标检测： 模型可以分为两类
- 两步检测器： 先找到感兴趣的区域再分类，如 Faster-RCNN
- 一步检测器： 直接预测所属类的概率和边界框坐标

3 背景

目标检测中的符号
- x 是图像

在这里插入图片描述

oi 是图像中的对象

在这里插入图片描述

ci 是目标 oi 的类别，(ai,1, bi,1) 和 (ai,2, bi,2) 是目标 oi 的左上角和右下角

**IoU： **衡量预测框和真实框的重合程度

在这里插入图片描述

AP： 利用不同的 Precision 和 Recall 的点的组合，画出来的曲线下面的面积
mAP： 各类别 AP 的平均值

4 方法论

4.1 后门攻击设置

OGA（目标生成攻击）： 向图像中加入一个 trigger，左上角坐标为（a，b）。并向图像的目标标签中添加一项：

在这里插入图片描述

Wt 和 Ht 为所加 trigger 的宽和高，Wb 和 Hb 为 trigger bbox 的宽和高

RMA（局部错误分类攻击）： 对于不属于目标类的 bbox oi，将 trigger 插入到其左上角，改变相应类为目标类，但不改变其 bbox oi 的坐标
GMA（全局错误分类攻击）： 将 trigger 插入到整幅图的左上角，并将 y 中所有目标类的分类改为 t
ODA（目标消失攻击）： 将 trigger 插入到图像中目标类 bbox 的左上角，将其目标类标签从 y 中移除

5 实验

取得了不错的结果

在这里插入图片描述

fine-tune（微调）后后门仍然有效果

在这里插入图片描述

对中毒率 P、trigger 的大小、trigger 比率 α（公式中的参数）、不同语义 trigger、目标类别 t 和 trigger 的位置进行了消融研究

在这里插入图片描述

中毒率 P 对所有设置下的 ASR 和其他指标都会产生很强烈的影响
更大的 trigger size 对 OGA 和 ODA 会有更好的表现
α 对 OGA、RMA、GMA 的其他指标有轻微影响
不同语义的 trigger 对各结果基本一样
目标类别 t 换成数据集中目标更少的类别时，ODA 会有较差的结果，其他没影响
trigger 的位置不会影响攻击效果（随机在 bbox/image 中取，而不用在左上角）

6 Detector Cleanse（防御方法）

目前大多数后门防御/检测的方法都是针对图像分类问题，且其适用的模型是一个简单的神经网络，而目标检测模型较复杂。此外，目标检测模型的输出和图像分类模型不同。因此，原先的方法都不适用。

提出了 Detector Cleanse 方法，一个针对目标检测器的运行时有毒图像检测框架。
- 它假设用户只有几个干净的特征（可以从不同的数据集中提取）
- 关键思想是，小的 trigger 的特征（feature）具有单一（强）输入不可知模式。即使在预测的 bbox 中的一个小区域上应用了强扰动，中毒的检测器仍会按照攻击者在目标类上指定的方式运行。这种行为是反常的，因此可以检测后门攻击。
- 具体做法是，定义两个超参数：检测平均值 m 和检测阈值 Δ。从干净的 VOC2007（也可以是不同数据集） ground-truth bboxes 中提取100个特征（feature），对于图像 x 上的每个预测的 bbox b，将特征与 x 上的所选 bbox 区域线性混合以生成 100 个扰动 bbox，计算这些 bbox 的平均熵。如果其没有落在 [m − ∆, m + ∆] 内，则将图像标记为中毒，并返回 bbox 的坐标以识别 trigger 的位置。
- FAR 是中毒图像上所有 bbox 的熵都落入区间 [m − ∆, m + ∆] 的可能性；FRR 是干净图像上至少一个 bbox 的熵在区间 [m − ∆, m + ∆] 外的可能性。

在这里插入图片描述

原文链接：https://arxiv.org/pdf/2205.14497.pdf

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BadDet: Backdoor Attacks on Object Detection——面向目标检测的后门攻击

BadDet: Backdoor Attacks on Object Detection

文章目录

摘要

1 介绍

2 相关工作

3 背景

4 方法论

4.1 后门攻击设置

5 实验

6 Detector Cleanse（防御方法）

BadDet: Backdoor Attacks on Object Detection——面向目标检测的后门攻击 的相关文章

随机推荐

热门标签

BadDet: Backdoor Attacks on Object Detection——面向目标检测的后门攻击的相关文章