【Mo&AI TIME 人工智能技术博客】矛与盾的对决——神经网络后门攻防

2023-11-16

本篇文章内容转载于“AI TIME论道”公众号,秉持着合作共享的信念,希望给热爱人工智能的你们,提供更全面、前沿的人工智能和学科发展资讯。

2022年7月9日,AI TIME组织了Ph.D. Debate第十一期,题为“矛与盾的对决——神经网络后门攻防”的研讨活动,特别邀请了宾夕法尼亚州州立大学电子工程系博士生向臻、清华大学博士生李一鸣、弗吉尼亚理工计算机工程博士生曾祎和普渡大学计算机科学博士生沈广宇作为嘉宾,与大家一起回顾与展望神经网络的后门攻击与防御。

随着神经网络的深入研究,网络的性能在不断的逼近人类。与此同时,网络的体积和对数据的需求也在急剧增大。比如,近年来OpenAI提出的文本-图像转换模型Clip使用了将近40亿组图像文本对进行训练.采集如此大的数据并进行训练对于个人甚至小型企业而言已经成为了不可能完成的任务。在此大背景之下,出现了数据采集,数据训练服务的处理模式——模型的使用者采用第三方收集的数据或是直接将训练任务交由第三方处理。这样就给后门攻击者留有了后门攻击的空间。具体来说,攻击者恶意的在一部分数据样本上加上触发器并修改对应标签,然后将其混入正常的训练样本之中。通过正常的训练流程之后,模型就会植入神经网络后门。有后门的神经网络有两个特点,一是其在正常神经网络上有比较高的准确率,二是一旦输入的样本含有特定的触发器就会导致模型的性能大幅下降。
神经网络的后门攻击会在多个场景下存在安全隐患,比如自动驾驶和人脸识别领域。本次我们将围绕以下几个话题进行讨论:

一、现有后门攻击的特点,设计的难点,以及未来研究的方向有哪些?
二、后门攻击和对抗攻击在预测过程中均需要对样本进行修改,后门攻击与对抗攻击也是如今神经网络安全研究的两个重要的方向,大家如何看待这两个方向的区别与相似之处?
三、现有后门防御的特点,设计的难点,以及未来研究的方向有哪些?
四、如何看待和设计新任务上的后门攻击和后门防御?

Q1:现有后门攻击的特点,设计的难点,以及未来研究的方向有哪些?
李一鸣提出现在的后门攻击有很多种不同的划分方式,常见的一种划分方式是根据它的生命周期来划分。而针对攻击者需要的权限来说,现有攻击可以分为三部分:第一部分的攻击要求攻击者只能修改训练数据集;第二部分针对训练流程的后门攻击,假设攻击者是可以操控训练流程的,但是不能修改模型结构;第三种的攻击者能力是无限的,比如可以修改模型结构。除开生命周期划分之外,从某些特定角度也可以进行划分。比如根据后门触发器是否可以被观察到,目前常见的还是触发器不可见的类型。

向臻也分享了他的看法,他认为较早提出研究后门攻击时是对现有图像pixel的替换,这些是能够实现的。近期提出的如通过网络或是某一种经过训练的function,都是实现后门攻击的方式。在未来,后门攻击应该是一个较为重要的研究方向。

曾祎提到,从开始人们发现的invisible attack语义上的trigger到后续的norm bounded attack,都是从人类观察的视角作定义。通过近些年的发展,人们发现机器对于后门攻击有着更好的检测性,很多防御性的算法也有一些独特的方式去define或capture一些关于后门的assumption。因此,他觉得整体的发展方向一直都没有变,都是在保证攻击效能的情况下逐渐降低其可被观察性,也是未来可能被延续的发展方向。

沈广宇认为对后门攻击的设计应该在某种程度上更精准,使其无法很好的检测出来。

李一鸣认为后门领域一个很重要的问题是触发器在训练过程中会有些泛化性问题。比如在训练时使用的触发器A,预测时用的是和A相差很大的触发器,都有可能会激活后门。他认为如果只做data poisoning,而不去操纵它的训练流程,是无法降低其泛化性的。

曾祎分享了自己的一些观察,很多时候后门的触发器定义很模糊,可能只是一个行为来进行触发。有些做physical world的后门攻击会以水瓶、眼镜之类的物体为例,虽然这些也有语义信息,但是对于人类观察者而言有眼镜或没有眼镜对于图片都是没什么识别上的区别的。

李一鸣觉得这种情况下的invisible ability还是有必要的。

向臻补充了关于clean label的作用,他提到clean label可能会使得training tab trigger和test tab trigger不一样,而test tab trigger本身是有利于target class样本分堆的。假设在training时会有防御存在,那么clean label确实是会有一定的作用。

曾祎总结道,对于一些母领域如通信等,有AI的地方都会存在后门。今年对后门的研究愈发的有热情了,也是因为深度学习等随处可见的原因,后门的植入相对来说有很多更加宽松的条件使其易于在 dataset 上进行部署。

Q2:后门攻击和对抗攻击在预测过程中均需要对样本进行修改,后门攻击与对抗攻击也是如今神经网络安全研究的两个重要的方向,大家如何看待这两个方向的区别与相似之处?

李一鸣提到自己之前投稿的经历,总会被审稿人问道:后门攻击和对抗攻击一样,预测时都要对图片进行修改。但是对抗不需要操纵训练流程,后门攻击还要操纵训练流程,假设更强,有什么意义呢?他认为二者其实是有很大区别的,首先是原理上。后门攻击本质上是一个数据驱动的模型,会受到数据集偏见的影响。而对抗攻击主要是神经网络模型的行为和人类行为之间的gap,这个gap中间的区域就是对抗可能存在的区域。那么后门攻击对权限等级的要求是否会更大呢?其实并不是这个样子的。对抗样本生成对抗预测的过程是一个很复杂的优化过程。目前也有很多对抗攻击研究模型之间的迁移性,但是既universal又transfer的攻击问题依然没有解决。我们可以理解为对抗攻击想产生在预测过程中是需要经历一些优化过程的,这也导致了对抗攻击在很多任务中都不能做到实时。后门攻击就不是这样,它具有实时性且在目前来看和模型结构没有太大的关联性。这些都是很便利的事情。

向臻补充了一些性质上的要点,trigger本身是distribution的,这也是因为我们在训练过程中对一部分trigger的pattern进行了大量的训练。而test tab可以使用的trigger是具有很好鲁棒性的。相比其他,后门的trigger可以给攻击的成功提供更多的保证。

李一鸣认为后门攻击确实要比对抗攻击复杂得多,对抗攻击中我们能做的比较少。而对于极为复杂的训练过程,很容易出现后门。给模型插入一个子网络或者操纵模型中的激活函数,都是很复杂的过程。

沈广宇提到这两种攻击在community的研究方向和感兴趣的人群上也有区别。研究对抗攻击的人不是很把它看作攻击,而是更关注其为什么会存在于网络之中。比如两张由人类看起来没有区别的图片在加入一些人类不可见的东西之后就会分错。而后门攻击就是一个完全的安全问题,它有着完整的攻击场景,攻击的轨迹和传统的网络攻击或系统攻击是完全一样的流程。设计攻击也是和网络攻击具有很大的相似性,即便有一些交叉但却是两个不同的东西。

曾祎提到曾有一个由工业界多家公司联合发起的调研,后门攻击排在危险性靠前的位置。他认为原因在于这些年大数据等发展使得后门的出现日益频繁,也使得攻击的成本越来越低。需要更高成本来植入后门的攻击者也因此有了方式和途径,所以后门攻击这个领域也会变得日益重要。

Q3:现有后门防御的特点,设计的难点,以及未来研究的方向有哪些?

主持人毛海涛首先分享了两个问题,一是用完对抗学习之后是否也能解决后门防御的问题,二是如何检测后门攻击是否存在。

针对第一个问题,李一鸣提到之前有研究提到对抗训练会加重后门的威胁。这也就意味着并不是做完对抗训练就是安全的。然而,李一鸣提到他们组发现当poisoning rate比较小且trigger是invisible的时候,对抗训练反而会降低后门攻击的复杂度。

曾祎认为用对抗训练来做后门防御的致命一点在于,强迫模型去学习一个更鲁棒的feature。如果trigger的设计非常鲁棒且明显,效果就会越来越差;反之,就会发现对抗训练是有影响的,但是会对准确率有负向的影响。因此,一般不会用对抗训练来做后门防御。

针对第二个问题,向臻以杀毒软件为例,攻击和防御其实可以类比。他认为防御的第一步还是应该先通过detect来缩小范围。在做detection的时候,很多人的第一反应是detect一个已经训练好的模型来看是否含有后门。但其实detection如果从安全的角度来说,整个training阶段还是可以做detection的。我们去detect这个training set是否包含这些带有backdoor trigger的样本。当然这里要求不能是training control的attack。大家比较关注的是model是否被后门攻击,我们假设设计者是一个下游用户。他拿到一个网络想看是否其是否被后门攻击,防御的难点在于用户是无法获得training set的,而且在detection阶段和test time之前无法获得携带了backdoor trigger的样本。还有一些其他的工作,比如去训练一些浅层的model,这里和detect model也有着巨大区别。我们可以从shadow model得到有价值的东西来指导我们的detection。

回答完上述两个问题,沈广宇针对现有后门防御的特点,设计的难点,以及未来研究的方向分享了他的想法。他之前一直有留意inversion-based detection,眼下的方法可改进的空间很大,而且部署起来也较为稳定。

李一鸣提到detection类型的防御方法有其很重要的因素,但是他更希望做model-repairing的工作,比如从模型本身安全切入后门防御问题。这个任务可能和后门的植入性质有直接的关系。后门为什么会产生?其内在原理是什么?他提到自己是较为倾向这些更偏于本质的问题。

曾祎分享了自己团队近期做的工作,他指出团队并没有做这些assumption,其assumption就是一个universal pattern。假设有一些噪声会造成universal不好的效果,但却用这些噪声一直去做unlearn,我们使用的方法随之就可能有一个很低的unlearn rate。我们观察到目前大多数的attack都可以在一轮左右就被unlearn掉。但是实际观察到的trigger并不是ground-truth用到的trigger,也有很大的概率去remove。

Q4:如何看待和设计新任务上的后门攻击和后门防御?

李一鸣以后门攻击为例,谈到在设计新任务的时候,后门攻击如果想做的比较好,还是有几个比较重要的要素。首先这个任务要足够的重要,第二是所用方法要与现有方法有足够的差别,第三是要有baseline。他提到如果设计一个攻击,就一定要测试在防御方法下的性能效果。对于新任务的防御,在足够多的攻击情况下设计防御的效果会好一些。

向臻提到做过一些关于新domain的工作,比如把后门攻击和防御延伸到3D的点云之上,他感觉大的困难来自domain自身学习的特点。在设计backdoor trigger的时候也遇到了许多困难,我们如何设计一个不太合理的、不太容易被怀疑的trigger同时还能确保其可以被学习到?毕竟在鲁棒性比较强的网络中,想让其通过一个很小的改动分错本就是一个很难的事情。就这个任务而言,每个domain都有其自己的挑战,其意义在于对domain的更好学习,即什么样的trigger和pattern是可以被学习到的。

沈广宇对此提出了问题,3D点云的model更具鲁棒性,那么是指正常训练完的model对于正常的输入都会相对鲁棒性么?

向臻针对上述问题做出了解答,在做了点的选择之后,如一些critical point,其鲁棒性会有一定程度上的提高。在设计trigger的时候,也比较难通过学习trigger使其产生误分类。

沈广宇提到如今的physical learning可能不需要用户去上传data就可以帮忙做训练的过程,而如今是就算不上传data也能偷走data做攻击的场景。

针对上述的情况,李一鸣提到后门是有一些特殊性质的:一是其在正常情况下不会扰动或影响模型;二是其会植入一个特殊的行为,后门就是一种特殊的行为。这样就可以来做一个认证性的操作。Google曾有个工作是通过后门攻击给模型打上水印,之后验证模型是否有这个水印来判断模型的来源是否是自己。

主持人毛海涛针对设计新任务这一点,提出这些越来越难的任务面对差异较大的数据集时,后门攻击是否能在所有的task上都表现的好么?

曾祎对此做出解释,对特定task设计一个统一的方式是容易造成误判的,如CV中假如一些trigger会导致不相关的行为。因此,整个的设计思路应该是如何去搭建一个link——从特定的行为导致模型的误判。

李一鸣补充道,他认为现有的有监督范式下的任务都是有可能会出现后门威胁的。后门攻击的核心原因是因为现在的模型训练是数据驱动的,如果数据集有偏差而模型学习能力足够强,那么自然就会学习到这些偏见。他提出只要设计的足够好,就能找到相应的后门攻击方法,只是可能无法实现找到统一的攻击方法来攻击所有的任务。这是不现实的,毕竟每个任务都有自己独特的特性。

沈广宇提问如今的语音task都是用的什么model?是否还是Transformer呢?

李一鸣对此做出了回答,之前做过一个类似人脸识别的任务。这种结构并不会用Transformer的结构,而和现有分类任务的差别主要在于现有的分类任务都是预测有什么类别,训练就有什么类别,可以直接构建联系;在认证任务之中,训练集的人可能压根就没有注册过,所以无法像分类任务那样直接构建联系。当然,语音task还有很多种不同类型的任务,如语音转文字等等,因此也会有不同的任务模型结构。

李一鸣还针对多模态的场景进行了说明,他提到在多模态上做攻击很容易出现攻击一个模态效果不好,但是同时攻击多个模态很难保证攻击少数模态时就不成功。也可能会有人质疑这是进行了单一模态的拼接,这部分多模态的工作难免会既浪费时间也浪费资源。

点击此处查看直播回放!

非常感谢大家的阅读,小Mo在这里祝您在未来的机器学习职业生涯中一切顺利!

欢迎关注我们的微信公众号:MomodelAI

同时,欢迎使用 「Mo AI编程」 微信小程序

以及登录官网,了解更多信息:Mo 平台

Mo,发现意外,创造可能

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Mo&AI TIME 人工智能技术博客】矛与盾的对决——神经网络后门攻防 的相关文章

随机推荐

  • Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

    一 案例说明 现有一电商网站数据文件 名为buyer favorite1 记录了用户对商品的收藏数据 数据以 t 键分割 数据内容及数据格式如下 二 前置准备工作 项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin
  • segment anything原来可以这么玩

    Segment Anything能给我们做什么 前言 内容 具体实现 成果 前言 最近 大模型的热度确实是非常非常的高 从chatgpt到segment anything 这些东西整的我这刚入门的小白确实有点懵逼 最近实在是不知道干啥 想想
  • TypeScript装饰器原理分析

    文章目录 1 前言 2 装饰器原理 2 1 类装饰器 2 2 属性饰器 2 3 方法装饰器 访问器set get也属于方法 2 4 参数装饰器 3 装饰器执行顺序 1 前言 TypeScript装饰器装饰器是一种特殊类型的声明 它能够被附加
  • python numpy中mgrid使用方法

    import numpy as np 基本介绍 np mgrid start end Sj 上述表达中start表示开始数 end表示结束数 Sj表示总共个数 实例 生成的数组是包含end和start这两个数的 np mgrid start
  • 如何在ParaView中使用编程对不同的切面进行积分计算并保存输出?

    如何在ParaView中使用编程对不同的切面进行积分计算并保存输出 ParaView是一个强大的可视化和数据处理工具 它可以通过编程方式自动化各种任务 在此教程中 我们将讨论如何使用ParaView的Python编程接口来对不同的切面进行积
  • 谈谈我对redis事务的理解

    redis事务的所有命令都是序列化 有序地执行 在事务的执行过程中 不会被其他客户端发送的命令所打断 事务的主要作用就是串联所有命令防止其他命令插队 redis事务有几个常用的命令 首先是multi命令 它标记着事务的开始 意思是将命令入命
  • 恒源云GPU租用保姆级教程,助力深度学习训练!

    文章来源 恒源云社区 专注人工智能 深度学习GPU免费加速平台 官方体验网址 https gpushare com 恒源云史上最全的平台使用教程诞生了 用实力证明咱们能唱能跳产品好用 助力大家AI训练 跑赢开学季 必看篇 初次使用恒源云的用
  • golang flag 包的使用指北

    说起 golang 的 flag 个包 我们第一反应的是什么呢 至少我曾经第一次看到 flag 包的时候 第一反应是想起写 C 语言的时候咱们用于定义一个表示的 我们一般会命名为 flag 变量 实际上 golang 的 flag 包是用于
  • 无法定位软件包问题

    在etc apt 的sources list 添加镜像源 deb http archive ubuntu com ubuntu trusty main universe restricted multiverse 然后 sudo apt g
  • 数据分析报告概述

    一 结构规范及写作 报告常用结构 1 架构清晰 主次分明 数据分析报告要有一个清晰的架构 层次分明能降低阅读成本 有助于信息的传达 虽然不同类型的分析报告有其适用的呈现方式 但总的来说作为议论文的一种 大部分的分析报告还是适用总 分 总 的
  • 拜占庭将军问题 原文翻译

    拜占庭将军问 作者 LESLIE LAMPORT ROBERT SHOSTAK 和 MARSHALL PEASE 斯坦福国际研究院 译者 校对 闵敏 裴奇 Elisa EthFans org 可靠的计算机系统必须具备处理故障组件的能力 以防
  • nginx反向代理ipv6网站,使其可被ipv4访问

    环境 ubuntu 18 04 1 主机本身ipv6 v4双栈 0 安装nginx sudo apt get install nginx 1 编辑nginx conf sudo vi etc nginx nginx conf 在http 段
  • 镜像下载boot.iso和dvd1.iso的区别;dnf:找不到命令;yum和dnf的区别;CentOS Stream和Linux的区别;dnf: command not found

    这里写目录标题 一 linux 的各个系列 二 End dates are coming in 2024 for CentOS Stream 8 and CentOS Linux 7 三 镜像下载boot iso和dvd1 iso的区别 四
  • [USB 3.0 报错]-高手必看!BIOS 设置中的 xHCI 模式以及 USB 2.0/3.0 的万能 Windows 驱动

    目录 关于 USB 3 0 报错符合 USB xHCI 的主机控制器 错误代码为 10 一个匪夷所思的 USB 3 0 问题 这种情况会导致哪些症状呢 破案了 这个困扰我大半年的问题其实是 intel xHCI 模式的设置问题 初识 xHC
  • 跳转控制语句

    跳转控制语句 continue 用在循环中 基于条件控制 跳过某次循环体内容的执行 继续下一次的执行 break 用在循环中 基于条件控制 终止循环体内容的执行 也就是说结束当前的整个循环 实例 public class ControlDe
  • 新手怎么做期货?一文让你找到方向

    改革开放40年以来 我国经济水平发展逐年上升 人均收入逐年增长 金融衍生品交易市场也随之逐渐繁荣 越来越多的投资者开始走进期货投资市场 其中不乏有新手不知道怎么炒期货 第一 首先要做的功课是了解自己的个性 做期货不是光靠技术 如果成功按10
  • 使用nps内网穿透的问题记录

    实现目标 将局部网 可访问互联网 设备的端口映射到公网服务器上 1 资料准备 下载nps server 和npc client 安装包 https github com ehang io nps releases 文档 https ehan
  • SpringCloud-消息驱动

    消息驱动 Spring Cloud Stream 概述 常见MQ 消息中间件 ActiveMQ RabbitMQ RocketMQ Kafka 有没有一种新的技术诞生 让我们不再关注具体MQ的细节 我们只需要用一种适配绑定的方式 自动的给我
  • 高并发模拟~多个线程同时发起请求

    高并发模拟 多个线程同时发起请求 两种方案 CyclicBarrier 栅栏 所有的线程必须同时到达栅栏位置 才能继续执行 CountDownLatch 计数器 一个线程或多个线程一直等待 直到其他线程执行的操作完成 1 CyclicBar
  • 【Mo&AI TIME 人工智能技术博客】矛与盾的对决——神经网络后门攻防

    本篇文章内容转载于 AI TIME论道 公众号 秉持着合作共享的信念 希望给热爱人工智能的你们 提供更全面 前沿的人工智能和学科发展资讯 2022年7月9日 AI TIME组织了Ph D Debate第十一期 题为 矛与盾的对决 神经网络后