论文阅读-Joint Audio-Visual Deepfake Detection(音视频Deepfake检测)

2023-10-29

一、论文信息

论文名称:Joint Audio-Visual Deepfake Detection

会议:ICCV2021

作者团队:

二、动机与创新

动机

Visual deepfake上有许多检测方法和数据集,而对audio deepfake以及visual-audio两种模式之间的deepfake方法较少。Audio Deepfake主要有两个任务:1)TTS: text-to-speech文本转语音;2)VC:voice conversion语音转换(将一个人语音转为另一个人的声音)。

创新

本文提出一种新的视觉-听觉Deepfake联合检测任务,利用视觉和听觉两种模式之间的内在关系可以帮助deepfake检测。

a中第一行视频帧未被修改,第二行是换脸之后的唇部图片,文字是两个视频中的话;b中第一行也是真实的,伪造视频中的唇形与发音存在较大差异。c中最上面一行是真实的视频帧,对应的真实的声谱图在第二行,TTS生成的声谱图在第三行,听起来像“wow-mount”,由第一行和第三行组成的视听对打破了由第一行和第二行保持的同步模式,作者希望在本文中捕捉到。

三、方法

(a)Independently trained video and audio streams(独立流)

Pv与Pa分别为视频和音频被判断为假的概率,F为特征提取器,将视频和音频的特征映射成对应的特征表示,再通过一个Fφ将其映射成标签,当视频和音频概率都小于0.5时整段视频才能判定为真,其中任一为假的概率大于0.5,则为假。backbone为2018年文章中的分类器,将其改为近期较好的分类器效果可能更好。

(b)Late fusion of video and audio streams(后融合)

与a不同之处在于对网络的最后一层生成的特征直接进行融合(相加/拼接),文中将视频与音频流最后一层特征直接进行相加,再将融合后的特征放进一个分类头中进行预测。左边为视频流,维度为T,表示帧数,C为视频通道,HW为高宽;右边为音频流,长度为T,通道为C,对原始的声谱图直接处理,所以维度为1。G包括两个操作,先对两个流最后层的特征直接融合,再将融合后的特征直接放进分类头中分类。

(c)Two-plus-one streams

其中视频流,维度为T,表示帧数,C为视频通道,HW为高宽;音频流,长度为T,通道为C,对原始的声谱图直接处理,所以维度为1。由于特征维度不匹配所以需要对音频特征进行一些处理:1)首先对音频特征进行了1x1卷积,经过卷积后将音频流的时间部分从Ta汇集到Tv,将音频流与视频流在时间维度上对齐。2)音频为1,视频为H*W,将音频流复制H*W次进行堆叠操作对齐空间轴,将音频信号堆叠成和视频信号一样的维度表示,最后通过联合训练的方法,网络随着时间推移自动学习音频和视频之间对应关系,在每一层音频和视频的表示将与当前同步流融合作为下一层融合的输入。

  • inter-attention

将音视频产生的特征通过下面的公式计算两者之间相关性,然后融合:

Fa为Ta x H x W,Fv转置为H x W x Tv,两个相乘以后得到Ta x Tv,经过上一步将Ta转化为Tv,最终得到了一个Tv x Tv的矩阵e,以第一格为例,横行为来自视频流的一帧特征,竖行为来自音频流的一帧特征,重合部分就是相同帧中音视频的关联性,灰色越深关联性越强。引用注意力机制加强音视频之间的关联性。

  • inter+intra-attention

音视频特征先分别计算各自的相关性,然后融合:

  • Joint-attention

直接将音视频特征进行联立求关联性:

将视频的所有视频帧对应的图片和音频的关联性联合起来,最后做预测pw

四、实验

数据集

  1. FF++: 包含5000个带有音频通道的视频序列,其中大多数语音不是英语,但实验性能并没有下降,表明方法实际上是有泛化性的。

  2. DFDC:拥有超过100000个英文视频和音频序列,为了确保视听同步,作者移除了那些声音来自摄影师而非演员的序列(画外音)。

  3. 遵循原始数据中的train/val/test分割,并随机地将真实音频和合成音频交换,对于测试保持“真假”(视频真音频假)、“假真”、“真真”和“假假”的数量平衡。

性能

FF++数据集性能(左)、DFDC数据集性能(右)

五、总结

本文提出了一个通过联合视频和音频模式来检测deepfake的新任务,我们事先不知道视频还是音频被操纵,本文利用学习到的视频和音频之间的内在同步提高了基于视频和音频的deepfake检测的性能,同时泛化性不错。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读-Joint Audio-Visual Deepfake Detection(音视频Deepfake检测) 的相关文章

随机推荐

  • IDEA 快速生成项目结构的文档树形式

    参考文献 taodudu idea快速生成项目结构图 参考日期 2023 05 17 需求 在写文档的时候 想把项目结构输出成文档树的形式 实现 在 IDEA 中 可以点击下方 Terminal 按钮或 Alt F12 打开终端 同理 在命
  • 旋转矩阵 推导

    旋转变换 一 旋转矩阵 1 简介 计算机图形学中的应用非常广泛的变换是一种称为仿射变换的特殊变换 在仿射变换中的基本变换包括平移 旋转 缩放 剪切这几种 本文以及接下来的几篇文章重点介绍一下关于旋转的变换 包括二维旋转变换 三维旋转变换以及
  • vue3+vite+TS如何实现水印

    水印是通过canvas画图来实现的 首先需要创建一个ts的文件夹 之后在APP vue中全局加入水印 这样就可使全部页面都有水印 如果想要某个页面实现水印只需要单独写在页面即可 这里的判断主要是判断是否登录 登陆时再加上水印 如若不需要判断
  • 无需MS Office创建Excel!再C ++中以编程方式在Excel电子表格中创建图表

    图表是简洁显示数据的绝佳工具 此外 它们以可视方式表示数据 从而更易于使用大量数据 在需要显示数据 例如每月预算比较或产品采用率 的情况下 图表可能会有所帮助 有鉴于此 本文将教您如何使用C 在Excel文件中创建图表 使用C 在Excel
  • 多项目管理五大特点

    多项目管理建立在一般项目管理的基础上 所以它具有项目管理的所有特点 同时 多项目管理无论在内涵还是外延方面 都处在不断完善的发展中 具有区别于一般的单项目管理的特点 战略性 单项目管理注重项目本身的计划 执行及控制 并确保提交合格的最终项目
  • [python] ThreadPoolExecutor线程池

    初识 Python中已经有了threading模块 为什么还需要线程池呢 线程池又是什么东西呢 在介绍线程同步的信号量机制的时候 举得例子是爬虫的例子 需要控制同时爬取的线程数 例子中创建了20个线程 而同时只允许3个线程在运行 但是20个
  • LTS-局部时间步,自动调节步长技术

    在查看interFoam求解器时 会发现其中引入了LTS if LTS include setRDeltaT H 那么它的含义和功能是什么呢 LTS locall time step 是一种局部时间步求解器 该求解器建立于局部时间步下 它会
  • 小米官网(前一部分)html

  • QMessageBox 消息框

    QMessageBox QMessageBox是Qt框架提供的用于弹出消息对话框的类 它可以用于显示一些提示信息 警告信息 错误信息等 QMessageBox的使用非常简单 只需要调用静态方法即可弹出对话框 QMessageBox info
  • 【深度学习】 Python 和 NumPy 系列教程(十四):Matplotlib详解:1、2d绘图(下):箱线图、热力图、面积图、等高线图、极坐标图

    目录 一 前言 二 实验环境 三 Matplotlib详解 1 2d绘图类型 0 设置中文字体 1 5 折线图 散点图 柱状图 直方图 饼图 6 箱线图 Box Plot 7 热力图 Heatmap 8 面积图 Area Plot 9 等高
  • 2021年深度学习的医学图像分割技术研究进展

    基于深度学习的医学图像分割技术研究进展 闫 超 孙占全 田恩刚 赵杨洋 范小燕 摘 要 医学图像分割在临床诊断中发挥着重要作用 也是其他医学图像处理方法的基础 随着计算机硬件性能的提高 基于深度学习的图像分割技术已成为处理医学图像的有力工具
  • CTF MISC压缩包简单题学习思路总结(持续更新)

    系列文章目录 太复杂了 已经懒得写目录了 怎么我自己分了这么多篇CTF简单题思路总结啊 我真是太菜了 各位大佬有兴趣可以去分类专栏看一看 文章目录 系列文章目录 前言 一 压缩包识别 修复 二 压缩包伪加密 三 压缩包破解 3 1 暴力破解
  • Matlab比较2个 二维矩阵 或 二维图像 相似度的方法总结

    1 corr2 A B cor corr2 A B 2 通过直方图相似性比较 参考 https blog csdn net xiaojianzhao article details 103785809 如果两张图像的直方图一样 或者有极高的
  • 初始C语言——统计单词

    define CRT SECURE NO WARNINGS 1 防止visual studio2013以上版本scanf报错 vc6 0环境可忽略 include
  • python算法中的深度学习算法之深度信念网络(详解)

    目录 学习目标 学习内容 深度信念网络 预训练 微调 学习目标 一分钟掌握 python算法中的深度学习算法之深度信念网络 入门知识
  • pip安装jupyter notebook后找不到jupyter notebook命令

    安装jupyter pip install jupyter notebook 配置环境变量 在系统变量的path中添加一下路径 YourUsername是你的用户名 C Users YourUsername AppData Roaming
  • 【转载】[python基础] python中变量存储的方式

    为了解决刚刚python 2 循环运算中 变量存储的地址与期望值的地址不同的问题 稍微检索了下python中变量的存储方式 虽然并没有解决问题 但应该可以猜测是python 3更新期间 修改 或者说bugfix 了变量存储的方式 所以在py
  • 斯坦福大学吴恩达教授联手OpenAI上线chatGPT免费课程

    斯坦福大学吴恩达教授和 OpenAI 一起制作了四个关于 ChatGPT 的短课程 一共有四个课 每个课都是一个小时左右 并且每个课被分成了多个小节 建议收看的顺序是 1 ChatGPT Prompt Engineering for Dev
  • spring ajax传输json

    ajax传输文件 主要用一个jquery文件来执行 链接 https pan baidu com s 12 YznRvPxxsvADqbKSoseg 提取码 lphb 发送Ajax请求要 用到 js jquery文件 为了 防止 静态文件被
  • 论文阅读-Joint Audio-Visual Deepfake Detection(音视频Deepfake检测)

    一 论文信息 论文名称 Joint Audio Visual Deepfake Detection 会议 ICCV2021 作者团队 二 动机与创新 动机 Visual deepfake上有许多检测方法和数据集 而对audio deepfa