论文阅读-NOLANet多模态伪造检测

2023-11-18

一、论文信息:

  • 题目:Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模态伪造检测——视觉+频谱+语音)

  • 作者团队:

  • 会议:AIPR 2020

二、背景与创新

  1. 背景:合成视频威胁到数字媒体的信任与隐私,许多deepfake检测方法使用单帧视频,并且只专注于图像中的空间信息或被操纵视频的时间不一致性来实现鉴伪,单模态。

  1. 创新:作者提出一种混合深度学习方法,建立了一个多模态网络来检测深度伪造视频,主要包括三个子网络:唇读+语音识别特征、音频信号+频谱、视觉+频谱。

三、网络结构

NOLANet:

子网络

1)VSNet(视觉+频谱):该子网络仅评估视频的视觉特征所提供的消息。该子网络根据XceptionNet网络特征和1D DCT特征来估计时间特征。XceptionNet输出特征大小为2048,三个界标边界框的每个1D DCT的总和为765,这些特征被连接,总的输入大小为2324个特征,并输入到具有1秒时间窗口的LSTM做预测。

2)FourierNet(音频信号+频谱):傅里叶网络专注于视觉特征的频谱信息以及音频信号的频谱 ,视觉特征的频谱信息通过关键点的DCT和具有音频样本的短时傅里叶变换的音频的频谱信息来计算,每个输入的时间跨度为1秒,这些特征被连接起来,总特征大小为1495,并送进LSTM。

3)LipSpeech(唇读+语音):用于评估视觉数据与音频数据的对齐情况,即比较LipNet和DeepSpeech2的输出,LipNet是基于唇读预测文本,DeepSpeech2基于音频预测语音,两个子网络基于的假设为:分别固有的知道视位和音素,这些模型的每一个输入是1秒的序列,从而产生表示基于音频的1秒翻译文本和基于嘴部运动的1秒翻译文本的输出特征向量,并将其输入到LSTM中。

四、数据处理

1、输入输出:

  • 输入:视频

  • 输出:视频二分类(真/假)

  • 数据集:DFDC数据集;5000个视频,真假比例1:1,训练集与测试集比例9:1。

2、数据处理或增广:

1)面部检测与关键点提取:每个面部区域被裁剪并调整到128x128像素,使用预训练BlazeFace模型提取面部区域。之后通过仿射变换缩放为299x299像素,在检测和保存面部之后,执行仿射变换归一化标志点的位置,再使用面部对准网络(FANet)检测面部标志,并分别裁出眉眼、鼻部和唇部。(眉眼/嘴2:1;鼻子1:1)

3、处理形式、训练策略:

1)视觉模态形式:

  • XceptionNet:30fps的帧率,裁完人脸缩放到299*299过XceptionNet得到2048维特征。

  • DCT变换:降维后的255维度关键区域的DCT频谱。

  • LipNet:裁完人脸缩放到299*299过唇读模型得到512维特征,唇读网络,通过解码说话者嘴部运动来输出文本,可以与音频一起使用,检测可能的异常。

2)语音模型形式:

  • Spectrogram:短时傅里叶变换音频处理生成声谱特征(730维),需确保音频特征在时间上与视觉特征对齐,采样窗口必须相同,声谱图输入样本的窗口大小必须与视频中出现的时间相匹配,帧速率为30FPS,1帧对应33ms语音窗口,提取音频-视频模态特征过LSTM按秒对齐。

窗口大小:

输入的离散音频信号:

短时傅里叶变换:

  • DeepSpeech2:DeepSpeech2预训练模型,该模型基于包含20ms的窗口大小和10ms的窗口跨度的频谱图,我们模型的所有其他时间输入数据是33ms的窗口大小(30fps的1帧视频),所以无法简单地对齐DeepSpeech2的输出特征和我们模型的所有其他特征,所以为DeepSpeech2准备了一个LSTM,我们实现了与每个LSTM的顺序输入的对齐,视觉LSTM使用三十个连续的帧,这实现了1秒的时间长度,而DeepSpeech2 LSTM使用50个连续的输入特征,这实现了1秒的匹配时间长度。

3)特征对齐:视频-音频对齐

4、损失函数:交叉熵损失

五、实验结果

测试了每个子网络以分析其各自的贡献:

总结:XceptionNet与其他功能结合时性能更好,音频域的频谱特征和视觉域中的频谱特征之间没有相关性。

引用的各子网络

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读-NOLANet多模态伪造检测 的相关文章

随机推荐

  • QML的基本使用:建立一个简单得窗口以及一些属性的基本使用

    QML得基本使用 建立一个简单得窗口弹出式对话框 QML的基本使用之有标题栏和无标题栏的区别 首先本人使用的Qt版本是6 3 2因为公司做项目就是用的这个版本所以如果你使用的版本不一样 请自行对代码进行转换 本人建议如果版本不一样 可以通过
  • HarmonyOS应用开发者高级认证练习题

    系列文章目录 HarmonyOS应用开发者基础认证练习题 HarmonyOS应用开发者高级认证练习题 文章目录 系列文章目录 前言 一 判断 二 单选 三 多选 前言 本文所有内容来源于个人进行HarmonyOS应用开发者系列认证的学习过程
  • 3、设置IP地址:节点名

    1 vi空格 etc hosts 点击回车 2 删除当前页面内容后编辑 192 168 空格hadoop1 192 168 空格hadoop2 192 168 空格hadoop3 3 Esc wq 保存退出 是强制退出
  • 无线组网168元的4G路由器真实价值多少?蒲公英4G路由器X4C测评

    4G路由器 看不上 觉得有网线为什么还要4G 就好比无线鼠标和有线鼠标 我肯定选有线鼠标 低延迟先不说 还不需要充电 一样的道理4G有宽带稳定 速度快吗 但是回家过了趟年就有了改观 关在家里两个月 还没有网 只能靠手机打发时间 难受香菇 还
  • serverTimezone

    今天第一次写springboot的时候遇到了这个问题 页面一直刷新不出来 显示url有问题 后来发现在url后面加上 serverTimezone GMT即可 spring datasource url jdbc mysql 127 0 0
  • pandas基本操作3

    字典转DataFrame出错 ValueError If using all scalar values you must pass an index 使用DataFrame columns 初始化并结合使用df append 字典 增加行
  • hadoop集群出现两个datanode节点互相排斥的情况解决

    我明明配置了3个节点的datanode 但是在 http mini2 50070 dfshealth html tab overview 的管理界面了只看到两天存活 Live Nodes 为 2 Dead Nodes 为 0 我想就算有一台
  • Montreal Forced Aligner (MFA)安装教程&失败原因集合

    写在前面 本文章只考虑2 x版本以后的安装时遇到的问题 推荐大家看官方的安装教程 里面设计不同系统 不同场景的安装方式 官网安装教程地址 https montreal forced aligner readthedocs io en lat
  • 出现( linker command failed with exit code 1)错误总结

    这种问题 通常出现在添加第三方库文件或者多人开发时 这种问题一般是找不到文件而导致的链接错误 我们可以从如下几个方面着手排查 1 以如下错误为例 如果是多人开发 你同步完成后发现出现如下的错误 Undefined symbols for a
  • ABAP DOI详解

    导语 DOI是SAP与Office集成的一种技术 是早期OLE的升级版本 把Excel嵌套在程序当中进行展示 需要提前上传模板 在Excel模板中 可以事先设计好公式 在SAP将数据写入Excel中之后会自动用公式进行计算 对于习惯于用Ex
  • [Android] 拍照、截图、保存并显示在ImageView控件中

    最近在做Android的项目 其中部分涉及到图像处理的内容 这里先讲述如何调用Camera应用程序进行拍照 并截图和保存显示在ImageView控件中以及遇到的困难和解决方法 PS 作者购买了本 Android第一行代码 著 郭霖 参照里面
  • python程序里一定要有一个主函数吗_Python 为什么没有 main 函数?为什么我不推荐写 main 函数?...

    在开始正题之前 先要来回答这两个问题 所谓的 main 函数 是指什么 为什么有些编程语言需要强制写一个 main 函数 某些编程语言以 main 函数作为程序的执行入口 例如 C C C Java Go 和 Rust 等 它们具有特定的含
  • JS属性defer

    JS属性defer 利用defer属性 让浏览器读js脚本的时候完全不等脚本 就开始读取图片和html代码 给外链JS脚本添加defer true
  • Android源码分析 - Framework层的ContentProvider全解析

    开篇 本篇以android 11 0 0 r25作为基础解析 在四大组件中 可能我们平时用到最少的便是ContentProvider了 ContentProvider是用来帮助应用管理其自身和其他应用所存储数据的访问 并提供与其他应用共享数
  • Rocky9.2 第一次配置virtualbox报错Kernel driver not installed (rc=-1908)

    完整报错信息如下 Kernel driver not installed rc 1908 The VirtualBox Linux kernel driver is either not loaded or not set up corre
  • PDF文件转化成mobi格式,亲测kindle或者iReader可用!

    convertfiles 点击连接 然后选择要转换的文件 比如我的是MySQL的 选择输入文件和输出文件的格式 转换 对了记得输入邮箱号码 转化完毕会发送连接到邮箱提供下载 或者 网络流畅的情况下转化完毕会自动重定向到下载页面
  • Vue3之路--Less教学

    概览 Less Leaner Style Sheets 的缩写 是一门向后兼容的 CSS 扩展语言 这里呈现的是 Less 的官方文档 中文版 包含了 Less 语言以及利用 JavaScript 开发的用于将 Less 样式转换成 CSS
  • 关于table的selectedRowKeys和selectedRows

    项目使用的组件库是antd 页面中有很多table 有的table有行前面的复选框 于是就有了selectedRowkeys和selectedRows的事 他们两个都是数组 selectedRowkeys存的是table的rowKey 也就
  • .Net/C#: 实现支持断点续传多线程下载的 Http Web 客户端工具类 (C# DIY HttpWebClient)

    选择自 playyuer 的 Blog Net C 实现支持断点续传多线程下载的 Http Web 客户端工具类 C DIY HttpWebClient Reflector 了一下 System Net WebClient 重载或增加了若干
  • 论文阅读-NOLANet多模态伪造检测

    一 论文信息 题目 Deepfake Video Detection Based on Spatial Spectral and Temporal Inconsistencies UsingMultimodal Deep Learning