论文阅读-NOLANet多模态伪造检测

2023-11-18

一、论文信息：

题目：Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning（多模态伪造检测——视觉+频谱+语音）

作者团队：

会议：AIPR 2020

二、背景与创新

背景：合成视频威胁到数字媒体的信任与隐私，许多deepfake检测方法使用单帧视频，并且只专注于图像中的空间信息或被操纵视频的时间不一致性来实现鉴伪，单模态。

创新：作者提出一种混合深度学习方法，建立了一个多模态网络来检测深度伪造视频，主要包括三个子网络：唇读+语音识别特征、音频信号+频谱、视觉+频谱。

三、网络结构

NOLANet:

子网络

1）VSNet（视觉+频谱):该子网络仅评估视频的视觉特征所提供的消息。该子网络根据XceptionNet网络特征和1D DCT特征来估计时间特征。XceptionNet输出特征大小为2048，三个界标边界框的每个1D DCT的总和为765，这些特征被连接，总的输入大小为2324个特征，并输入到具有1秒时间窗口的LSTM做预测。

2）FourierNet（音频信号+频谱）:傅里叶网络专注于视觉特征的频谱信息以及音频信号的频谱，视觉特征的频谱信息通过关键点的DCT和具有音频样本的短时傅里叶变换的音频的频谱信息来计算，每个输入的时间跨度为1秒，这些特征被连接起来，总特征大小为1495，并送进LSTM。

3）LipSpeech（唇读+语音）:用于评估视觉数据与音频数据的对齐情况，即比较LipNet和DeepSpeech2的输出，LipNet是基于唇读预测文本，DeepSpeech2基于音频预测语音，两个子网络基于的假设为：分别固有的知道视位和音素，这些模型的每一个输入是1秒的序列，从而产生表示基于音频的1秒翻译文本和基于嘴部运动的1秒翻译文本的输出特征向量，并将其输入到LSTM中。

四、数据处理

1、输入输出：

输入：视频

输出：视频二分类（真/假）

数据集：DFDC数据集；5000个视频，真假比例1:1，训练集与测试集比例9:1。

2、数据处理或增广：

1）面部检测与关键点提取：每个面部区域被裁剪并调整到128x128像素，使用预训练BlazeFace模型提取面部区域。之后通过仿射变换缩放为299x299像素，在检测和保存面部之后，执行仿射变换归一化标志点的位置，再使用面部对准网络（FANet）检测面部标志，并分别裁出眉眼、鼻部和唇部。（眉眼/嘴2:1；鼻子1:1）

3、处理形式、训练策略：

1）视觉模态形式：

XceptionNet：30fps的帧率，裁完人脸缩放到299*299过XceptionNet得到2048维特征。

DCT变换：降维后的255维度关键区域的DCT频谱。

LipNet：裁完人脸缩放到299*299过唇读模型得到512维特征,唇读网络，通过解码说话者嘴部运动来输出文本，可以与音频一起使用，检测可能的异常。

2）语音模型形式：

Spectrogram:短时傅里叶变换音频处理生成声谱特征（730维），需确保音频特征在时间上与视觉特征对齐，采样窗口必须相同，声谱图输入样本的窗口大小必须与视频中出现的时间相匹配，帧速率为30FPS，1帧对应33ms语音窗口，提取音频-视频模态特征过LSTM按秒对齐。

窗口大小：

输入的离散音频信号：

短时傅里叶变换：

DeepSpeech2:DeepSpeech2预训练模型，该模型基于包含20ms的窗口大小和10ms的窗口跨度的频谱图，我们模型的所有其他时间输入数据是33ms的窗口大小（30fps的1帧视频），所以无法简单地对齐DeepSpeech2的输出特征和我们模型的所有其他特征，所以为DeepSpeech2准备了一个LSTM，我们实现了与每个LSTM的顺序输入的对齐，视觉LSTM使用三十个连续的帧，这实现了1秒的时间长度，而DeepSpeech2 LSTM使用50个连续的输入特征，这实现了1秒的匹配时间长度。

3）特征对齐：视频-音频对齐

4、损失函数：交叉熵损失

五、实验结果

测试了每个子网络以分析其各自的贡献：

总结：XceptionNet与其他功能结合时性能更好，音频域的频谱特征和视觉域中的频谱特征之间没有相关性。

引用的各子网络

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读-NOLANet多模态伪造检测的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

QML的基本使用：建立一个简单得窗口以及一些属性的基本使用

QML得基本使用建立一个简单得窗口弹出式对话框 QML的基本使用之有标题栏和无标题栏的区别首先本人使用的Qt版本是6 3 2因为公司做项目就是用的这个版本所以如果你使用的版本不一样请自行对代码进行转换本人建议如果版本不一样可以通过
HarmonyOS应用开发者高级认证练习题

系列文章目录 HarmonyOS应用开发者基础认证练习题 HarmonyOS应用开发者高级认证练习题文章目录系列文章目录前言一判断二单选三多选前言本文所有内容来源于个人进行HarmonyOS应用开发者系列认证的学习过程
3、设置IP地址:节点名

1 vi空格 etc hosts 点击回车 2 删除当前页面内容后编辑 192 168 空格hadoop1 192 168 空格hadoop2 192 168 空格hadoop3 3 Esc wq 保存退出是强制退出
无线组网168元的4G路由器真实价值多少？蒲公英4G路由器X4C测评

4G路由器看不上觉得有网线为什么还要4G 就好比无线鼠标和有线鼠标我肯定选有线鼠标低延迟先不说还不需要充电一样的道理4G有宽带稳定速度快吗但是回家过了趟年就有了改观关在家里两个月还没有网只能靠手机打发时间难受香菇还
serverTimezone

今天第一次写springboot的时候遇到了这个问题页面一直刷新不出来显示url有问题后来发现在url后面加上 serverTimezone GMT即可 spring datasource url jdbc mysql 127 0 0
pandas基本操作3

字典转DataFrame出错 ValueError If using all scalar values you must pass an index 使用DataFrame columns 初始化并结合使用df append 字典增加行
hadoop集群出现两个datanode节点互相排斥的情况解决

我明明配置了3个节点的datanode 但是在 http mini2 50070 dfshealth html tab overview 的管理界面了只看到两天存活 Live Nodes 为 2 Dead Nodes 为 0 我想就算有一台
Montreal Forced Aligner (MFA)安装教程&失败原因集合

写在前面本文章只考虑2 x版本以后的安装时遇到的问题推荐大家看官方的安装教程里面设计不同系统不同场景的安装方式官网安装教程地址 https montreal forced aligner readthedocs io en lat
出现（ linker command failed with exit code 1）错误总结

这种问题通常出现在添加第三方库文件或者多人开发时这种问题一般是找不到文件而导致的链接错误我们可以从如下几个方面着手排查 1 以如下错误为例如果是多人开发你同步完成后发现出现如下的错误 Undefined symbols for a
ABAP DOI详解

导语 DOI是SAP与Office集成的一种技术是早期OLE的升级版本把Excel嵌套在程序当中进行展示需要提前上传模板在Excel模板中可以事先设计好公式在SAP将数据写入Excel中之后会自动用公式进行计算对于习惯于用Ex
[Android] 拍照、截图、保存并显示在ImageView控件中

最近在做Android的项目其中部分涉及到图像处理的内容这里先讲述如何调用Camera应用程序进行拍照并截图和保存显示在ImageView控件中以及遇到的困难和解决方法 PS 作者购买了本 Android第一行代码著郭霖参照里面
python程序里一定要有一个主函数吗_Python 为什么没有 main 函数？为什么我不推荐写 main 函数？...

在开始正题之前先要来回答这两个问题所谓的 main 函数是指什么为什么有些编程语言需要强制写一个 main 函数某些编程语言以 main 函数作为程序的执行入口例如 C C C Java Go 和 Rust 等它们具有特定的含
JS属性defer

JS属性defer 利用defer属性让浏览器读js脚本的时候完全不等脚本就开始读取图片和html代码给外链JS脚本添加defer true
Android源码分析 - Framework层的ContentProvider全解析

开篇本篇以android 11 0 0 r25作为基础解析在四大组件中可能我们平时用到最少的便是ContentProvider了 ContentProvider是用来帮助应用管理其自身和其他应用所存储数据的访问并提供与其他应用共享数
Rocky9.2 第一次配置virtualbox报错Kernel driver not installed (rc=-1908)

完整报错信息如下 Kernel driver not installed rc 1908 The VirtualBox Linux kernel driver is either not loaded or not set up corre
PDF文件转化成mobi格式，亲测kindle或者iReader可用！

convertfiles 点击连接然后选择要转换的文件比如我的是MySQL的选择输入文件和输出文件的格式转换对了记得输入邮箱号码转化完毕会发送连接到邮箱提供下载或者网络流畅的情况下转化完毕会自动重定向到下载页面
Vue3之路--Less教学

概览 Less Leaner Style Sheets 的缩写是一门向后兼容的 CSS 扩展语言这里呈现的是 Less 的官方文档中文版包含了 Less 语言以及利用 JavaScript 开发的用于将 Less 样式转换成 CSS
关于table的selectedRowKeys和selectedRows

项目使用的组件库是antd 页面中有很多table 有的table有行前面的复选框于是就有了selectedRowkeys和selectedRows的事他们两个都是数组 selectedRowkeys存的是table的rowKey 也就
.Net/C#: 实现支持断点续传多线程下载的 Http Web 客户端工具类 (C# DIY HttpWebClient)

选择自 playyuer 的 Blog Net C 实现支持断点续传多线程下载的 Http Web 客户端工具类 C DIY HttpWebClient Reflector 了一下 System Net WebClient 重载或增加了若干
论文阅读-NOLANet多模态伪造检测

一论文信息题目 Deepfake Video Detection Based on Spatial Spectral and Temporal Inconsistencies UsingMultimodal Deep Learning

论文阅读-NOLANet多模态伪造检测

论文阅读-NOLANet多模态伪造检测 的相关文章

随机推荐

热门标签

论文阅读-NOLANet多模态伪造检测的相关文章