2021-Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM

2023-11-19

使用可分离卷积LSTM进行暴力检测的高效两流网络

本文亮点为作者对视频进行了预处理,1.取帧差作为输入;2.进行背景抑制,突出运动对象。在模型方面,作者选择了一种轻量级的CNN进行特征提取(MobileNet)。模型分为双流,一个流的输入为帧差,另一个流的输入为背景抑制后的结果,最后两个流都放入MobileNet进行特征提取,之后将输出放入Seperable Convolutional LSTM中,提取时空特征,之后串联两个流的输出。

作者提出了一种有效的双流深度学习架构,可分离卷积LSTM(SepConvLSTM)和与训练的MobileNet其中一个流将背景抑制作为输入,而另一个流则处理相邻帧的差异。作者尝试了三种融合方法来融合双流的输出。作者提出的CNN-LSTM网络可以产生时空特征,同时需要的参数更少。

MobileNet

MobileNet是一种轻量级的2D CNN,它使用深度可分离的卷积和明智的设计选择来开发针对移动和嵌入式视觉应用的快速而有效的模型。
我们还采用了可分离卷积LSTM(SepConvLSTM),该结构是通过将LSTM门中的卷积运算替换为深度可分离卷积来构造的。
在这里插入图片描述
拟议中的管道有两个流,分别由CNN和SepConvLSTM模块组成。 背景抑制和帧差异是预处理模块。 将两个流的输出融合在一起,以产生鲁棒的时空特征。

Seperable Convolutional LSTM

深度可分离卷积是对标准卷积运算的一种有效修改,其中每个输入通道分别与一个滤波器进行卷积,以产生具有相同数量通道的输出。 然后,应用1×1卷积来重组通道中的信息。 这导致计算量减少了。用深度可分离的卷积替换了ConvLSTM单元中的卷积运算,这大大减少了参数计数,并使单元更小巧轻便。

Pre-processin

1.作者将相邻的帧差作为输入,增强了运动信息的捕获能力,帧差可以替代计算量大的光流。
2.作者首先计算所有帧的平均值,平均帧主要包含背景信息,通过抑制背景信息从每帧中减去该平均值,从而加重了该帧中的移动对象。

网络体系结构

在这里插入图片描述
从图中可以看出双流通道,一个通道输入的是帧差的信息,一个通道输入原始帧,并进行了背景抑制。每个流都包含MobileNet模块(蓝白块),该模块从输入的每个时间步生产空间特征,这些功能将传递到每个流中的SepConvLSTM单元,以产生时空编码。每个流的输出都使用Fusion层(灰色方块)进行融合,然后传递到分类器网络。两种流的输出特征相结合,产生了强大的时空特征图,能够区分暴力和非暴力视频。
使用在ImageNet数据集上预训练的MobileNetV2作为CNN来提取空间特征,使用SepConvLSTM从CNN的输出特征图中生产局部时空特征。

融合策略

SepConvLSTM-M:在该模型中,帧流的输出通过LeakyRelu激活层传递。 另一方面,来自帧差异流的特征图将通过Sigmoid激活层。 然后,我们执行逐元素乘法以生成最终的输出特征图。
SepConvLSTM-C:在此变体中,简单地串联了两个流的两个输出特征,并将其传递到分类层。
SepConvLSTM-A:在融合层的最后一个变体中,将两个流的输出特征图逐元素添加以生成最终的视频表示形式

实验

作者在实验中发现,SepConvLSTM-C变体表现最好。并且通过消融实验证明作者提出的SepConvLSTM模型性能比ConvLSTM模型更好。
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2021-Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM 的相关文章

  • untiy的纹理格式介绍

    Desktop RGB Compressed DXT1 压缩的RGB纹理 这是最常见的漫反射纹理格式 4位 像素 32 KB 256x256 RGBA Compressed DXT5 压缩的RGBA纹理 这是漫反射和高光控制纹理的主要格式

随机推荐

  • 如何区分网线是几类的_怎么看网线是几类?

    我来回答下本行业的问题 我是做智能化弱电的 在弱电监控系统中网线是连接弱电局域网中必不可少的材料 也是综合布线系统中最常用的一种传输材质 网线是由4对线8芯组成 每芯都有颜色区分 用于数据传输 网线的分类 网线按照性能划分 可以分为五类线
  • 基于sklearn的简单分类器

    基于sklearn的简单分类器 输入 输出 3 1 0 2 5 1 1 8 1 6 4 0 5 2 0 3 5 1 4 7 1 4 1 0 7 5 已知部分输入和部分输出求当输入为7 5时输出为多少 我们观察上面的规律不难发现 当输入的第一
  • react 使用 scss

    react 使用 scss 日常记录开发中遇到的坑 1 使用 npm install sass loader node sass S 进行安装 2 在页面中直接使用 有时候可以 有时候不行 原因 我个人觉得安装的两个插件本版兼容问题 nod
  • vue,vue-cli和@vue/cli是什么关系?有什么区别?

    vue是构建用户界面的渐进式JavaScript 框架 vue cli是vue的一个官方脚手架工具 快速工程化命令工具 用来帮助程序员们快速搭建基于vue框架的开发环境 vue有很多脚手架工具 vue cli只是其中一种 侧重于单页面应用
  • pytorch 取对角线元素/矩阵对角线元素置0

    pytorch 取对角线元素 矩阵对角线元素置0 使用 torch diag 取对角线元素 使用 torch diag embed 恢复维度 import torch a torch randn 3 3 print a tensor 0 7
  • 在Echarts中的tooltip上添加点击按钮

    需求 在Echarts的tooltips中添加点击按钮并可以鼠标悬停点击该按钮 功能实现 在option中的tooltip添加enterable true的属性 表示鼠标可以移入tooltip中 再在formatter中添加
  • 从Java到区块链:如何成为区块链开发人员

    最近这些天 区块链是每个开发人员的谈资 来自各个领域的许多软件开发商现在正试图进入区块链市场 我们与Mobilunity的区块链软件开发人员Eugene Kyselev 讨论了他是如何走出区块链开发方面的第一步的 希望对大家有所帮助 JAX
  • 上海链节科技:通证经济的到来,拉开了去中心化协作序幕

    国家在肯定扶持区块链技术的同时 也针对币圈进行了强监管 区块链行业经历疯狂到沉默 开始回归理性 重新审视技术带来的变革 技术是无罪的 分布式存储 去中心化 智能合约 加密 挖矿等种种技术或设计理念 都是为了保障信任 实现价值传递 降低交易成
  • Dockerfile: ENTRYPOINT vs CMD

    Dockerfile ENTRYPOINT和CMD的区别 dongmao zhang software engineer 132 人赞同了该文章 翻译 Dockerfile ENTRYPOINT vs CMD 在我们查阅Dockerfile
  • ANDROID

    1 环境构建 2 模拟测试 3 Activity 4android中的资源 5 UI 6 各种控件
  • 剑指offer第二版面试题20:表示数值的字符串(java)

    题目描述 请实现一个函数用来判断字符串是否表示数值 包括整数和小数 例如 字符串 100 5e2 123 3 1416 和 1E 16 都表示数值 但是 12e 1a3 14 1 2 3 5 和 12e 4 3 都不是 分析 1 在数值之前
  • ubuntu18.04上安装TensorFlow2.0

    推特上几乎每天都有关于深度学习中Keras TensorFlow哪个个才是最好的框架的口水战 2019年后 这将不在是个问题 2019年初 tf keras 子模块已引入TensorFlow v1 10 0中 现在 在TensorFlow
  • 线性代数——二次型

    一 通过矩阵研究二次方程 二次型的定义 把含有n个变量的二次齐次函数或方程称为二次型 例如 二次型可以用矩阵来表示 可以表示为 更一般的情况 可以表示为 令 则上式表示为 这就是我们常见的二次型表示方式 在 Linear Algebra a
  • spark groupByKey和groupBy,groupByKey和reduceByKey的区别

    1 groupByKey Vs groupBy 用于对pairRDD按照key进行排序 author starxhong object Test def main args Array String Unit val sparkConf n
  • java文件引用规则 同目录的不用引用 包中的需要引用

    import com Employee public class Hello public static void main String args Person p new Person John Doe11 Employee e new
  • Java中实现数组全排列

    全排列 从n个不同元素中任取m m n 个元素 按照一定的顺序排列起来 叫做从n个不同元素中取出m个元素的一个排列 当m n时所有的排列情况叫全排列 例如 1 2 3三个元素的全排列为 1 2 3 1 3 2 2 1 3 2 3 1 3 1
  • 抖音seo矩阵系统源码搭建开发详解

    抖音SEO矩阵系统是一个用于提高抖音视频在搜索引擎排名的工具 如果你想开发自己的抖音SEO矩阵系统 以下是详细的步骤 开发步骤详解 确定你需要的功能和算法 抖音SEO矩阵系统包含很多功能 比如关键词研究 内容优化 链接建设 社交媒体营销等
  • csdn样式设置

    csdn样式设置 一 文字字体 颜色 大小 二 字体居中 加粗 倾斜 分割线 三 缩进 四 下划线 删除线 空行 换行 五 添加跳转目录 一 文字字体 颜色 大小 设置文字字体的基本语法如下 字体 常见的有宋体 微软雅黑 黑体 华文行楷 方
  • 《每日一题》NO.38:谈谈芯片的IO排布形式,与封装之间的关系?

    芯司机 每日一题 会每天更新一道IC面试笔试题 其中有些题目已经被很多企业参考采用了哦 聪明的你快来挑战一下吧 多多刷题 巩固技术知识 也为求职笔面试加加分 大家快来做题吧 今天是第38题 本题来谈谈芯片的IO排布形式 与封装之间的关系 今
  • 2021-Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM

    使用可分离卷积LSTM进行暴力检测的高效两流网络 本文亮点为作者对视频进行了预处理 1 取帧差作为输入 2 进行背景抑制 突出运动对象 在模型方面 作者选择了一种轻量级的CNN进行特征提取 MobileNet 模型分为双流 一个流的输入为帧