视频时序动作识别（video action recognition）介绍

2023-05-16

一、视频时序动作识别算法分类

根据网络的工作方式，可以将视频时序动作识别算法大致分为四大类：

采用2D卷积的方法
采用3D卷积的方法
双流法
引入VLAD的方法

1.1 采用2D卷积的方法

《TSM: Temporal Shift Module for Efficient Video Understanding》算法详解
《TEA: Temporal Excitation and Aggregation for Action Recognition》算法详解
《TDN: Temporal Difference Networks for Efficient Action Recognition》论文详解
《No frame left behind: Full Video Action Recognition》算法详解

1.2 采用3D卷积的方法

《Learning Spatiotemporal Features with 3D Convolutional Networks》(C3D)算法详解
《Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification》(S3D)算法详解
《ECO: Efficient Convolutional Network for Online Video Understanding》算法详解
《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》(P3D)算法详解
《SlowFast Networks for Video Recognition》算法详解
《X3D: Expanding Architectures for Efficient Video Recognition》算法详解

1.2 双流法

《Two-Stream Convolutional Networks for Action Recognition in Videos》(TSN)算法详解
《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》(TSM)算法详解

1.3 引入VLAD的方法

《ActionVLAD算法详解》

二、常用数据集介绍

Sports-1M数据集介绍：
	* 1.1 millions运动视频
	* 487个视频类

UCF101数据集介绍：
	* 13320个视频片段
	* 9.5K训练，3.7K测试视频
	* 视频帧大小320*240
	* 总共101类，内容包含化妆刷牙、爬行、理发、弹奏乐器、体育运动五大类。
	* 每类动作由25个人做动作，每人做4-7组

ActivatyNet数据库介绍

* 人类动作识别数据库
* v1.3版本中有19994段视频，包含200类
* 10024段视频为训练集，4926段视频为验证集，5044段视频为测试集
* 测试集label没有公开，一般就是使用验证集来作为测试集

HMDB51数据介绍
	* 6766个视频
	* 51个动作类别
	* 内容包括人面部、肢体、和物体交互的动作这几大类

Kinetic-400 数据库介绍

* 240k训练视频，20k验证，35k测试
* 400类人类动作类别
* 内容为画画、大笑、拥抱、除草等
* 每个视频大约10秒
* 数据来源于YouTube

Kinetic-600 数据库介绍

* Kinetic-400数据库的扩展
* 600类人类动作类别
* 总共500k段视频

Charades 数据库介绍

* 9848段视频
* 157类室内日常行为
* 多标签
* 每个视频大约30s

其它视频任务介绍请查看-文章<<主流的视频动作类算法任务介绍>>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

video

action

recognition

视频时序动作识别

视频时序动作识别（video action recognition）介绍的相关文章

将 H.264 I 帧放入 AVSampleBufferDisplayLayer 但不显示视频图像

在详细回顾了 WWDC2014 Session513 后我尝试在 IOS8 0 上编写我的应用程序来解码和显示一个实时 H 264 流首先我成功构建了H264参数集当我得到一个带有 4 位起始代码的帧时就像 0x00 0x00 0
使用 ffmpeg 进行视频标准化

无论如何有没有使用 ffmpeg 脚本将视频亮度标准化为其完整的动态范围我一直在尝试用 lutyuv 这样做 ffmpeg i input mp4 vf lutyuv y val minval 255 maxval minval 输出
iOS4：如何使用视频文件作为 OpenGL 纹理？

我正在尝试将视频文件的内容暂时不包含音频显示到 OpenGL 中的 UV 映射 3D 对象上我已经在 OpenGL 中做了相当多的工作但不知道从哪里开始处理视频文件而且大多数示例似乎都是从相机获取视频帧这不是我想要的目前我觉得
使用 Python 从原始帧创建 MPEG4 视频文件

我有一个原始视频帧源我可以在 Python 中访问它我想用它创建一个 MPEG4 视频并带有 MP3 背景音乐 Python 中有哪些类型的工具和库可用于此类任务最好我想要一个 API 我可以为其提供输出文件名然后将各个帧作为 2
我可以从带时间戳的图像创建 VFR 视频吗？

首先我对图像制作视频的经验几乎为零我拥有的是一组带有 BMP 时间戳的图像我想从中生成视频由于时间戳的间隔不相等我不能简单地使用从图像创建恒定帧速率视频的软件一个可能的解决方案是在固定的时间间隔创建人造图像但如果我无法制作 V
如何调试视频解码损坏？

我刚刚开始为一家新公司工作我的新角色要求我帮助调试他们通过解码帧接收到的视频损坏尽管我打算深入研究代码并研究问题的具体细节但它让我开始思考视频调试的总体情况由于处理视频对我来说非常陌生整个过程看起来相当复杂而且似乎有很多地方可以
为视频添加水印的命令

我尝试在一个视频上添加水印但 FFmpeg 命令不会执行错误代码为 3037 我运行相同的代码来修剪视频视频已成功修剪因此没有问题inputpath or outputpath我也有ic watermark png在资产文件夹中我
使用 Servlet 启动 VLC HTTP Stream 时出现问题

我正在为自己开发一个 VLC 项目我的目标是创建一个 HTML 前端来启动流我通过使用 Java Servlet 来完成此操作概述乌班图13 04 Java 7 21 冰茶 2 3 9 Eclipse JAVAEE IDE 雄猫7
Facebook Messenger Bot：视频附件的大小？能有多大？

至少在此处的文档中没有说明通过 Facebook Messenger 发送视频附件时所需的大小和格式 https developers facebook com docs messenger platform send api refere
使用 ffmpeg 将视频与其自身连接，但相反

我能够逆转 ffmpeg i input mp4 vf reverse output reversed mp4 我可以连接 ffmpeg i input mp4 i input mp4 filter complex 0 0 0 1 1 0
VideoJs 在 Firefox 中的 Flash 回退问题

我尝试将 videoJs 添加到我的网站来播放 MP4 文件所有这些在 Chrome 中都能完美运行但当我转到 Firefox 不支持 MP4 文件时 Flash 播放器停留在黑屏上按钮不执行任何操作简单的问题为什么我不明白
flash/flex：渐进式下载与 rtmp

我试图理解并真正确定何时在 Flex flash 中使用渐进式下载与 rtmp 看来主要的一点是 rtmp 不与 http 一起提供服务而渐进式下载则由 http 提供由于它不是 rtmp 因此资源受到保护因为无法从 swf 外部连接
是否可以使用 S3 进行 Flash 伪流？

我一直在使用 S3 来存储和提供 FLV 和 MP4 视频它效果很好但内容是渐进下载的我想知道是否有可能让所谓的伪流与 S3 一起使用伪流允许观看者在下载完整视频之前在视频中向前搜索并仅将必要的位发送到 Flash 播放器我
如何将视频转换为base64数据

我有一个应用程序可以从相机或图库中获取视频并将其转换为 Base64 数据并将该数据发送到服务器但问题是每当我转换 Base64 数据时 videodata 变量中的数据都不是正确的为此我使用了下面的代码 FileInputStre
通过 Websockets 进行 WebRTC 视频聊天

我正在尝试使用 webRTC 和 WebSockets 进行信号发送来开发视频聊天应用程序我的问题是我不知道创建 RTCPeerConnection 并通过 webSocket 连接两个对等点 2 个浏览器的过程是什么至少在本地我
HTML 5 视频自定义控件

与许多 Web 开发人员一样我期待着利用新的 HTML 5 进行流式传输视频
Android - 如何合并两个视频

基本上我正在寻找一种将两个 mp4 视频文件在 SD 卡上组合在一起的方法更像是在第一个视频的末尾附加第二个视频我进行了很多搜索但找不到合适的解决方案好吧我根本找不到任何解决方案所以我的问题是是否有一个库可以组合并可能
如何在 Jekyll 博客中包含视频标签/mp4 视频

I am not寻找一种方法链接到 YouTube https stackoverflow com questions 10529859 how to include video in jekyll markdown blog 122738
从内存流播放视频文件

只是好奇看看这是否可能我有一个 Windows 应用程序它从我的电脑上的 avi 文件读取所有字节然后将其存储在 byte 中现在我的内存中有 avi 文件我想直接从内存将其加载到某种视频播放器控件中我尝试过使用 wmplaye
iOS 如何触发视频退出全屏后继续播放？

我正在构建一个在 iOS 中播放视频的网站我有一个在 iOS 中工作的全屏按钮但是退出全屏时视频会暂停有谁知道一种方法可以强制视频在退出全屏时继续播放或者如何设置一个侦听器来触发视频在退出全屏时自动播放这是我的代码

随机推荐

记录：c#中使用Selenium之一使用chrome驱动手机模式浏览

1 最近研究c 使用各种模拟浏览器的工具 xff0c 下面是Selenium的使用记录 1 xff09 首先使用Nuget搜索以下依赖库 2 xff09 我使用的是手机模式的浏览方式下面为手机浏览模式设置的代码 xff0c 以移动端百度搜
解决VS平台迁移时报错error MSB8020：The build tools for v141

将在VS2017上编译的程序放到VS2013中 xff0c 报错 xff1a error MSB8020 The build tools for v141 Platform Toolset 61 39 v141 39 cannot be f
C++ 中的char型变量

最简单的字符数据类型是 char 数据类型该类型的变量只能容纳一个字符 xff0c 而且在大多数系统上 xff0c 只使用一个字节的内存以下示例即声明了一个名为 letter 的 char 变量请注意 xff0c 这里的字符常数就是赋
linux下DISPLAY和xhost + 作用

在Linux Unix类操作系统上 DISPLAY用来设置将图形显示到何处直接登陆图形界面或者登陆命令行界面后使用startx启动图形 DISPLAY环境变量将自动设置为 0 0 此时可以打开终端输出图形程序的名称比如xclock 来
配置 maven 编译的 JDK 版本

两种方式 xff1a 一可以修改 MAVEN 的 setting xml 文件 xff0c 统一修改 lt profiles gt lt profile gt lt id gt jdk 1 6 lt id gt lt activation
利用redis的setIfAbsent()方法实现分布式锁

再集群环境中 xff0c 存在定时任务多次执行 xff0c 浪费资源 xff0c 那么如何避免这种情况呢 xff0c 下面就说明一下如何利用一个注解解决问题 xff0c 利用切面配合redis可以简单实现分布式锁 xff0c 解决定时任务重
Virtualbox主机和虚拟机之间文件夹共享及双向拷贝（win7——centos7）

一双向拷贝 xff1a 然后 xff0c 还需要通过virtualbox上安装一个增强的工具此时 xff0c 会在centos上安装一些工具 xff1a 鼠标自动在宿主机虚拟机之间移出同时 xff0c 在centos上会出现一个安装
Record something about DL

这篇文章算是DL实践杂谈吧 xff0c 主要是想把自己模型调优和复现算法遇到的一些坑总结一下 xff08 里面的一行字可能是我当时花费了一周甚至更长时间得到的总结 xff09 xff0c 希望能对读者有所帮助一熟悉数据模型是数据的浓缩
Image captioning任务常用的评价指标计算

BLEU ACL 2002Meteor AMTA 2004ROUGE L ACL 2004CIDEr CVPR 2015SPICE ECCV 2016
Image captioning评价方法之BLEU (bilingual evaluation understudy)

文章地址 xff1a BLEU a Method for Automatic Evaluation of Machine Translation 代码地址非官方 xff1a https github com tylin coco capt
Image captioning评价方法之Meteor

项目地址 xff1a http www cs cmu edu alavie METEOR 代码地址 xff08 非官方实现 xff0c 实现的是项目地址中的1 5版本 xff09 xff1a https github com tylin c
Image captioning评价方法之ROUGE-L

文章地址 xff1a ROUGE A Package for Automatic Evaluation of Summaries 代码地址非官方 xff1a https github com tylin coco caption 文章由U
Image captioning评价方法之CIDEr

文章地址 xff1a CIDEr Consensus based Image Description Evaluation 代码地址 xff08 非官方 xff0c 且代码实现的是CIDEr D xff09 xff1a https gith
Image captioning评价方法之SPICE

项目地址 xff1a https panderson me spice 上述的项目地址包含了论文地址和代码地址该方法是由The Australian National University和Macquarie University联合发表
R3DS Wrap基本使用方法

中文的R3DS Wrap软件的教程较少 xff0c 最近刚好实操了一遍 xff0c 特此记录下来为了描述方便 xff0c 下面将R3DS Wrap简称Wrap 软件官网 xff1a https www russian3dscanner c
docker使用入门简介

一什么是docker xff1f https www docker com resources what container 使用docker时有两个重要概念 xff0c 一个是镜像 xff08 images xff09 xff0c 一个
SpringBoot整合Quartz 实现分布式定时任务调度

一 Quartz 集群架构 Quartz 是 Java 领域最著名的开源任务调度工具在上篇文章中 xff0c 我们详细的介绍了 Quartz 的单体应用实践 xff0c 如果只在单体环境中应用 xff0c Quartz 未必是最好的选择
《Attention Is All You Need》算法详解

该篇文章右谷歌大脑团队在17年提出 xff0c 目的是解决对于NLP中使用RNN不能并行计算 xff08 详情参考译理解LSTM xff08 通俗易懂版 xff09 xff09 xff0c 从而导致算法效率低的问题该篇文章中的模型就是
主流的视频动作类算法任务介绍

动作识别 action recognition xff1a 是对每个输入视频进行分类 xff0c 识别出视频中人物做出的动作即输入视频序列 xff0c 得到视频对应的类别时序动作检测 temporal action detection
视频时序动作识别（video action recognition）介绍

一视频时序动作识别算法分类根据网络的工作方式 xff0c 可以将视频时序动作识别算法大致分为四大类 xff1a 采用2D卷积的方法采用3D卷积的方法双流法引入VLAD的方法 1 1 采用2D卷积的方法 TSM Temporal Shif

视频时序动作识别（video action recognition）介绍

一、视频时序动作识别算法分类

1.1 采用2D卷积的方法

1.2 采用3D卷积的方法

1.2 双流法

1.3 引入VLAD的方法

二、常用数据集介绍

视频时序动作识别（video action recognition）介绍 的相关文章

随机推荐

热门标签

视频时序动作识别（video action recognition）介绍的相关文章