时空动作检测 (spatio-temporal action detection)

2023-05-16

时空动作检测 (spatio-temporal action detection) : 输入一段视频,不仅需要识别视频中动作出现的区间和对应的类别,还要在空间范围内用一个包围框 (bounding box)标记出人物的空间位置。

一、算法介绍

  • ACT (《Action Tubelet Detector for Spatio-Temporal Action Localization》)
  • YOWO(《You Only Watch Once: A Unifified CNN Architecture for Real-Time Spatiotemporal Action Localization》)
  • MOC(《Actions as Moving Points》)
  • ACAR-Net(《《Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization》》)

二、常用数据集介绍

2.1 AVA

数据集全称 Atomic Visual Actions,在CVPR2018公布,该数据集是用来做时空行为检测的,即检测出视频中所有人的位置以及对应的行为类别。

数据形式:

  1. 数据来源于Youtube中的电影

  2. 每个电影只标值第15-30分钟内的视频

  3. 总共430个视频,分为235个训练,64个验证,131个测试

  4. 标记的内容包括人物的bbox,以及每个人的行为类别,同一时间同一人可能有多个行为

  5. 标记的内容还包括每个实体编号,即相邻关键帧中的人物如果是同一个人,则拥有相同的实体编号。换句话说,“实体编号”其实就是目标跟踪的标签。

  6. 数据集中只对关键帧进行标记,所谓的关键帧是指每隔一秒作为一个关键帧

  7. 行为类别有80类(evaluate的时候只用到其中的60类),80类标签分为三类(person movement、object manipulation、person interaction)。具体如下:

    * person movement
    	bend/bow (at the waist)、crawl、crouch/kneel、dance、fall down、get up、jump/leap、lie/sleep、martial art、run/jog、sit、stand、swim、walk
    	
    * object manipulation
    	answer phone、brush teeth、carry/hold (an object)、catch (an object)、chop、climb (e.g., a mountain)、clink glas 、close (e.g., a door, a box)、cook、cut、dig、dress/put on clothing、drink、drive (e.g., a car, a truck)、eat、enter、exit、extract、fishing、hit (an object)、kick (an object)、lift/pick up、listen (e.g., to music)、open (e.g., a window, a car door)、paint、play board game、play musical、instrument、play with pets、point to (an object)、press、pull (an object)、push (an object)、put down、read、ride (e.g., a bike, a car, a horse)、row boat、sail boat、shoot、shovel、smoke、stir、take a photo、text on/look at a cellphone、throw、touch (an object)、turn (e.g., a screwdriver)、watch (e.g., TV)、work on a computer、write
    	
    * person interaction
    	fight/hit (a person)、give/serve (an object) to (a person)、grab (a person)、hand clap、hand shake、hand wave、hug (a person)、kick (a person)、kiss (a person)、lift (a person)、listen to (a person)、play with kids、push (another person)、sing to (e.g., self, a person, a group)、take (an object) from (a person)、talk to (e.g., self, a person, a group)、watch (a person)
    

2.2 J-HMDB-21

数据集全称Joint-annotated Human Motion Data Base,该数据是HMDB-51数据集的一个子集。

2.2.1 HMDB-51

该数据集文章名为HMDB: A Large Video Database for Human Motion Recognition. ,发布于ICCV2011,用于动作识别领域(action recognition)。

数据集形式:

  1. 该数据集的视频是从多个地方采集的,大部分来源于电影,一小部分来源于YouTube和Google videos等。

  2. 数据集总共有裁切好的6849个片段的,并将所有的片段分为51个动作类别,每个类别至少有101个视频片段。

  3. 类别分为下列五种:

    * general facial actions
    	smile、laugh、chew、talk
    
    * facial actions with object manipulation
    	smoke、eat、drink
    
    * General body movements
    	cartwheel, clap hands, climb, climb stairs, dive, fall on the floor, backhand flip, handstand, jump, pull up, push up, run, sit down, sit up, somersault, stand up, turn, walk, wave.
    	
    * Body movements with object interaction
    	brush hair, catch, draw sword, dribble, golf, hit something, kick ball, pick, pour, push something, ride bike, ride horse, shoot ball, shoot bow, shoot gun, swing baseball bat, sword exercise, throw.
    	
    * Body movements for human interaction
    	fencing, hug, kick someone, kiss, punch, shake hands, sword fight.
    

2.2.2 J-HMDB-21

该数据库文章名为Towards understanding action recognition,发表于ICCV2013。

数据集形式:

  1. 该数据集是从HMDB-51中选取了960个视频片段,这些视频片段属于不同的21个类别。

  2. 该数据集是每帧都进行标注

  3. 每个视频最多只有一类目标行为,bbox只标了做目标行为的那几个人

  4. 数据集中的21类为:

    sit、run、pullup、walk、shoot_gun、brush_hair、jump、pour、pick、kick_ball、golf、shoot_bow、catch、clap、swing_baseball、climb_stairs、throw、wave、shoot_ball、push、stand
    

2.3 UCF101-24

数据集UCF101-24是数据集UCF101的一个子集

2.3.1 UCF101

该数据集文章名为UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild,该数据集又是UCF50的扩充,该数据主要是用于视频识别领域。

数据集形式:

  1. 数据集包含了13320个裁剪好的视频片段

  2. 所有的视频都来源于YouTube,帧率为25fps,分辨率为 320 × 240 320\times 240 320×240

  3. 该数据集中的类别分为5大类 (Body motion、 Human-human interactions、Human-object interactions、 Playing musical instruments and Sports)

  4. 该数据集总共有101个类别(BTW: UCF50意思就是该数据集有50个类别),分别为:

    Apply Eye Makeup, Apply Lipstick, Archery, Baby Crawling, Balance Beam, Band Marching, Basketball Dunk, Blow, Drying Hair, Blowing Candles, Body Weight Squats,Bowling,Boxing-Punching Bag, Boxing-Speed Bag, Brushing, Teeth, Cliff Diving, Cricket Bowling, Cricket Shot, Cutting In Kitchen, Field Hockey Penalty, Floor Gymnastics, Frisbee Catch, Front Crawl, Hair cut, Hammering, Hammer Throw, Handstand Pushups, Handstand Walking, Head
    Massage, Ice Dancing, Knitting, Long Jump, Mopping, Floor, Parallel Bars, Playing Cello, Playing Daf, PlayingDhol, Playing Flute, Playing Sitar, Rafting, Shaving Beard, Shot put, Sky Diving, Soccer Penalty, Still Rings, Sumo, Wrestling, Surfing, Table, Tennis Shot, Typing, Uneven Bars, Wall Pushups, Writing On Board
    

2.3.2 UCF101-24

数据集标注的下载点击,here

数据集形式:

  1. 该数据集每一帧都进行标注

  2. 每个视频最多只有一类行为,bbox只标做了目标行为的那几个人

  3. 数据集中的24类为:

    WalkingWithDog、Diving、PoleVault、SkateBoarding、CricketBowling、GolfSwing、Skijet、RopeClimbing、FloorGymnastics、Basketball、Biking、VolleyballSpiking、Fencing、CliffDiving、HorseRiding、SoccerJuggling、TennisSwing、LongJump、SalsaSpin、TrampolineJumping、IceDancing、Skiing、Surfing、BasketballDunnk
    

其它视频任务介绍请查看-文章<<主流的视频动作类算法任务介绍>>

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

时空动作检测 (spatio-temporal action detection) 的相关文章

  • 检测复制或相似的文本块

    我有很多关于 Markdown 格式编程的文本 有一个构建过程能够将这些文本转换为 Word HTML 并执行简单的验证规则 例如拼写检查或检查文档是否具有所需的标题结构 我想扩展该构建代码以检查所有文本中的复制粘贴或类似块 是否有任何现有
  • opencv颜色检测

    使用opencv 可以在图像或视频帧中检测某种颜色 在一定范围的rgb值之间 吗 您需要定义 RGB 阈值 并处理图像中适合定义的像素 希望不是整个图像 而是较小的感兴趣区域 可能是移动的前景形状 与所讨论的内容类似here http ww
  • 使用 Struts 2 中的拦截器进行身份验证后登录重定向

    我有一个登录页面 登录请求可以来自多个操作类 一旦用户经过验证 我必须将其重定向到上一个操作类 登录请求来自该操作类 我正在使用拦截器来执行此操作 但我错过了一些东西 它无法正确重定向 这是我的代码 public class SetTarg
  • 多个提交按钮 php 不同的操作

    我有一个网站 我想要有 2 个单独的提交按钮 其中一个将获取输入的数据并对其进行一些计算以显示在同一屏幕上 我已经成功地与以下人员合作
  • JSF 1.2 Action 和 ActionListener 中的异常之间的区别

    我注意到 JSF 1 2 当actionListener方法中抛出异常时不返回错误页面 但当action方法中抛出异常时返回错误页面 这是为什么 在这两种情况下它都能返回错误页面吗 任何抛出的异常FacesEvent http downlo
  • iOS / C:检测音素的算法

    我正在寻找一种算法来确定实时音频输入是否与 144 个给定 且完全不同的 音素对之一匹配 最好是完成这项工作的最低级别 我正在为 iPhone iPad 开发激进 实验性音乐培训软件 我的音乐系统包含 12 个辅音音素和 12 个元音音素
  • 封装 Action 和 Func

    我正在尝试为某种 IExecutable 接口进行设计 我不会详细介绍 但重点是我有几个需要从基类执行的操作 它们可能采用不同的参数 没什么大不了的 并且它们可能 可能不返回值 到目前为止 这是我的设计 public abstract cl
  • 如何使用头文件签名(幻数)检查文件类型?

    通过输入文件及其扩展名 我的代码成功地从 幻数 中检测到文件的类型 magic numbers png bytes 0x89 0x50 0x4E 0x47 0x0D 0x0A 0x1A 0x0A jpg bytes 0xFF 0xD8 0x
  • 如何判断 HTML5 音频元素是否正在使用 Javascript 播放

    我有一个audio网页中的元素 我想确保用户在离开页面时不会仍在播放它 我怎样才能确定audio页面卸载时元素未播放 到目前为止 我有以下代码 但它似乎不起作用 卸载报告时弹出的对话框playing is false即使音频正在播放
  • commandButton/commandLink/ajax 操作/侦听器方法未调用或输入值未设置/更新

    有时 在使用时
  • 使用 WindowManager.LayoutParams.FLAG_WATCH_OUTSIDE_TOUCH 获取所有 MotionEvent

    我的问题直接涉及到这个question https stackoverflow com q 4481226 394933 这个问题的答案表明了如何创建一个ViewGroup 将其嵌入到WindowManager 并允许WindowManag
  • 针对网站特定部分的移动检测

    我是网络开发的初学者 我很难解决这个问题 我拍摄了一段视频并将其编码为 mp4 文件和 ism 文件 我有两个不同的视频标签 一个将播放每个文件 对于我正在开发的网站 如果在移动设备上查看该网站 我希望它使用其中一个视频标签 如果不是 则使
  • 如何识别“hw.machine”标识符可靠?

    我正在寻找最官方的来源来完成 维护此方法 NSString platformString NSString platform self platform if platform isEqualToString iPhone1 1 retur
  • Java:检测文件修改(文件轮询?)

    在 Java 中检测文件修改的最有效方法是什么 我读过有关文件轮询的内容 但是 轮询方法有许多缺点 随着监视文件数量的增加 这些缺点变得越来越明显 我宁愿不使用轮询 但许多在线解决方案似乎都将文件轮询作为推荐的方法 我希望有一个与操作系统相
  • Symfony:如何更改操作中的表单字段属性?

    我有一个带有 sfWidgetFormChoice 的功能表单 它充当复选框列表 我可以通过以下方式将复选框默认设置为 勾选 status gt new sfWidgetFormChoice array choices gt array 1
  • 从网络浏览器中检测和访问 USB 设备 - 即使用插件

    是否可以通过插件 activeX Java 或 Flex 编写一个能够检测从 USB 设备通道读取数据流的浏览器插件 我做了一些研究 但没有找到答案 http support microsoft com kb 832678 http sup
  • @selector 和其他类 (Objective-C)

    在对象内部我使用 NSMenu 的addItemWithTitle action keyEquivalent 创建 NSMenuItems 问题是我希望调用另一个对象上的方法作为操作 这action 部分需要一个 selector作为参数
  • 反射性能 - 创建委托(C# 属性)

    我在使用反射时遇到性能问题 所以我决定为我的对象的属性创建委托 到目前为止得到了 TestClass cwp new TestClass var propertyInt typeof TestClass GetProperties Sing
  • ASP.NET MVC OutputCache 不适用于根 URI

    我正在学习 ASP NET MVC 并被一个问题困扰 在HomeController中 Index操作具有OutputCache属性 但它似乎不起作用 HandleError public class HomeController Cont
  • ZF2 - 从路线生成 URL

    我无法弄清楚在 zend 2 中从我想要的任何地方生成 Url 我得到了动作和控制器 所以我尝试这个 this gt url myControllerName array action gt myActionName 但这返回一个对象 我只

随机推荐

  • 配置 maven 编译的 JDK 版本

    两种方式 xff1a 一 可以修改 MAVEN 的 setting xml 文件 xff0c 统一修改 lt profiles gt lt profile gt lt id gt jdk 1 6 lt id gt lt activation
  • 利用redis的setIfAbsent()方法实现分布式锁

    再集群环境中 xff0c 存在定时任务多次执行 xff0c 浪费资源 xff0c 那么如何避免这种情况呢 xff0c 下面就说明一下如何利用一个注解解决问题 xff0c 利用切面配合redis可以简单实现分布式锁 xff0c 解决定时任务重
  • Virtualbox主机和虚拟机之间文件夹共享及双向拷贝(win7——centos7)

    一 双向拷贝 xff1a 然后 xff0c 还需要通过virtualbox上安装一个增强的工具 此时 xff0c 会在centos上安装一些工具 xff1a 鼠标自动在宿主机 虚拟机之间移出 同时 xff0c 在centos上会出现一个安装
  • Record something about DL

    这篇文章算是DL实践杂谈吧 xff0c 主要是想把自己模型调优和复现算法遇到的一些坑总结一下 xff08 里面的一行字可能是我当时花费了一周甚至更长时间得到的总结 xff09 xff0c 希望能对读者有所帮助 一 熟悉数据 模型是数据的浓缩
  • Image captioning任务常用的评价指标计算

    BLEU ACL 2002Meteor AMTA 2004ROUGE L ACL 2004CIDEr CVPR 2015SPICE ECCV 2016
  • Image captioning评价方法之BLEU (bilingual evaluation understudy)

    文章地址 xff1a BLEU a Method for Automatic Evaluation of Machine Translation 代码地址 非官方 xff1a https github com tylin coco capt
  • Image captioning评价方法之Meteor

    项目地址 xff1a http www cs cmu edu alavie METEOR 代码地址 xff08 非官方实现 xff0c 实现的是项目地址中的1 5版本 xff09 xff1a https github com tylin c
  • Image captioning评价方法之ROUGE-L

    文章地址 xff1a ROUGE A Package for Automatic Evaluation of Summaries 代码地址 非官方 xff1a https github com tylin coco caption 文章由U
  • Image captioning评价方法之CIDEr

    文章地址 xff1a CIDEr Consensus based Image Description Evaluation 代码地址 xff08 非官方 xff0c 且代码实现的是CIDEr D xff09 xff1a https gith
  • Image captioning评价方法之SPICE

    项目地址 xff1a https panderson me spice 上述的项目地址包含了论文地址和代码地址 该方法是由The Australian National University和Macquarie University联合发表
  • R3DS Wrap基本使用方法

    中文的R3DS Wrap软件的教程较少 xff0c 最近刚好实操了一遍 xff0c 特此记录下来 为了描述方便 xff0c 下面将R3DS Wrap简称Wrap 软件官网 xff1a https www russian3dscanner c
  • docker使用入门简介

    一 什么是docker xff1f https www docker com resources what container 使用docker时有两个重要概念 xff0c 一个是镜像 xff08 images xff09 xff0c 一个
  • SpringBoot整合Quartz 实现分布式定时任务调度

    一 Quartz 集群架构 Quartz 是 Java 领域最著名的开源任务调度工具 在上篇文章中 xff0c 我们详细的介绍了 Quartz 的单体应用实践 xff0c 如果只在单体环境中应用 xff0c Quartz 未必是最好的选择
  • 《Attention Is All You Need》算法详解

    该篇文章右谷歌大脑团队在17年提出 xff0c 目的是解决对于NLP中使用RNN不能并行计算 xff08 详情参考 译 理解LSTM xff08 通俗易懂版 xff09 xff09 xff0c 从而导致算法效率低的问题 该篇文章中的模型就是
  • 主流的视频动作类算法任务介绍

    动作识别 action recognition xff1a 是对每个输入视频进行分类 xff0c 识别出视频中人物做出的动作 即输入视频序列 xff0c 得到视频对应的类别 时序动作检测 temporal action detection
  • 视频时序动作识别(video action recognition)介绍

    一 视频时序动作识别算法分类 根据网络的工作方式 xff0c 可以将视频时序动作识别算法大致分为四大类 xff1a 采用2D卷积的方法采用3D卷积的方法双流法引入VLAD的方法 1 1 采用2D卷积的方法 TSM Temporal Shif
  • 视频时序动作检测(temporal action detection)介绍

    一 视频时序动作检测算法 本文中动作检测算法也包含了时序动作提名 xff08 Temporal Action Proposal Generation xff09 时序动作提名与检测的类别不一样的地方是 xff0c 检测一般指定位出动作的边界
  • 《Channel-wise Knowledge Distillation for Dense Prediction》论文详解

    原文地址 xff1a Channel wise Knowledge Distillation for Dense Prediction 代码地址 xff1a https git io Distille xff08 由原文提供 xff0c 好
  • 时序动作分割(temporal action segmentation)任务介绍

    时序动作分割任务 输入是一个未经裁剪的视频 xff0c 输出是视频中每一帧的动作类别 所以该任务可以理解为对每一帧视频进行打标签处理 xff08 类同于图片分割是给每个像素打标签 xff09 一 算法介绍 MS TCN MS TCN 43
  • 时空动作检测 (spatio-temporal action detection)

    时空动作检测 spatio temporal action detection xff1a 输入一段视频 xff0c 不仅需要识别视频中动作出现的区间和对应的类别 xff0c 还要在空间范围内用一个包围框 bounding box 标记出人