时空行为检测数据集 JHMDB & UCF101_24 详解

2023-05-16

文章目录

- 0. 前言
- 1. JHMDB
- - 1.1. 基本情况
  - 1.2. 数据准备以及标签详解
- 2. UDF101_24
- - 2.1. 基本情况
  - 2.2. 数据准备与标签详解
- 3. 数据集可视化代码

0. 前言

现在常用的时空行为检测数据集只有AVA/JHMDB/UCF101_24。
- AVA数据集是每一秒标一帧，更多信息可以参考我的笔记。
- JHMDB/UCF101_24 是逐帧标注的数据

1. JHMDB

官网，HMDB官网

1.1. 基本情况

JHMDB是对HMDB数据集的二次标注，即 joint-annotated HMDB。
- HMDB数据集有51类，5100多视频。
- JHMDB只标注了HMDB的一部分，21类只包括一个人的行为，也删除了一些这21类行为中人不明显的样本。
- 21类每一类有36-55个样本，每个样本包括了行为的起始与终止时间，每个样本包括14-40帧。
- JHMDB一共标注了31838张图片。
类别列表（21类）
- sit
- run
- pullup
- walk
- shoot_gun
- brush_hair
- jump
- pour
- pick
- kick_ball
- golf
- shoot_bow
- catch
- clap
- swing_baseball
- climb_stairs
- throw
- wave
- shoot_ball
- push
- stand
每个视频最多只有一类目标行为，bbox只标了做目标行为的那几个人

1.2. 数据准备以及标签详解

下面内容参考了 mmaction2数据准备文档，数据下载在上面的文档中有介绍了，反正就是一个压缩包，没啥好说的。
原始JHMDB数据集中好像有关键点、分割等的标签，但我们这个任务中不用。
标签全部保存在JHMDB-GT.pkl 中，这个文件是一个字段，包括了6个key
- labels (list): List of the 21 labels，21类行为标签，即上一小节中提到的。
- gttubes (dict): Dictionary that contains the ground truth tubes for each video.
  - 每个视频、每帧对应的标签（bbox以及行为类别）
  - key为每个样本的相对路径，比如walk/Panic_in_the_Streets_walk_u_cm_np1_ba_med_5
  - value也是list，表示一系列tubes
  - 每个tube用字典表示，class_id/bboxes键值对
  - A gttube is dictionary that associates with each index of label and a list of tubes.
  - A tube is a numpy array with nframes rows and 5 columns, each col is in format like <frame index> <x1> <y1> <x2> <y2>.
- nframes (dict): Dictionary that contains the number of frames for each video, like 'walk/Panic_in_the_Streets_walk_u_cm_np1_ba_med_5': 16.
  - 每个视频包含多少帧图片。
  - key为每个样本的相对路径，value为帧数量。
- train_videos (list): A list with nsplits=1 elements, each one containing the list of training videos.
  - list对象，每个元素也是list（包含若干视频样本信息）
  - 训练集相关视频有哪些
  - 每个样本通过其相对路径表示
- test_videos (list): A list with nsplits=1 elements, each one containing the list of testing videos.
  - list对象，每个元素也是list（包含若干视频样本信息）
  - 测试集相关视频有哪些
  - 每个样本通过其相对路径表示
- resolution (dict): Dictionary that outputs a tuple (h,w) of the resolution for each video, like 'pour/Bartender_School_Students_Practice_pour_u_cm_np1_fr_med_1': (240, 320).
  - key为每个样本的相对路径，value为对应分辨率

2. UDF101_24

2.1. 基本情况

UCF101_24是UCF101数据集的子集，使用了一些不一样的标签。
- 关于标签来源有点尴尬，UCF101中本来是有对应标签的，但现在已经不能下载了。
- 现在的UCF101_24标签是从这个repo中，说是进行了一些微调。
- 每个视频最多只有一类目标行为，bbox只标了做目标行为的那几个人。
  - 感觉也有例外，salsospin有样本都有多个人跳舞（大于等于6个），但只标了俩人。
类别信息（共24类）
- WalkingWithDog
- Diving
- PoleVault
- SkateBoarding
- CricketBowling
- GolfSwing
- Skijet
- RopeClimbing
- FloorGymnastics
- Basketball
- Biking
- VolleyballSpiking
- Fencing
- CliffDiving
- HorseRiding
- SoccerJuggling
- TennisSwing
- LongJump
- SalsaSpin
- TrampolineJumping
- IceDancing
- Skiing
- Surfing
- BasketballDunk

2.2. 数据准备与标签详解

数据下载以及其他相关可以参考 mmaction2数据准备文档，数据下载在上面的文档中有介绍了，反正就是一个压缩包，没啥好说的。
标签与1.2.数据准备以及标签详解完全相同，这里就不多说了。

3. 数据集可视化代码

需求分析：根据类别展示训练样本，在图片上画bbox。

import argparse
import os
import cv2
import pickle
from collections import defaultdict


def _parse_args():
    parser = argparse.ArgumentParser()

    parser.add_argument("--dataset", type=str, default="ucf101_24")

    parser.add_argument("--dataset_root_path", type=str,
                        default="/ssd01/data/ucf101_24")
    parser.add_argument("--rgb-dir-name", type=str, default="rgb-images")

    # JHMDB & UCF101_24
    parser.add_argument("--pkl-filename", type=str, default="UCF101v2-GT.pkl")
    parser.add_argument("--img-impl", type=str, default="%05d.jpg")

    return parser.parse_args()


def _darknet_draw_bbox(bboxes,
                       labels,
                       scores,
                       img,
                       bboxes_color=(0, 255, 0),
                       bboxes_thickness=1,
                       text_color=(0, 255, 0),
                       text_thickness=2,
                       text_front_scale=0.5):
    """
    bbox的形式是 xyxy，取值范围是像素的值
    labels是标签名称
    scores是置信度，[0, 1]的浮点数
    """
    for idx, (bbox, label) in enumerate(zip(bboxes, labels)):
        xmin, ymin, xmax, ymax = bbox
        pt1 = (int(xmin), int(ymin))  # 左下
        pt2 = (int(xmax), int(ymax))  # 右上

        # 画bbox
        cv2.rectangle(img, pt1, pt2, bboxes_color, bboxes_thickness)

        # 写上对应的文字
        cur_label = label
        if scores is not None:
            cur_label += " [" + str(round(scores[idx] * 100, 2)) + "]"
        cv2.putText(
            img=img,
            text=cur_label,
            org=(pt1[0], pt1[1] - 5),
            fontFace=cv2.FONT_HERSHEY_SIMPLEX,
            fontScale=.5,
            color=(0, 255, 0),
            thickness=2,
        )
    return img


def _show_single_video(rgb_dir, tubes, nframes, label, img_impl):
    draw_imgs = []

    for i in range(nframes):
        img = cv2.imread(os.path.join(rgb_dir, img_impl % (i+1)))
        boxes = tubes[i+1]
        draw_img = _darknet_draw_bbox(
            boxes, [label]*len(boxes), None, img)
        draw_imgs.append(draw_img)
        cv2.imshow("demo", draw_img)
        cv2.waitKey(100)

    return draw_imgs


def _filter_samples(data_dict, args):
    # TODO: filter input data with categories
    return data_dict


def _show_spatiotemporal_datasets(args):
    pkl_path = os.path.join(args.dataset_root_path, args.pkl_filename)
    rgb_dir_path = os.path.join(args.dataset_root_path, args.rgb_dir_name)
    with open(pkl_path, "rb") as fid:
        cache = pickle.load(fid, encoding='bytes')

    labels = [c.decode() for c in cache[b'labels']]
    train_videos = [c.decode() for c in cache[b'train_videos'][0]]
    test_videos = [c.decode() for c in cache[b'test_videos'][0]]
    nframes = {k.decode(): v for k, v in cache[b'nframes'].items()}
    resolution = {k.decode(): v for k, v in cache[b'resolution'].items()}
    gttubes = {k.decode(): v for k, v in cache[b'gttubes'].items()}

    # key - sample relative dir
    # value - dict
    #   label - int
    #   nframes - int
    #   reoslution - tuple
    #   tubes - array
    data_dict = defaultdict(dict)
    for k in nframes:
        data_dict[k]['nframes'] = nframes[k]
    for k in resolution:
        assert data_dict[k]['nframes'] is not None
        data_dict[k]['resolution'] = resolution[k]
    for k in gttubes:
        assert data_dict[k]['resolution'] is not None
        label = list(gttubes[k].keys())[0]
        data_dict[k]['label'] = label
        data_dict[k]['tubes'] = defaultdict(list)
        for boxes in gttubes[k][label]:
            for box in boxes:
                data_dict[k]['tubes'][int(box[0])].append(box[1:])

    for relative_path in data_dict.keys():
        sample = data_dict[relative_path]
        _show_single_video(
            os.path.join(rgb_dir_path, relative_path),
            sample['tubes'],
            sample['nframes'],
            labels[sample['label']],
            args.img_impl,
        )


def main(args):
    if args.dataset in ["ucf101_24", "jhmdb"]:
        show_dataset_fn = _show_spatiotemporal_datasets
    else:
        raise ValueError("Unknown dataset {}".format(args.dataset))
    show_dataset_fn(args)


if __name__ == '__main__':
    main(_parse_args())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

JHMDB

amp

UCF101

时空行为检测数据集

时空行为检测数据集 JHMDB & UCF101_24 详解的相关文章

4.ROS&PX4--运行官方offboard起飞程序

1 创建空间 span class token function mkdir span catkin ws span class token builtin class name cd span catkin ws span class t
5.ROS&PX4--offboard模式多航点代码编写

4 ROS amp PX4 offboard模式多航点代码编写 offboard模式多航点代码编写等待更新 offboard模式多航点代码编写等待更新 span class token comment 64 file offb node
Jetseon TX2 & IntelRealsense D435i & Python

Jetseon TX2 amp IntelRealsense D435i amp Python amp Socket 一 IntelRealsense Python Wrapper GitHub 1 Installation pip ins
Android面试专题 (十一)：显式Intent & 隐式Intent

面试官 xff1a 来 xff0c 说一下Android中的显式Intent 和隐式Intent吧 xff01 嗯 xff0c 乍一听觉得这么简单你让我说什么呢 xff1f 但是 xff0c 没办法 xff0c 面试往往面的就是基础不是嘛
Kubeedge & Edgemesh & Sedna 配置

Setting Of Kubeedge amp EdgeMesh amp Sedna Installation 准备安装环境 xff08 主节点和从节点均有 xff09 Edge nod amp Cloud node 两节点均需配置cgro
OpenGL进阶 | GLM数学库& Shader相关

一 GLM数学库 OpenGL和DirextX不一样 xff0c 没有内置的数学库 xff0c 于是我们需要找一个第三方数学库来完成OpenGL相关的数学计算 GLM库是一个为OpenGL准备的数学库 xff0c 它提供了各种数学运算的函数
指针p，*p，&p之间的区别

假设我们定义一个指针p 那么会经常使用到三个符号 xff1a 1 xff0c p xff1b p是一个指针变量的名字 xff0c 表示此指针变量指向的内存地址 xff0c 如果使用 p来输出的话 xff0c 它将是一个16进制数 2 xff
2013&2014

2013总结 2013 毕业了 xff0c 算是正式工作半年 xff0c 2013年7月开始 xff0c 算是我的生活 xff0c 工作之外的时间都是自己的一收获 1 压力测试差不多算是一个月的时间 xff0c 疯狂的一个月 xff0
AMP:参考xapp-1078和xapp1079的一些建议

Linux系统默认是SMP模式 xff0c 有时我们也需要AMP模式进行开发参考网站 xff1a wiki xilinx com 有xapp1078 xapp1079最新版本的AMP demo www arm com 主要是介绍arm系列
持续请求/socket.io/?EIO=3&transport=polling&t=N8HrzIR

项目基本介绍 xff1a 使用React xff0c webpack xff0c socket io client Node js Express socket io 等技术 xff0c 采用前后端分离开发实现项目中的聊天室时遇到报错 x
【日志工具】g3log_6_ROS1中g3log的安装&使用

ROS1中g3log的安装 amp 使用基于ros1 melodic版本进行封装使用 g3log库安装 git clone https span class token operator span span class token com
cmake & CMakeLists.txt

文章目录前言先从体验开始1 一个最简单的例子 xff1a 2 例子升级 xff0c 将hello c生成为一个库 xff1a 3 例子升级 xff0c 将源代码和库分开放 xff1a 4 让可执行文件在 bin 目录 xff0c 库文件在
C++中vector作为参数的三种传参方式（传值 && 传引用 && 传指针）

c 43 43 中常用的vector容器作为参数时 xff0c 有三种传参方式 xff0c 分别如下 xff1a function1 vector vec xff0c 传值 function2 vector amp vec xff0c 传引
ROS速成之发送&接收消息

人真的老了 xff0c 扔了个周末 xff0c 完全不记得干了什么论纪录的重要性啊 xff0c 当时觉得明白的很 xff0c 你扔两天试试 xff1f 扔一年试试 xff1f 扔几年试试 xff1f 最近参加的各种项目脑疼眼乏 xff0c
JLINK给STM32下载的两种模式--jtag & sw连线及配置

jtag线就不说了 xff0c 将jlink的Vref GND TMS TCK分别接至SW接口对于STM32F103RCT6来说 xff1a TMS PA12 xff0c TCK PA14 关于KEIL MDK中的设置如下图所示就可以了
SIP 鉴权 & HTTP 认证

sip 鉴权是基于摘要签名认证的具体来说每一个用户都有一个用户名和密码用户名和密码在客户端和SIP 服务器的数据库中都有保存在认证的过程中客户端将自己的信息用户名密码 url 等信息做一些复杂的MD5 或者SHA256 SH
linux中断&poll&selcet按键处理机制

在上一篇linux按键中断处理中 xff0c 我们采用按键中断处理获取按键 xff0c 在read函数中阻塞读取 xff0c 当按键发生时 xff0c read自动解除阻塞 xff0c 实现应用层读取到相应的按键值在上一节中如果没有按键到
Cmake入门&运行保存C/C++文件

Cmake入门 amp 运行保存C C 43 43 文件在ubuntu创建保存运行c 43 43 文件CMake入门创建文件编译参考最近在学习Intel realsense T265双目视觉 xff0c 其中一步需要创建源文件ma
ubuntu(15):对‘casadi::MX::MX(casadi::MX const&)’未定义的引用

catkin build 编译报错 xff0c 找不到CASADI的头文件目录CASADI INCLUDE DIRS或者库文件也达不到CASADI LIBRARIES xff1b 对 casadi MX horzsplit casadi M
C++　文件的读写(fin && fout)

如何让键盘输入字符保存在 txt文件中如何让我们自己在键盘上输入的字符不仅仅在屏幕上显示 xff0c 而且还能保存在特定路径的文件中 xff0c 这让简单枯燥的控制台命令程序变得略有趣首先 xff0c 先看看cin和cout对象 xff

随机推荐

如何在我的VsCode中集成Git

在VsCode中配置Git后 xff0c 我们就可以简单快速管理我们的代码仓库一下载安装Git 如果没有Git xff0c 这里可以参考我之前的文章安装配置Git 精讲Git xff08 从安装到熟练使用一文全解 xff0c 看完轻松
虚拟机：xshell连接虚拟机Ubuntu失败解决方法

当我们买不起服务器但却想模拟服务器环境进行学习时 xff0c 再好不过的就是直接装Linux虚拟机了 xff0c 非常简单快捷 xff01 首先我们可以通过ifconfig a来查看Ubuntu Server的IP地址 xff08 前提是你
SVM原理：超平面方程

xff08 1 xff09 超平面方程 3维空间中平面方程的一般形式 xff1a 1 我们都知道为平面到原点的距离这里简单证明超平面的法向量为 d维空间平面方程的一般形式 xff1a 2 平面的法向量为 xff0c xff08 分号表示列
windows11编译OpenCV4.5.0 with CUDA（附注意事项）

windows11编译OpenCV4 5 0 with CUDA 从OpenCV4 2 0 版本开始允许使用 Nvidia GPU 来加速推理本文介绍最近使用windows11系统编译带CUDA的OpenCV4 5 0的过程文中使用特
Windows11安装Detectron2（附详细操作指南）

Windows11安装Detectron2 0 简介 Detectron2 是 Facebook AI Research 的下一代目标检测库 xff0c 可提供最先进的检测和分割算法它是 Detectron 和 maskrcnn benc
四轴飞行器F450+Futaba 14SG+好盈电调油门行程校准

F450 43 Futaba 14SG油门行程校准装机前忘了进行油门校准 xff0c 装好后进行校准一开始老出现电机接收不到油门信号的提示音因为Futaba 14SG也是新入手的控 xff0c 有些模式和操作不熟悉 xff0c 为此花了
NTKO控件安装：“不能装载文档控件，请在检查浏览器的选项中检查浏览器的安全设置”问题

上礼拜手欠把OFFICE文档控件 NTKO给卸载了 xff0c 结果这周通知基金结题网上填写报告本以为就装个控件 xff0c 没想到各种问题 xff0c 几经尝试终于解决 xff0c 总结如下 xff1a 1 问题 xff1a 不能装载文
Arduino - 串口操作函数与示例代码大全

Arduino 串口操作函数与示例代码大全本文总结了Arduino常用串口操作函数 xff0c 函数说明部分来源于Arduino 官网串口使用指南 xff0c 示例与实验部分为自编本文是对Arduino串口操作函数的较全面总结 xff0
vs2010 出错：error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏

LNK1123 转换到 COFF期间失败文件无效或损坏的解决方法一错误描述之前写的程序隔段时间使用VS2010再次运行时出现如下错误 xff1a LINK fatal error LNK1123 转换到 COFF 期间失败文件无
OpenCV—基本矩阵操作与示例

OpenCV的基本矩阵操作与示例 OpenCV中的矩阵操作非常重要 xff0c 本文总结了矩阵的创建初始化以及基本矩阵操作 xff0c 给出了示例代码 xff0c 主要内容包括 xff1a 创建与初始化矩阵加减法矩阵乘法矩阵转置矩
ubuntu16.04下利用ROS启动LPMS-CURS、CURS2等型号IMU;用imu控制turtlesim--教程

文章目录 IMU型号及协议第一步下载安装 LPsensor library第二步设置ROS和carkin工作空间第三步下载编译LPMS IMU的ROS驱动第四步启动IMU xff08 可能也会遇到问题 xff09 遇到的问题1 ub
PixHawk飞控和Mission Planner地面站安装调试

PixHawk飞控和Mission Planner地面站安装调试 PixHawk是著名飞控厂商3DR推出的新一代独立开源高效的飞行控制器 xff0c 前身为APM飞控 xff0c 不仅提供了丰富的外设模块和可靠的飞行体验 xff0c 有
飞越650四轴无人机安装全程详解（多图）

飞越650四轴无人机安装全程详解 xff08 多图 xff09 本文根据自己的安装实际过程 xff0c 总结了开箱后一个比较合理的650四轴无人机安装顺序 xff0c 以及各个步骤的注意事项 xff0c 主要内容包括 xff1a 系统基本配
DIY一个基于树莓派和Python的无人机视觉跟踪系统

DIY 一个基于树莓派和Python的无人机视觉跟踪系统无人机通过图传将航拍到的图像存储并实时传送回地面站几乎已经是标配如果想来点高级的在无人机上直接处理拍摄的图像并实现自动控制要怎么实现呢 xff1f 其实视觉跟踪已经在一些高端的消
windows环境下的Anaconda安装与OpenCV机器视觉环境搭建

windows环境下的Anaconda安装与OpenCV机器视觉环境搭建本文介绍win7和win10系统下通过Anaconda配置基于python语言的机器视觉编程环境 xff08 博主测试了两个系统下的安装基本相同 xff09 xff0
OpenCV—轮廓操作一站式详解：查找/筛选/绘制/形状描述与重心标注(C++版)

OpenCV 轮廓操作一站式详解 xff1a 查找筛选绘制形状描述与重心标注 C 43 43 版轮廓是定义或限定形状或对象的边或线 xff0c 是机器视觉中的常用的概念 xff0c 多用于目标检测识别等任务关于OpenCV轮
正太分布函数和反函数标量值函数 (借鉴)

标准正态分布函数 CREATE function dbo normcdf 64 p decimal 28 18 AS begin
离散时间傅里叶变换(一)

一非周期信号的表示 xff1a 离散时间博里叶变换 1 1 离散时间傅里叶变换的导出 1 离散时间傅里叶变换对要清楚推导过程 X ejw 称为离散时间傅里叶变换 xff0c 这一对式子就是离散时间傅里叶变换对上式称为综合公式 xff0
HuskyLens摄像头系列 | 写给小学生看的视觉PID巡线算法

Hello xff0c 大家好 xff0c 光天化日之下我又来撸狗了距离上次撸狗已经过去了个把月时间了 xff0c 那么这次又有什么新惊喜呢 xff1f 先来看一下本期的演示视频吧 https www bilibili com video
时空行为检测数据集 JHMDB & UCF101_24 详解

文章目录 0 前言1 JHMDB1 1 基本情况1 2 数据准备以及标签详解 2 UDF101 242 1 基本情况2 2 数据准备与标签详解 3 数据集可视化代码 0 前言现在常用的时空行为检测数据集只有AVA JHMDB UCF101

时空行为检测数据集 JHMDB & UCF101_24 详解

文章目录

0. 前言

1. JHMDB

1.1. 基本情况

1.2. 数据准备以及标签详解

2. UDF101_24

2.1. 基本情况

2.2. 数据准备与标签详解

3. 数据集可视化代码

时空行为检测数据集 JHMDB & UCF101_24 详解 的相关文章

随机推荐

热门标签

时空行为检测数据集 JHMDB & UCF101_24 详解的相关文章