时空行为检测数据集 JHMDB & UCF101_24 详解

2023-05-16

文章目录

    • 0. 前言
    • 1. JHMDB
      • 1.1. 基本情况
      • 1.2. 数据准备以及标签详解
    • 2. UDF101_24
      • 2.1. 基本情况
      • 2.2. 数据准备与标签详解
    • 3. 数据集可视化代码

0. 前言

  • 现在常用的时空行为检测数据集只有AVA/JHMDB/UCF101_24。
    • AVA数据集是每一秒标一帧,更多信息可以参考我的笔记。
    • JHMDB/UCF101_24 是逐帧标注的数据

1. JHMDB

  • 官网,HMDB官网

1.1. 基本情况

  • JHMDB是对HMDB数据集的二次标注,即 joint-annotated HMDB。

    • HMDB数据集有51类,5100多视频。
    • JHMDB只标注了HMDB的一部分,21类只包括一个人的行为,也删除了一些这21类行为中人不明显的样本。
    • 21类每一类有36-55个样本,每个样本包括了行为的起始与终止时间,每个样本包括14-40帧。
    • JHMDB一共标注了31838张图片。
  • 类别列表(21类)

    • sit
    • run
    • pullup
    • walk
    • shoot_gun
    • brush_hair
    • jump
    • pour
    • pick
    • kick_ball
    • golf
    • shoot_bow
    • catch
    • clap
    • swing_baseball
    • climb_stairs
    • throw
    • wave
    • shoot_ball
    • push
    • stand
  • 每个视频最多只有一类目标行为,bbox只标了做目标行为的那几个人

1.2. 数据准备以及标签详解

  • 下面内容参考了 mmaction2数据准备文档,数据下载在上面的文档中有介绍了,反正就是一个压缩包,没啥好说的。
  • 原始JHMDB数据集中好像有关键点、分割等的标签,但我们这个任务中不用。
  • 标签全部保存在JHMDB-GT.pkl 中,这个文件是一个字段,包括了6个key
    • labels (list): List of the 21 labels,21类行为标签,即上一小节中提到的。
    • gttubes (dict): Dictionary that contains the ground truth tubes for each video.
      • 每个视频、每帧对应的标签(bbox以及行为类别)
      • key为每个样本的相对路径,比如walk/Panic_in_the_Streets_walk_u_cm_np1_ba_med_5
      • value也是list,表示一系列tubes
      • 每个tube用字典表示,class_id/bboxes键值对
      • A gttube is dictionary that associates with each index of label and a list of tubes.
      • A tube is a numpy array with nframes rows and 5 columns, each col is in format like <frame index> <x1> <y1> <x2> <y2>.
    • nframes (dict): Dictionary that contains the number of frames for each video, like 'walk/Panic_in_the_Streets_walk_u_cm_np1_ba_med_5': 16.
      • 每个视频包含多少帧图片。
      • key为每个样本的相对路径,value为帧数量。
    • train_videos (list): A list with nsplits=1 elements, each one containing the list of training videos.
      • list对象,每个元素也是list(包含若干视频样本信息)
      • 训练集相关视频有哪些
      • 每个样本通过其相对路径表示
    • test_videos (list): A list with nsplits=1 elements, each one containing the list of testing videos.
      • list对象,每个元素也是list(包含若干视频样本信息)
      • 测试集相关视频有哪些
      • 每个样本通过其相对路径表示
    • resolution (dict): Dictionary that outputs a tuple (h,w) of the resolution for each video, like 'pour/Bartender_School_Students_Practice_pour_u_cm_np1_fr_med_1': (240, 320).
      • key为每个样本的相对路径,value为对应分辨率

2. UDF101_24

2.1. 基本情况

  • UCF101_24是UCF101数据集的子集,使用了一些不一样的标签。

    • 关于标签来源有点尴尬,UCF101中本来是有对应标签的,但现在已经不能下载了。image-20201117111626130
    • 现在的UCF101_24标签是从这个repo中,说是进行了一些微调。
    • 每个视频最多只有一类目标行为,bbox只标了做目标行为的那几个人。
      • 感觉也有例外,salsospin有样本都有多个人跳舞(大于等于6个),但只标了俩人。
  • 类别信息(共24类)

    • WalkingWithDog
    • Diving
    • PoleVault
    • SkateBoarding
    • CricketBowling
    • GolfSwing
    • Skijet
    • RopeClimbing
    • FloorGymnastics
    • Basketball
    • Biking
    • VolleyballSpiking
    • Fencing
    • CliffDiving
    • HorseRiding
    • SoccerJuggling
    • TennisSwing
    • LongJump
    • SalsaSpin
    • TrampolineJumping
    • IceDancing
    • Skiing
    • Surfing
    • BasketballDunk

2.2. 数据准备与标签详解

  • 数据下载以及其他相关可以参考 mmaction2数据准备文档,数据下载在上面的文档中有介绍了,反正就是一个压缩包,没啥好说的。

  • 标签与1.2.数据准备以及标签详解完全相同,这里就不多说了。

3. 数据集可视化代码

  • 需求分析:根据类别展示训练样本,在图片上画bbox。
import argparse
import os
import cv2
import pickle
from collections import defaultdict


def _parse_args():
    parser = argparse.ArgumentParser()

    parser.add_argument("--dataset", type=str, default="ucf101_24")

    parser.add_argument("--dataset_root_path", type=str,
                        default="/ssd01/data/ucf101_24")
    parser.add_argument("--rgb-dir-name", type=str, default="rgb-images")

    # JHMDB & UCF101_24
    parser.add_argument("--pkl-filename", type=str, default="UCF101v2-GT.pkl")
    parser.add_argument("--img-impl", type=str, default="%05d.jpg")

    return parser.parse_args()


def _darknet_draw_bbox(bboxes,
                       labels,
                       scores,
                       img,
                       bboxes_color=(0, 255, 0),
                       bboxes_thickness=1,
                       text_color=(0, 255, 0),
                       text_thickness=2,
                       text_front_scale=0.5):
    """
    bbox的形式是 xyxy,取值范围是像素的值
    labels是标签名称
    scores是置信度,[0, 1]的浮点数
    """
    for idx, (bbox, label) in enumerate(zip(bboxes, labels)):
        xmin, ymin, xmax, ymax = bbox
        pt1 = (int(xmin), int(ymin))  # 左下
        pt2 = (int(xmax), int(ymax))  # 右上

        # 画bbox
        cv2.rectangle(img, pt1, pt2, bboxes_color, bboxes_thickness)

        # 写上对应的文字
        cur_label = label
        if scores is not None:
            cur_label += " [" + str(round(scores[idx] * 100, 2)) + "]"
        cv2.putText(
            img=img,
            text=cur_label,
            org=(pt1[0], pt1[1] - 5),
            fontFace=cv2.FONT_HERSHEY_SIMPLEX,
            fontScale=.5,
            color=(0, 255, 0),
            thickness=2,
        )
    return img


def _show_single_video(rgb_dir, tubes, nframes, label, img_impl):
    draw_imgs = []

    for i in range(nframes):
        img = cv2.imread(os.path.join(rgb_dir, img_impl % (i+1)))
        boxes = tubes[i+1]
        draw_img = _darknet_draw_bbox(
            boxes, [label]*len(boxes), None, img)
        draw_imgs.append(draw_img)
        cv2.imshow("demo", draw_img)
        cv2.waitKey(100)

    return draw_imgs


def _filter_samples(data_dict, args):
    # TODO: filter input data with categories
    return data_dict


def _show_spatiotemporal_datasets(args):
    pkl_path = os.path.join(args.dataset_root_path, args.pkl_filename)
    rgb_dir_path = os.path.join(args.dataset_root_path, args.rgb_dir_name)
    with open(pkl_path, "rb") as fid:
        cache = pickle.load(fid, encoding='bytes')

    labels = [c.decode() for c in cache[b'labels']]
    train_videos = [c.decode() for c in cache[b'train_videos'][0]]
    test_videos = [c.decode() for c in cache[b'test_videos'][0]]
    nframes = {k.decode(): v for k, v in cache[b'nframes'].items()}
    resolution = {k.decode(): v for k, v in cache[b'resolution'].items()}
    gttubes = {k.decode(): v for k, v in cache[b'gttubes'].items()}

    # key - sample relative dir
    # value - dict
    #   label - int
    #   nframes - int
    #   reoslution - tuple
    #   tubes - array
    data_dict = defaultdict(dict)
    for k in nframes:
        data_dict[k]['nframes'] = nframes[k]
    for k in resolution:
        assert data_dict[k]['nframes'] is not None
        data_dict[k]['resolution'] = resolution[k]
    for k in gttubes:
        assert data_dict[k]['resolution'] is not None
        label = list(gttubes[k].keys())[0]
        data_dict[k]['label'] = label
        data_dict[k]['tubes'] = defaultdict(list)
        for boxes in gttubes[k][label]:
            for box in boxes:
                data_dict[k]['tubes'][int(box[0])].append(box[1:])

    for relative_path in data_dict.keys():
        sample = data_dict[relative_path]
        _show_single_video(
            os.path.join(rgb_dir_path, relative_path),
            sample['tubes'],
            sample['nframes'],
            labels[sample['label']],
            args.img_impl,
        )


def main(args):
    if args.dataset in ["ucf101_24", "jhmdb"]:
        show_dataset_fn = _show_spatiotemporal_datasets
    else:
        raise ValueError("Unknown dataset {}".format(args.dataset))
    show_dataset_fn(args)


if __name__ == '__main__':
    main(_parse_args())

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

时空行为检测数据集 JHMDB & UCF101_24 详解 的相关文章

  • 4.ROS&PX4--运行官方offboard起飞程序

    1 创建空间 span class token function mkdir span catkin ws span class token builtin class name cd span catkin ws span class t
  • 5.ROS&PX4--offboard模式多航点代码编写

    4 ROS amp PX4 offboard模式多航点代码编写 offboard模式多航点代码编写等待更新 offboard模式多航点代码编写 等待更新 span class token comment 64 file offb node
  • Jetseon TX2 & IntelRealsense D435i & Python

    Jetseon TX2 amp IntelRealsense D435i amp Python amp Socket 一 IntelRealsense Python Wrapper GitHub 1 Installation pip ins
  • Android面试专题 (十一):显式Intent & 隐式Intent

    面试官 xff1a 来 xff0c 说一下Android中的显式Intent 和 隐式Intent吧 xff01 嗯 xff0c 乍一听觉得这么简单你让我说什么呢 xff1f 但是 xff0c 没办法 xff0c 面试往往面的就是基础不是嘛
  • Kubeedge & Edgemesh & Sedna 配置

    Setting Of Kubeedge amp EdgeMesh amp Sedna Installation 准备安装环境 xff08 主节点和从节点均有 xff09 Edge nod amp Cloud node 两节点均需配置cgro
  • OpenGL进阶 | GLM数学库& Shader相关

    一 GLM数学库 OpenGL和DirextX不一样 xff0c 没有内置的数学库 xff0c 于是我们需要找一个第三方数学库来完成OpenGL相关的数学计算 GLM库是一个为OpenGL准备的数学库 xff0c 它提供了各种数学运算的函数
  • 指针p,*p,&p之间的区别

    假设我们定义一个指针p 那么会经常使用到三个符号 xff1a 1 xff0c p xff1b p是一个指针变量的名字 xff0c 表示此指针变量指向的内存地址 xff0c 如果使用 p来输出的话 xff0c 它将是一个16进制数 2 xff
  • 2013&2014

    2013总结 2013 毕业了 xff0c 算是正式工作半年 xff0c 2013年7月开始 xff0c 算是我的生活 xff0c 工作之外的时间都是自己的 一 收获 1 压力测试 差不多算是一个月的时间 xff0c 疯狂的一个月 xff0
  • AMP:参考xapp-1078和xapp1079的一些建议

    Linux系统默认是SMP模式 xff0c 有时我们也需要AMP模式进行开发 参考网站 xff1a wiki xilinx com 有xapp1078 xapp1079最新版本的AMP demo www arm com 主要是介绍arm系列
  • 持续请求/socket.io/?EIO=3&transport=polling&t=N8HrzIR

    项目基本介绍 xff1a 使用React xff0c webpack xff0c socket io client Node js Express socket io 等技术 xff0c 采用前后端分离开发 实现项目中的聊天室时遇到报错 x
  • 【日志工具】g3log_6_ROS1中g3log的安装&使用

    ROS1中g3log的安装 amp 使用 基于ros1 melodic版本进行封装使用 g3log库安装 git clone https span class token operator span span class token com
  • cmake & CMakeLists.txt

    文章目录 前言先从体验开始1 一个最简单的例子 xff1a 2 例子升级 xff0c 将hello c生成为一个库 xff1a 3 例子升级 xff0c 将源代码和库分开放 xff1a 4 让可执行文件在 bin 目录 xff0c 库文件在
  • C++中vector作为参数的三种传参方式(传值 && 传引用 && 传指针)

    c 43 43 中常用的vector容器作为参数时 xff0c 有三种传参方式 xff0c 分别如下 xff1a function1 vector vec xff0c 传值 function2 vector amp vec xff0c 传引
  • ROS速成之发送&接收消息

    人真的老了 xff0c 扔了个周末 xff0c 完全不记得干了什么 论纪录的重要性啊 xff0c 当时觉得明白的很 xff0c 你扔两天试试 xff1f 扔一年试试 xff1f 扔几年试试 xff1f 最近参加的各种项目脑疼眼乏 xff0c
  • JLINK给STM32下载的两种模式--jtag & sw连线及配置

    jtag线就不说了 xff0c 将jlink的Vref GND TMS TCK分别接至SW接口 对于STM32F103RCT6来说 xff1a TMS PA12 xff0c TCK PA14 关于KEIL MDK中的设置如下图所示就可以了
  • SIP 鉴权 & HTTP 认证

    sip 鉴权是基于摘要签名认证的 具体来说 每一个用户都有一个用户名和密码 用户名和密码在客户端和SIP 服务器的数据库中都有保存 在认证的过程中 客户端将自己的信息 用户名 密码 url 等信息 做一些复杂的MD5 或者SHA256 SH
  • linux中断&poll&selcet按键处理机制

    在上一篇linux按键中断处理中 xff0c 我们采用按键中断处理获取按键 xff0c 在read函数中阻塞读取 xff0c 当按键发生时 xff0c read自动解除阻塞 xff0c 实现应用层读取到相应的按键值 在上一节中如果没有按键到
  • Cmake入门&运行保存C/C++文件

    Cmake入门 amp 运行保存C C 43 43 文件 在ubuntu创建 保存 运行c 43 43 文件CMake入门创建文件编译 参考 最近在学习Intel realsense T265双目视觉 xff0c 其中一步需要创建源文件ma
  • ubuntu(15):对‘casadi::MX::MX(casadi::MX const&)’未定义的引用

    catkin build 编译报错 xff0c 找不到CASADI的头文件目录CASADI INCLUDE DIRS或者库文件也达不到CASADI LIBRARIES xff1b 对 casadi MX horzsplit casadi M
  • C++ 文件的读写(fin && fout)

    如何让键盘输入字符保存在 txt文件中 如何让我们自己在键盘上输入的字符不仅仅在屏幕上显示 xff0c 而且还能保存在特定路径的文件中 xff0c 这让简单枯燥的控制台命令程序变得略有趣 首先 xff0c 先看看cin和cout对象 xff

随机推荐