Kaggle赛题解析:Google手语识别

2023-10-27

一、比赛前言信息

比赛名称:Google - Isolated Sign Language Recognition

中文名称:帮助用户从PopSign游戏学习美国手语

比赛链接:https://www.kaggle.com/competitions/asl-signs/

比赛类型:时序视频分类、手语识别

二、比赛背景

在美国,每天有 33 名婴儿出生时患有永久性听力损失。其中大约 90% 的父母是听力正常的人,其中许多人可能不懂美国手语。

如果没有手语,聋哑婴儿有患上语言剥夺综合症的风险。这种综合症的特点是在语言学习的关键时期无法获得自然发生的语言习得。它会对他们生活的不同方面造成严重影响,例如人际关系、教育和就业。

学习美国手语对说英语的人来说和学习日语一样困难。这需要很多父母没有的时间和资源。他们想学习手语,但是当他们为了维持生计而长时间工作时,这很难。即使他们找到了上课的时间和金钱,上课的地方也往往很远。

PopSign 是一款智能手机游戏应用程序,它使学习美国手语变得有趣、互动且易于访问。玩家将 ASL 标志的视频与包含书面英语单词的泡泡相匹配以弹出它们。

PopSign 旨在帮助有失聪儿童的父母学习美国手语,但它对任何想学习手语词汇的人开放。通过添加本次比赛的手语识别器,PopSign 玩家将能够在他们想要射出的泡泡类型上签名,让玩家有机会自己练习手语,而不仅仅是观看其他人手语的视频。

三、比赛任务

本次比赛的目标是对美国手语 (ASL) 标志进行分类。选手需要创建一个 TensorFlow Lite 模型,使用 MediaPipe 搭建解决方案进行训练。

四、评价指标

本次比赛的评估指标是简单的分类准确率。选手需要提交一个 TensorFlow Lite 模型文件。该模型必须将一个或多个地标帧作为输入,并返回一个浮点向量(每个标志类别的预测概率)作为输出。

您的模型必须打包到 submission.zip 文件中并与 TensorFlow Lite Runtime v2.9.1 兼容。

欢迎您使用您选择的框架训练您的模型,只要您在提交之前将模型检查点转换为 tflite 格式即可。

您的模型还必须需要少于 40 MB 的内存,并且每个视频执行推理的延迟要少于 100 毫秒。

五、数据描述

train_landmark_files/[participant_id]/[sequence_id].parquet:使用 MediaPipe 整体模型从原始视频中提取地标。并非所有的框架都必须有可见的手或模型可以检测到的手。

  • frame - 原始视频中的帧数。
  • row_id - 行的唯一标识符。
  • type - 地标的类型。[‘face’, ‘left_hand’, ‘pose’, ‘right_hand’] 之一。
  • type - 地标的类型。[‘face’, ‘left_hand’, ‘pose’, ‘right_hand’] 之一。
  • [x/y/z] - 地标的归一化空间坐标。这些是将提供给您提交的模型进行推理的唯一列。MediaPipe 模型没有经过充分训练来预测深度,因此您可能希望忽略 z 值。

train.csv:

  • path - 地标文件的路径。
  • participant_id - 数据贡献者的唯一标识符。
  • sequence_id - 界标序列的唯一标识符。
  • sign - 地标序列的标签。

六、解题思路

赛题是一个比较典型的时序分类任务,但需要考虑模型的速度和精度。从数据类型来看,CNN模型可能是更容易训练的模型。

  • 训练一个深度学习模型
  • 调整模型精度
  • 蒸馏、量化增加模型速度
  • 转换为tflite格式
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kaggle赛题解析:Google手语识别 的相关文章

随机推荐

  • 避免Flex RSL重复load 提高module加载性能

    本文编译后的补丁下载链接 http download csdn net source 1908278 多模块应用 每加载一个模块都会重复加载模块所使用的RSL 现在增加一个 private static var loadedRSLs Dic
  • golang实战-数字签名与认证

    一 数字签名 设想一个场景 Alice 给 Bob 发送了一段消息 明天我请你吃饭 该消息使用 Bob 的公钥加密 公钥加密才能确保消息被截获后也只有 Bob 本人能用自己的私钥解密 但是由于 Bob 的公钥可能其他人也有 Tom 也可以使
  • 搭建个人图床

    前言 在编写markdown文档的过程中 免不了插入一些图片 但是在分享的时候 这些带有图片资源的markdown就显得十分麻烦了 同时我也有写博客的习惯 hexo等用md转前端页面的项目在处理图片时也会遇到各种不舒服的操作 因此搭建自己的
  • 第7课 微信小程序实现图片搜索器案例:

    第7课 微信小程序实现图片搜索器案例 效果图如下 手机运行效果 来我们来看看代码的全局样式 首先在app json内的pages把需要的index1 index2页面注册 之后我们只需写index1 index2两个页面 即可实现图片搜索小
  • Django ORM 框架中的表关系,你真的弄懂了吗?

    Django ORM 框架中的表关系 为了说清楚问题 我们设计一个 crm 系统 包含五张表 1 tb student 学生表 2 tb student detail 学生详情表 3 tb salesman 课程顾问表 4 tb cours
  • windows下的服务启动和停止的命令操作区别(sc和net)

    目录 1 sc 和net 命令区别 1 sc 和net 命令区别 1 服务重启过程的执行结果可能会有不同 net命令在stop时会停止等待 在服务完全停止后再继续执行后续语句 所以net的重启命令就会正常 sc stop serviceNa
  • 手把手教你学会FIRST集和FOLLOW集!!!!吐血收藏!!保姆级讲解!!!

    让我们开始圆规正传 这里的关于FIRST集的定义摘抄于下面大佬的博客 因为觉得大佬的定义足够详细了 原文链接在下面 大佬的文章也很厉害 膜拜 这里的mooc照片来源于西安邮电大学mooc课程 编译原理第四章第二讲的视频中 感谢教学团队老师的
  • 目标检测评价指标

    1 引言 在衡量一个目标检测的模型时 有许多的标价指标可以帮助我们评价一个模型的好坏 在这里总结一下 准确率 Accuracy 混淆矩阵 Confusion Matrix 精确率 Precision 召回率 Recall 平均正确率 AP
  • JDBC六大编程步骤

    JDBC六大编程步骤 JDBC介绍 JDBC连接数据库六步 JDBC介绍 JDBC Java Database Connectivity 代表Java编程语言与数据库连接的标准API 然而JDBC只是接口 JDBC驱动才是真正的接口实现 没
  • 【电子电路】PT100 四线制高精度采样原理图和两线制和三线制接线办法

    实际原理图 仿真图 四线制接线说明和两线制三线制接线办法 实际接线说明 A 接原理图P2 1脚 C接原理图P2 2脚 B 接原理图P2 4脚 D 接原理图P2 3脚 工程代码和原理PCB
  • 详解万向锁

    最近在看高翔老师的slam十四讲时 对万向锁这个概念不是很清晰 于是从网上查了不少博客文档 最终明白了万向锁这个概念 在此记录一下 解释万向锁之前首先明白一下什么是欧拉角 什么是欧拉角 用一句话说 欧拉角就是物体绕坐标系三个坐标轴 x y
  • Batch Normalization导读

    转载自 http blog csdn net malefactor article details 51476961 0 tsina 1 62851 397232819ff9a47a7b7e80a40613cfe1 Batch Normal
  • 程序员面试,面试官问 「你接受加班吗 」,怎么回答比较好?

    说到加班 就不得不提一提程序员行业了 程序员加班是常态 但面试时你冷不丁的来一句你接受加班吗 无疑会问倒不少人 很多码农经过 3 轮的技术面拷打 各种八股文都倒背如流 但是一到 hr 面的一些软问题上就发懵了 毫无思路 这类问题看起来没有技
  • 稳定排序与不稳定排序的区别

    稳定和不稳定排序详解 参考 https www jianshu com p 7c03e5eb143c 稳定排序有 插入排序 冒泡排序 归并排序 基数排序 不稳定排序有 选择排序 快速排序 希尔排序 堆排序 稳定排序 插入排序 在一个有序的序
  • 【多同步挤压变换】基于多同步挤压变换处理时变信号和噪声信号研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 算例1 2 2 算例2 2 3 算例3 2 4 算例4 2 5 算例5 3 参考文献
  • logback简介及引入方法

    转自 logback相关教程简介说明 下文笔者将讲述logback日志组件的相关简介说明 如下所示 logback简介 logback是一个开源的日志组件 它是由log4j的作者设计完成的 拥有更好的特性 用于取代log4j的一个日志框架
  • QT qt5使用qdebug()输出中文 乱码

    注 QString 是Unicode编码方式 include
  • elementUI 的上传组件<el-upload>,自定义上传按钮样式

    方法一 原理 调用
  • Java Web项目中使用freemarker操作flt生成带图片(base64)的Word文档

    这是我在实际开发中的一个小案例 仅供参考 freemarker操作ftl ftl中的图片必须是黑乎乎的base64编码格式 其它直接 用 动态替换即可 参考http blog csdn net jackfrued article detai
  • Kaggle赛题解析:Google手语识别

    文章目录 一 比赛前言信息 二 比赛背景 三 比赛任务 四 评价指标 五 数据描述 六 解题思路 一 比赛前言信息 比赛名称 Google Isolated Sign Language Recognition 中文名称 帮助用户从PopSi