EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

2023-11-16

动机
  1. 从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段。
  2. 通过预测语音内容和自动语音识别(ASR) token之间的grounded关系来学习特征。然而,先前的训练前工作仅限于教学录像;作者希望这个领域是相对“容易”的:在教学视频中,演讲者通常会引用文字描述的目标/动作。即期望视频帧和ASR token中的语义信息在教学视频中可以很容易地关联起来。
  3. 相似模型是否可以在更多样化的视频语料库上进行训练?如果是,哪些类型的视频“grounded”,哪些类型不“grounded”?
方法
简介

在寻找更普遍的表征时,作者的主要问题是:video-ASR预训练对于更多样化的预训练语料库是否“起作用”?某些类别的非教学性视频是否“有根据”,从而使不同的表征学习得以实现?还是有些类型太难,只充当训练噪音?作者的结论是:

1)在YouTube的大量视频类别中,例如,走遍、车辆、技术评论等,grounding确实是可能的,有些比其他的更难;

2)可转移表征可以通过在更多样的集合上进行训练而成功地学习,这可能提供更多的通用性。

模型

作者考虑一个包含这两个假设的模型:

  1. 假设ASR token平均地与同一视频内时间上共发生的视频帧具有某种对应关系;

2)忽略缺少ASR的剪辑。

虽然更复杂的模型是可能的,但作者的目标是对一个简单的、有代表性的模型进行错误分析,而不一定要达到最先进的结果。

该模型是对HowTo100M方法的略微简化。其中一个嵌入为视觉内容和ASR token学习。尽管基于self-attention模型的更复杂的方法已经被研究过,但联合嵌入模型仍然是有效的,并且提供了更好的解释性,从而使作者能够进行后面的错误分析。

模型细节:通过计算剪辑i和ASR caption j,si,j在联合空间中对应嵌入的余弦相似度来估计它们之间的相似度。联合嵌入模型采用门控、多层前馈网络的参数化方法。作者用作输入的视觉特征是:为目标检测预训练好的帧式2D Inception-v1和为动作识别预训练好的3D CNN S3D-G特征。语言特征输入为每个单词类型的300维向量;这些都是在训练过程中进行微调的。最大池化用于token嵌入和每帧视觉特征,以实现每个剪辑的单一视觉和文本嵌入。在YouTube-600K上进行训练时,词汇量是61K。

具体包括:

  1. Video-ASR预训练。在训练期间,对时间上对应的(剪辑、ASR caption)对进行采样(正例)。对于每一个正例,一组不匹配的负例也是从其他视频和从相同的视频中取样的。与Miech等人相反。作者控制剪辑长度,并采样时间固定长度的片段。在最初的变长片段实验中,作者发现作者的模型能够通过将较长(和较短)的片段与较长(和较短)的ASR caption对齐来“cheating”grounding任务,这些caption大多忽略内容。因此,这种简化的选择使作者的错误分析更加直接

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube 的相关文章

  • C++类与对象--static修饰符

    C 类与对象 static修饰符 1 类静态数据成员的定义及初始化 1 1 声明 1 2 初始化 1 3 调用 1 4 案例 1 5 小结 2 类静态成员函数的定义 2 1 声明 2 2 调用 2 3 案例 2 4 小结 3 static
  • 数据库字段类型

    太长时间没有操作数据库 收集了部分有用的资料 一 创建数据表 CREATE TABLE mytable id VARCHAR 4 NOT NULL name VARCHAR 10 sex CHAR 1 createtime DATE age
  • ROS系统

    参考 https blog csdn net qq 28087491 article details 119053810 https www bilibili com video BV1zt411G7Vn spm id from 333 3
  • 静态网页怎样实现动态交互?-JavaScript

    在Html基础上 javascript能够开发交互式web网页 javascript的出现使得网页和用户之间实现了一种实时性的 动态的 交互性的关系 javascript短小精悍 又是在客户机上执行的 大大提高了网页的浏览速度和交互能力 同
  • Python高级培训第三次作业

    任务 作业 import threading 导入threading库 import time 导入time库 class Get time object 创建类Get time 用于获取当前时间 def init self each ti
  • “msg“:“Request method ‘GET‘ not supported“,“code“:500原因及解决

    GetMapping add parentId 这里的路径纠错 漏 了 controller 缺少add的保存方法 GetMapping add parentId 及其以下 Html出现错误 如下图
  • B树及其基本操作、B+树的基本概念

    B树及其基本操作 B 树的基本概念 1 B树 B 树的基本概念 1 B树的基本概念及性质 2 B 树的基本概念及性质 2 B树与B 树的区别 3 B树的基本操作 1 B树的查找 2 B树的插入 3 B树的删除 1 B树 B 树的基本概念 1
  • SpringBoot集成海康设备网络SDK

    文章目录 SDK介绍 概述 功能 下载 对接指南 集成 初始化项目 初始化SDK 初始化SDK概述 新建AppRunner 新建SdkInitService 新建InitSdkTask 新建 HCNetSDK 调用业务接口 部署 拷贝so库
  • 解决鼠标右击菜单的新建中没有“文本文档”的问题

    解决鼠标右击菜单的新建中没有 文本文档 的问题 原创 丶无殇 2022 2 12 注意 博主测试平台为WIN10系统 其他系统不保证一定可以 一 问题现象 在桌面右击打开新建菜单时没有文本文档这个选项 二 问题原因 有以下可能 安装某个软件
  • 单链表的数据结构和基本操作

    单链表的基本操作 头结点单链表的基本操作 头结点单链表的数据结构 头结点的初始化 插入新结点 头插法插入新结点 尾插法插入新结点 按位置插入新结点 删除节点 头删 尾删 按位置删 头指针单链表的基本操作 实现代码 链表是一种线性结构 在存储
  • UE4 技能系统(GAS插件的使用) 01--Build Basic Classes 创建基础类

    翻译自Udemy的视频课程introduction to unreal engine 4 ability system Build Basic Classes 创建基础类 1 创建工程和人物设置 01 创建Git仓库 使用UE4 22 VS
  • CUDA学习(二十三)

    Direct3D互操作性 Direct3D 9Ex Direct3D 10和Direct3D 11支持Direct3D互操作性 CUDA上下文只能与满足以下条件的Direct3D设备互操作 必须使用设置为D3DDEVTYPE HAL的Dev
  • 脚本之抢课脚本

    UserScript name New Userscript namespace http tampermonkey net version 0 1 description try to take over the world author
  • 前后端分离 获取客户端ip_前后端分离交互

    新开一个项目 对最近学的vue进行一个总结 这段时间把前后端通信做掉 后端 介绍下使用到的工具类 请求工具 postman 后端框架 springboot 这里顺便做了个模块化 把通用工具集放common模块中 但是这里有个问题 其实我自己
  • QT入门Input Widgets之QComboBox

    目录 一 界面布局功能 1 界面位置介绍 2 界面常用操作属性 2 1基本属性 2 2添加子项目 二 属性功能介绍 1 代码添加item 2 批量插入 3 设置当前显示的索引 4 清除掉所有item 5 切换item获得索引值与当前文本 三
  • 云服务器下centos7.3 nginx动态负载均衡

    nginx动态负载均衡 什么是nginx动态负载均衡呢 传统的负载均衡 如果Upstream参数发生变化 每次都需要重新加载nginx conf文件 因此扩展性不是很高 所以我们可以采用动态负载均衡 实现Upstream可配置化 动态化 无
  • 关于小贷公司与平台合作的一点感想

    一 1 有人说小额贷款行业经过了革命浪漫主义 传统信贷 数据 数据爆炸几个阶段 现在应该是平台合作阶段了 且不说这样的论述有推销数字化平台服务之功利性 小贷行业不过10年出头 一个行业阶段的孕育 发展到变革是漫长的 哪有那么多阶段 2 我认
  • 三维重建入门学习————建模软件Blender入门篇

    背景介绍 关于近期在进行三维重建相关算法学习的时候 学得越深 发现对各个方面的知识要求得越多 之前是补了相机的拍照原理 成像原理知识 再后来还补了主流的点提取 匹配算法等等 到了最近 论文 抑或是其他技术性文章出现的纹理 贴图等等词 总会让
  • Pandas知识点-详解元素级批处理函数applymap和map

    Pandas知识点 详解元素级批处理函数applymap和map 在Pandas中 apply 可以对DataFrame和Series按列或行批处理 applymap 和map 可以分别对DataFrame和Series进行元素级的批处理

随机推荐

  • mybatis中判断某个字段是否为null或空

    MySql 里的IFNULL NULLIF和ISNULL用法 mybatis不能使用IFNULL这些函数 可以用case when then else end代替 select id is topic on as topicOn topic
  • flutter报错The number of method references in a .dex file cannot exceed 64K.

    The number of method references in a dex file cannot exceed 64K 这句话的意思翻译出来是 dex文件中的方法引用数不能超过64K 我的理解 引用的第三方的方法超过了64K 需要在
  • 如何将代码托管到github上

    1 注册并登陆github github官方地址 https github com 2 点击右下角的 New repository 按钮来创建一个版本库 3 将版本库命名为 coolweather 然后选择添加一个 Android 项目类型
  • 将json字符串转换成html,根据json字符串生成Html的一种方式

    文章说明 本文介绍了根据Json串生成Html的一种方式 只是简单实现了文本框 密码框 下拉框 只是觉得好玩才这样做 如果觉得没有任何价值 请忽略 不足指出希望各位大牛指点 后续将根据各位的指点继续完善 功能说明 在左侧输入框中输入Json
  • ue中的经纬高转xyz的问题

    在ue中 做了个地球仪 发现经纬度转地心坐标系老是出问题 后来发现 是转ue时 x y坐标要互换 也对 因为在cesium for unreal中还有一系列ecef转ue的相关函数 即下面的代码中 xy需要互换 在ue中才能正常使用 偏心率
  • 【图解网络协议】面试官:三次握手都不会,回去等通知吧

    文章目录 一 网络基础知识准备 1 OSI七层网络模型总结 2 TCP IP协议总结 3 TCP协议流程 4 UDP协议 5 什么是socket 二 http协议 1 什么是http协议 2 http 1 0 与 http 1 1的区别 3
  • 香农公式简介

    信道容量 指信道中信息无差错传输的最大速率 信道模型中定义了两种广义信道 调制信道和编码信道 调制信道是一种连续信道 可以用连续信道的信道容量来表征 编码信道是一种离散信道 可以用离散信道的信道容量来表征 香农公式 设信道带宽为B 单位为H
  • 五种IO模型(详解+形象例子说明)

    在网络环境下 通俗的讲 将IO分为两步 1 等 2 数据搬迁 如果要想提高IO效率 需要将等的时间降低 五种IO模型包括 阻塞IO 非阻塞IO 信号驱动IO IO多路转接 异步IO 其中 前四个被称为同步IO 在介绍五种IO模型时 我会举生
  • 给一个正整数n,求出位数。并按正序输出,逆序输出

    求出位数 思路 通过让给定的正整数n整除10 且每整除一次让统计位数的变量count自增一 返回count得到位数 include
  • 华硕主板固态硬盘不识别_[主板] 开机后无法识别硬盘或SSD的故障排除方式

    1 尝试更新官网最新的BIOS版本 可参考FAQ 华硕EZ Flash 3 介绍 2 在计算机开机后 立刻按压键盘上的 delete 键 在BIOS EZ Mode 页面的 Storage Information 字段 确认是否可以显示所接
  • 使用EasyExcel生成表格并且返回File对象

    通过此方法 可以导出表格并且存入File对象中进行其他的操作 这里通过File来进行异步存储到文件服务器 用于下载中心 public static
  • myeclipse10配置tomcat详细过程

    首先确保你已经成功的安装 了myeclipse10和tomcat 我用的是tomcat6 1 在myeclipse10中添加tomcat 选择属性preferences之后进入配置框 选择servers下的tomcat6 视你自己的版本而定
  • 【翻译】软件表现不佳,未来取决于这种情况的改变

    如果一件事不能永远进行下去 它就不会 赫伯 斯坦法则 科技行业的未来会是什么样子 从现在到2030年 我们所有人面临的挑战不再是我们将如何说服世界 或更直接地说 我们的老板或客户 成为碳零 无论我们是否愿意 这都会到来 我们的新问题是 作为
  • 如何阅读他人的项目源代码程序

    阅读他人的项目源代码步骤 备份并编译运行代码 熟悉项目编程语言的语法和惯例用语 看项目文档 有机会可向项目开发人员请教 自上而下构建项目程序的系统架构 建立系统架构和功能逻辑之间的关联 核心代码重点剖析与注释 调整心态 反复阅读 工欲善其事
  • Vue3只读代理---readonly、isReadonly、shallowReadonly

    readonly 获取一个对象 响应式或纯对象 或 ref 并返回原始代理的只读代理 不能给属性重新赋值 只读代理是递归的 访问的任何嵌套 property 也是只读的
  • springmvc源码学习(二十四)异步请求管理器WebAsyncManager初始化

    目录 前言 一 WebAsyncManager初始化 二 参数的初始化 三 自定义参数 总结 前言 Springmvc的异步执行请求是有异步管理器WebAsyncManager来控制的 一 WebAsyncManager初始化 1 在请求到
  • 大数据--Hadoop环境部署(4)Hadoop集群部署

    Hadoop集群的部署方式分为三种 分别是独立模式 Standalone mode 伪分布式模式 Pseudo Distributed mode 和完全分布式模式 Cluster mode 独立模式和伪分布式模式主要用于学习和调试 完全分布
  • 数据圈最全的数据分析&产品文章合集

    关注公众号 回复 进群 与3万 数据人交流 公众号介绍 一个数据人的自留地 成立于2020年2月25日 目前发表原创300 篇 拥有3万 粉丝 交流群10 个 连载数据产品 数据分析 画像标签 策略算法 运营增长 求职面试等20多个方向的文
  • Spring Boot Kafka - 序列化和反序列化JSON

    文章目录 Spring Boot Kafka 序列化和反序列化JSON 前言 配置JsonSerializer和JsonDeserializer 定义一个Model类 Producer类 Consumer类 Controller类 测试 小
  • EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

    动机 从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段 通过预测语音内容和自动语音识别 ASR token之间的grounded关系来学习特征 然而 先前的训练前工作仅限于教学录像 作者希望这个领域是相