Learning Video Object Segmentation from Static Images

2023-11-12

Abstract:

论文灵感来源于:实例分割和目标跟踪

特点:1.我们的模型在每帧的基础上进行,并由前一帧的输出导向下一帧中的关注对象 2.一个高度准确的视频目标分割可以用一个卷积神经网络并用静态的图片来训练 3.使用在线和离线的策略,前者产生了一个refined mask从之前帧的评估而后者则是可以捕获特定实例目标的外观。4.我们的方法可以处理不同的输入标注如bounding box和分割,同时可以利用任意数量的标注的帧。5.所以我们的系统可以适应不同的应用根据不同的需求。6.在我们的广泛评估中,我们在三个不同的数据集上获得了竞争性结果,而与输入注释的类型无关。

Introduction:

1.使用卷积神经网络很难处理一些视频的问题,因为创建一个足够大的,且逐像素标注的数据对于视频来说往往是难以承担的。

2.视频目标分割是分割相同的目标在所有的帧里面,现在的一些顶级方法用了要么是插入box的跟踪方法要么是分割, 或者是通过第一帧的Mask的标注传给CRF或者grabcut-like技术。(这里用了引用,可以看看,而且没有理解这里的意思

3.对于一个新的视频帧,它被之前评估的帧的mask来引导,所以这个方法叫引导实例分割,据我所知,它是代表了一个第一次全训练方法对于视频目标分割。

4.我们的方法足够高效,一次只需要考虑一帧,跟以前的方法不同的是,他们需要多个帧,或者一个全局帧的连接,甚至整个视频序列才能取得一个好的结果,而且我们的方法还可以输入bounding box也可以达到很好的效果,所以我们的方法更为灵活。

5.非常关键的一点就是使用在线和离线两种训练方式,离线就是使用变换和粗化技术大概估计一个mask,在线就是根据以前的跟踪任务(引用12, 32)引入到视频目标分割。

【主要的三点贡献:

1. 使用了图像数据集来训练,

2. 不需要建立帧与帧之间的关系

3. 有mask通道】

Related work:

Local propagation

Global propagation

unsupervised segmentation

box tracking:

通过在像素级别跟踪进行视频对象分割的想法至少已有十年历史了[40]。 最近的方法使框跟踪与框驱动的分割(例如TRS [53])交织在一起,或通过图形标记方法传播第一帧分割。

我们的工作受GOTURN和MDNet的启发,我们和之前方法不同的是我们用mask代替了boxes, 也不是调节特定域的层,而是根据不同的视频序列微调所有的层,

instance segmentation

受启发于【6,44,54,5】

interactive video segmentation
 

Method

Offline-training:

使用RGB+mask:

1.mask来指导分割,或者使用一个bounding box就可以足够来分割了

2.因为我们使用了mask,所以我们可以使用使用图片中的样本来训练,这样就会有很多的训练数据,而不是像[3,5,20,32]中的那样使用视频训练【这里是为什么,我需要看看别的文章?】

3.mask的产生,使用affine transformation, non-rigid defornation, thin-plate splines, coarsening step.

4.我们在10的4次方数量的数据集上训练,在测试阶段,在t-1帧的时候给出mask评估,我们使用腐蚀操作得到一个较为粗略的mask作为第t帧的输入。

5.用仿射变换和非刚性变换(薄板样条)来模仿视频中目标的运动,用腐蚀操作来模拟前一帧网络输出的分割的带有滴状斑点的mask,这样可以使网络更加鲁棒。

仿射变换:直线还是直线,变换之前是什么比例之后还是什么比例,之前平行的直线,之后也平行。

非刚性变换:刚性变换就是如平移,旋转的等形状不改变的变换,非刚性变换就是形状会改变的变换。

薄板样条:给定两张图上给定n个关键点,将第一张图的上的目标通过形变以匹配第二张图的关键点。

6.训练有素的卷积网络已学会了进行类似于SharpMask [37],DeepMask [36]和Hypercolumns [19]之类的网络的引导实例分割,但不是以边界框为指导。

【为什么加入mask之后就可以使用别的数据集来训练了?,这里针对的是那些基于匹配的方法,需要使用图像crop进行匹配,而crop又属于视频图像的一部分,所以无法用图像数据集来训练,但是这里是否可以使用一些非刚性变换模拟运动,那么基于匹配的方法也可以使用图像数据集】

Online-training:

跟跟踪中的论文类似,使用在先微调,使用的是分割视频中的第一帧,因为第一帧是带有标签的,使用和off-line一样的数据增强方法,【这个数据增强方法是对什么做的?是mask还是RGB图像?】产生了10的3次方这么多的图像

我们是第一个使用像素级标签的网络来用于视频目标分割。

变体:

1.可以使用Bouding box来作为Mask的输入,即将bounding box转化为分割的图像

2.用光流法求得的图像取代RGB图作为用RGB图训练好的网络的输入,最后融合RGB输入的结果和光流输入的结果得到最终结果。

网络细节和训练:

网络:

1. backbone 为VGG16在Imagenet上预训练好的deeplabv2, 对于输入层用于输入mask的卷积用gaussian初始化或者初始化0,作者发现这两种初始化没有什么区别。

offline-trainig:

2.为了能够泛化到不同的视频, 我们避免了在COCO和pascal上训练,我们使用的数据集有ECSSD,MSRA10K,SOD,PASCAL-S,一共11282张图片。

输入mask的获取细节:

4. Network Implementation and Training的offiline training的第二段。

Online-training:

对offline-training训练好的模型在第一帧上的训练样本上,微调200k次,微调的是所有的层,而不是像之前看到的跟踪方法里那样微调最后一层。并对第一帧图像进行数据增强包括翻转,旋转,对mask的ground truth进行仿射变换和非刚性变换,以及腐蚀操作。

【为什么第一帧图像不进行仿射变换,非刚性变换,因为第一帧图像随着后面运动的进行一样会形变阿?】

在DAVIS上每帧2秒,比ObjFlow的方法2分钟一帧快了很多。

实验设置:

1.在3个数据集上评估:DAVIS,YoutubeObjects, SegTrack-V2.

DVIS:50个高质量的视频,总共3455帧,基于像素级的标注被提供,一个目标或者两个连在一起的目标与背景分开.

YoutubeObjects:10个目标种类,我们使用了126个视频的子集,一共超过了20000帧,

SegTrack-V2:14个视频序列,一共24个目标,947帧.由于为具有多个对象的序列提供了实例级注释,因此每个特定的实例细分都被视为单独的问题。

评价指标:

mIoU,Jaccard--平均视频里的帧,对于DAVIS,使用提供的benchmark code[34],其中包括了第一帧到到最后一帧的评价,对于另外两个数据集,仅仅排除第一帧.

为了能够公平的比较,作者重新计算了公开output mask的分数,或者用开源的代码重新复现了结果,特别的作者收集了一些新的结果对于ObjFlow和BVS

 

消融实验:

1.可以看到光流能够提升效果(74.8-》78.4),加一个CRF可以提升DAVIS数据集上的miou提升到80.3,目前已知的最好结果。

2.但是光流是脆弱的,对于不同的数据集以及不同的光流处理的方法会导致1到4个点的不同的提升,但是不是所有的数据集都能够得到提升,主要是因为光流算法的一个失败的模式, 【什么叫光流算法的失败模式?】,为了可以在所有数据集上用固定参数且不去在每个数据集上调整光流的计算,所以在Table5.3,没有使用光流

3.研究这个offline和online训练策略,当不使用online训练策略的话,5个点的mIoU下降,当不使用offline的话,mIoU急剧下降只剩57.6mIoU,虽然这个结果对在Imagenet+single Frame来说也算高了

4.将训练数据从11k减少到5k,只看到一小点的下降,少量的数据也可以取得有竞争力的结果,换句话说,进一步扩大数据量,结果还能进一步提高,

5.除此之外,我们还使用了视频数据来训练而不是使用静态图片,我们将YoutubesObjects和SegTrack-v2结合起来训练,结果有一点点下降,这可能是因为视频数据集缺乏多样性,以及有一些域偏移的问题,这也证明了我们使用静态图片训练并不会导致我们性能的下降。

6.图同样显示了不同的变化对结果的影像

7.使用Bouding box性能下降的原因是因为,boudingx box产生很多小点在目标区域外,即一个嘈杂的框,这个嘈杂的框在整个视频序列里不断累【那这个bouding box的意义在哪里?因为不需要额外通道的结果都比有bouding box通道的结果高】

8.不使用guide mask的第三通道,它的性能在DAVIS下降不明显,但是,在SegTrack-v2和YoutubeObjects上进行实验时,我们发现在不使用先前帧掩码的指导的情况下,性能显着下降,因为与DAVIS相比,这两个数据集对显着对象的偏见更弱。【这个偏见更弱是什么意思?】

9.【为什么table1和table2不一致,table1里加box, mIoU是69.6,而table2是73.7?】因为table1显示的是每一次输入mask通道都用Box,当前帧的box是由上一次的预测得来的因此错误会累积,table2只用了第一帧的Box,即每一次只有第一帧的Box.

基于属性的分析

1.可以看到,除了camera-shake表现比ObjFlow差一点,其他都要好,在快速运动和运动模糊这个点上比其他依赖时间和空间连接的要好【为什么?】作者说是因为针对于第一帧的Online-training,可以捕获感兴趣区域的外观,所以可以更好的恢复遮挡,跑出场景之外以及外观的变化,这些都会影响到那些依赖每帧之间传播的方法。【帧与帧传播的方法是?】

2.光流+CRF很大的提升了结果【为什么光流和CRF可以很大的提升结果?】

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Learning Video Object Segmentation from Static Images 的相关文章

  • 【Paper】2019_DoS/数据注入攻击下基于一致性的信息物理系统安全性研究_曹雄

    曹雄 DoS 数据注入攻击下基于一致性的信息物理系统安全性研究 D 天津大学 2019 DOI 10 27356 d cnki gtjdu 2019 003044 文章目录 第2章 拒绝服务攻击下多智能体系统安全性研究2 1 问题描述2 1
  • [转载][paper]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

    文章目录 摘要 深度学习是当前人工智能崛起的核心 在计算机视觉领域 xff0c 它已经成为从自动驾驶汽车到监控和安全等各种应用的主力 虽然深度神经网络在解决复杂问题方面取得了惊人的成功 通常超出了人类的能力 xff0c 但最近的研究表明 x
  • 写在Paper Reading之前

    写在Paper Reading 之前 2016年第一篇文章 xff0c 就以paper reading开头 xff0c 这段时间最少写五篇 xff0c 达到申请专栏的条件 通过申请专栏 xff0c 也可以达到监督作用 xff0c 催促自己多
  • stm32驱动微雪墨水屏1.54inch e-Paper V2

    我一起驱动墨水屏 一 墨水屏相关基础 xff08 摘自微雪官方 xff09 二 干起来PART2 配置I OPART2 底层硬件接口必要的调用函数PART3 功能函数PART4 应用函数 三 应用注意 代码下载 xff1a https do
  • [paper] Hourglass

    Stacked Hourglass Networks for Human Pose Estimation Abstract Hourglass Net是一个进行人体位姿估计的卷积神经网络 也可以用在人脸关键点检测等领域 它结合了身体上的空间
  • 【图像处理】【图像去模糊】 总结

    本人最近由于做相关去卷积工作 查阅了上百篇文献 发现在这个领域 可能也是 水太深 了 并没有一篇较好的综述 现在做以下总结 只对高斯与散焦模糊的非盲去卷积领域 对于运动模糊并未做总结 但实际上除了点扩散函数的估计有区别 实际上这三类去模糊甚
  • 论文分享-Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads

    前言 这篇文章是由斯坦福大学和微软研究院共同合作的 于2020年11月发表于系统类顶级会议OSDI 主要研究了不同异构硬件资源对深度学习负载的影响和集群调度策略的设计 1 摘要 专门的加速器 如gpu TPUs fpga和定制asic 已经
  • 论EI、SCI和ISTP检索论文的收录号和期刊号查询方法

    http www scitsg com Article 134240802101541 aspx 需要申请博士后进站和国家自然科学基金的朋友都知道申请博士后进站和国家自然科学基金需要填写很多申请表格 其中就需要填写所发表的EI SCI和IS
  • Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR

    本文内容仅代表个人理解 如有错误 欢迎指正 1 Problem Background Information 1 1 Problem 目前 人们基本上都采用基于深度学习的方法来解决Visual grounding任务 不论是全监督学习还是弱
  • CGAN原理及tensorflow代码

    1 首先说明一下CGAN的意义 GAN的原始模型有很多可以改进的缺点 首当其中就是 模型不可控 从上面对GAN的介绍能够看出 模型以一个随机噪声为输入 显然 我们很难对输出的结构进行控制 例如 使用纯粹的GAN 我们可以训练出一个生成器 输
  • 【Cross-Chain】Xscope 跨链交易攻击检测

    本次解读的文章是 2022 年发表于 ASE IEEE ACM International Conference on Automated Software Engineering 的跨链交易攻击检测论文 本篇论文首先对跨链交易的工作流进行
  • Chapter 2 Trajectory Indexing and Retrival

    This 26 pages paper is a bit short as a survey but a little too long for me the first day to write a papaer analysis But
  • 论文 :审稿意见

    我第一次给英文期刊审稿 是导师安排的任务 我当时的审稿程序是这样的 首先打开google翻译查生词 要知道人家写的英文还有很多不认识的单词 不查哪行啊 就这样 我几乎花了三四天的时间 总算把人家的论文看完了 看完以后这审稿意见可怎么写啊 没
  • Latex图片格式——从png,jpg,jpeg等导出到eps

    Latex图片格式 从png jpg jpeg等导出到eps Windows 在安装了texlive的情况下 应该都安装了 不然怎么编译latex文档嘞 在图片文件夹运行cmd 输入 bmeps c test png test eps 完成
  • CVPR 2017论文

    近期在看CVPR2017的文章 顺便就把CVPR2017整理一下 分享给大家 更多的 Computer Vision的文章可以访问Computer Vision Foundation open access CVPapers Machine
  • 论文写作的基本套路

    最近在写论文 写好之后给大神师兄看了看 提出了一些意见 按照师兄的意见整理出来 以供以后写作参考 博主是写的英文期刊论文 一 Abstract 一篇论文的精华都在abstract中 一片论文是否能够抓住审稿人的眼球 让审稿人有兴趣读下去 a
  • Learning Video Object Segmentation from Static Images

    Abstract 论文灵感来源于 实例分割和目标跟踪 特点 1 我们的模型在每帧的基础上进行 并由前一帧的输出导向下一帧中的关注对象 2 一个高度准确的视频目标分割可以用一个卷积神经网络并用静态的图片来训练 3 使用在线和离线的策略 前者产
  • 如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?

    http www zhihu com question 22790506 answer 81787300 f3fb8ead20 ea27429f8cbe31fd9183a68ccb41caa7 from timeline isappinst
  • 目标检测:Generalized Focal Loss(NIPS2020)

    Generalized Focal Loss Learning Qualified and Distributed Bounding Boxes for Dense Object Detection CCF A Xiang Li Wenha
  • 随笔:vscode-latex中文配置

    vscode用的久了 感觉确实比texstudio好用 question 1 vscode latex中文配置 vscode安装LaTeX Workshop Extension 默认latexmk就已经可以满足写英文paper的要求了 因为

随机推荐

  • mysql日期转换

    1 MySQL中和日期相关的函数 1 1 DATE FORMAT date format 主要用来将日期格式化函数 举例 SELECT DATE FORMAT NOW Y m d 1 2 STR TO DATE str format 主要用
  • 分析pandas的数据,分析某一列数据的长度分布等等

    分析数据 如分析sku的长度 import pandas as pd import numpy as np data file data data zh sku 80k csv 待分析的文件 def ana len file key Non
  • AI绘画:StableDiffusion实操教程-斗破苍穹-云韵-常服(附高清图下载)

    前段时间我分享了StableDiffusion的非常完整的教程 AI绘画 Stable Diffusion 终极宝典 从入门到精通 不久前 我与大家分享了StableDiffusion的全面教程 AI绘画 Stable Diffusion
  • HITICS-2018大作业 hello的一生

    摘 要 本论文详细介绍了hello程序在linux系统中从生成源代码到成功运行完毕被系统回收的整个过程 按照执行的先后顺序模块化介绍了hello c在计算机内部是系统具体执行了什么指令 如何执行的 用到了哪些知识等 本论文参考CSAPP课本
  • linux(centos) 保存退出vi编辑

    保存命令 按ESC键 跳到命令模式 然后 w 保存文件但不退出vi w file 将修改另外保存到file中 不退出vi w 强制保存 不推出vi wq 保存文件并退出vi wq 强制保存文件 并退出vi q 不保存文件 退出vi q 不保
  • Oracle存储过程获取入参出参(顺序,名字,类型,入参/出参)

    调用SQL语句 PROCEDURE NAME为过程名 自行替换要查询的过程名 POS为参数位置 NAME为参数名 TYPE为参数类型 IN OUT为入参 出参 SELECT A POSITION POS A ARGUMENT NAME NA
  • ABB 120 六轴机械手臂编程调试(三)

    下一步进行机械手臂的程序编写 程序只是进行简单的点位运动 实现抓取功能 程序控制的点位表 输入点位 点位描述 输出点位 点位描述 DI5 夹取完成 DO5 夹取物料 DI6 放料完成 DO6 放下物料 DI7 回原点 DO7 设备就绪 DI
  • Python练习——基础练习题2

    因为控制台会让不断输入 索性就把input放到注释里了 这一片主要练习if判断和while循环 初级 判断下列语句的打印结果 1 print True and True or True 2 print True and True or Fa
  • 因果图分析法例子

    某软件规格说明书包含这样的要求 第一列字符必须是A或B 第二列字符必须是一个数字 在此情况下进行文件的修改 但如果第一列字符不正确 则给出信息L 如果第二列字符不是数字 则给出信息M 解答 1 根据需求 分析出原因和结果如下 原因 1 第一
  • smbms(超市管理系统)源码 + 分析

    在项目开始之前 我们首先要对项目的整体架构分析一下 该项目一共分为四个模块 登录注销 用户管理 订单管理 供应商管理 其中用户管理 订单管理以及供应商管理都是需要对数据库进行crud的 项目的整体架构图如下 1 前期准备 1 项目架构 2
  • Android中Activity跳转到具体的Fragment的方法

    1 首先在需要跳转的Activity写此代码 Intent intent new Intent from MainActivity class intent addFlags Intent FLAG ACTIVITY SINGLE TOP
  • 理解Android上下文Context

    Context使用场景总的来说分为两大类 使用Context调用方法 比如启动Activity 访问资源 调用系统级服务等 调用方法时传入Context 比如弹出Toast 创建Dialog等 Activity Service和Applic
  • 安装snownlp报错 error: subprocess-exited-with-error

    安装snownlp报错error subprocess exited with error 解决方案重新安装importlib metadata pip uninstall importlib metadata pip install im
  • Zabbix监控平台部署实验——自定义zabbix监控项目

    Zabbix系列文章目录 第一章 Zabbix5 0版本的安装教程 第二章 Zabbix监控平台部署实验 自定义zabbix监控项目 目录 Zabbix系列文章目录 前言 二 操作步骤 1 安装配置环境 2 授权zabbix server可
  • STM32HAL库的基本使用(1)- GPIO引脚配置

    前言 作者使用的是STM32L431RCT的开发板 Cortex M4的内核 是大学老师教学用的 原理图如下 原理图下载链接 https pan baidu com s 1c8WFBO9bPxarzaOKqDrl0Q pwd 6666 提取
  • Android中Recycler网格布局管理器GridLayoutManager用法

    使用RecyclerView可以制作出类似GridView的样式 但比GridView更加强大 这里我们就介绍一下RecyclerView和GridLayoutManager结和的用法 1 GridLayoutManager常用方法 构造函
  • ROS:开机自启动

    Ubuntu14 04 网上很多资料说在 etc rc local中添加脚本 实验之后完全没用 可能是系统版本不对 解决 Ubuntu14 04 开机项命令 gnome session properties 点击 add name 名字 c
  • mysql count(*)、count(1) 、count(列名)、count(distinct expr)

    文章目录 概述 优化 MyISAM InnoDB 参考文档 https dev mysql com doc refman 8 0 en group by functions html function count 概述 count 为 SQ
  • 蓝桥杯每日一题2023.9.8

    蓝桥杯2023年第十四届省赛真题 飞机降落 C语言网 dotcpp com 题目描述 N 架飞机准备降落到某个只有一条跑道的机场 其中第 i 架飞机在 Ti 时刻到达机场上空 到达时它的剩余油料还可以继续盘旋 Di 个单位时间 即它最早 可
  • Learning Video Object Segmentation from Static Images

    Abstract 论文灵感来源于 实例分割和目标跟踪 特点 1 我们的模型在每帧的基础上进行 并由前一帧的输出导向下一帧中的关注对象 2 一个高度准确的视频目标分割可以用一个卷积神经网络并用静态的图片来训练 3 使用在线和离线的策略 前者产