论文笔记——CVPR 2017 Annotating Object Instances with a Polygon-RNN

2023-11-13

  文章主页:http://www.cs.toronto.edu/polyrnn/

1 简介:


这里写图片描述

  文章作者基于深度学习提出一种半自动目标事例标注(semi-automatic annotation of object instances)的算法。大多数前人是将目标分割看作是像素级别的标注问题(pixel-labeling)问题,但是文章作者是将其看做是一个多边形预测的任务(polygon prediction)。两者区别如下(本人自己注释,左图为像素级分割,右侧是多边形标注):


这里写图片描述 这里写图片描述

  当前大多数语义图像分割算法是基于深度学习的方式,但是深度学习的效果很大程度上依赖于大量的训练数据,这就造成圈内人士需要花费很大的人力物力和时间去手动标注大规模训练数据集。这篇文章的目标正是为了加快标注精度很高的真值(ground truth)。
  那这篇文章为何称为半自动目标事例标注呢?这是因为以下两点:
   ①、这篇文章算法首先需要给定一个bounding box真值,然后使用一个RNN(Recurrent Neural Network),文中称为Polygon-RNN在这个目标框中画出目标一个多边形圈住的轮廓。因为相比较手动标注目标轮廓,bounding box标注只要两下鼠标点击即可,容易很多(见上方右图)。
   ②、算法标注轮廓过程,人为可干预从而产生更精确的标注结果。这块细节下文再仔细介绍过程。

2 Polygon-RNN:

2.1 介绍

  我们再来好好总结一下整个过程,作者是想创建一个有效的标注工具(annotation tool),从而以多边形形式标注目标事例。当给定bounding box中的图像块(image patch),文章算法基于RNN可以预测一个封闭的多边形来圈出目标的轮廓。多边形设计方法就是先找到一个起点,然后以顺时针方式连续生成多边形的其他顶点,顺序连接所有顶点即形成这个圈出目标轮廓的多边形。
  模型是一个RNN,每一次迭代预测一个多边形顶点。RNN每一次迭代的输入 it 包含以下三个方面。第一是图片的CNN特征表示;第二是前两个RNN迭代输出的顶点 yt1 yt2 ,依一个特殊方向形成多边形;第三是起点,帮助RNN决定何时封闭多边形。整个网络框架如下图:


这里写图片描述

  网络是端到端(end-to-end)训练RNN+CNN,其中关键是帮助CNN能够微调(fine-tuned)来预测目标边界,并且帮助RNN从这些边界学习来利用其循环特性编码目标形状。

2.2 CNN形成图片特征表示

  文章使用一个VGG-16结构表示图片特征,首先移除全连接层和最后的max-pooling层pool5,然后通过上采样和max-pooling统一跳跃连接VGG不同层的尺寸,形成一个28*28*512串联特征。最后是一个卷积层结合ReLu处理整个串联特征从而形成最终图片特征表示28*28*128,如上图绿色部分。

2.3 RNN预测顶点

  RNN网络可以在迭代过程中,通过线性和非线性方程携带复杂的历史信息,正是从这点考虑作者希望通过RNN来依次预测出多边形的顶点。文中RNN使用的是一个ConvolutionalLSTM框架,详细来说,作者设计了一个核为3*3和16通道的两层ConvLSTM框架,然后在每一步迭代就输出一个顶点 yt 。当给定输入图像表示 xt ,一个ConvLSTM单层的隐层 ht 计算如下:


这里写图片描述

  当给定两个连续的顶点,下一个多边形顶点则是唯一的了。但是这个情况不能应用在第一个顶点,因为多边形任意顶点可以看做是起点,多边形是一个循环体。所以作者特别对待起始顶点。怎么对待的说实话这块我还没看懂。

2.4 训练

  我们使用RNN的每次迭代的交叉熵(cross-entropy)去训练模型,为了不过于惩罚接近真值顶点的不准确的预测,每一次迭代都平滑目标分布。作者给真值距离很近的位置也分配一个非零概率。
  训练的时候还是做出每一步的预测,但是是将真值顶点输入到下一个迭代。但是对于起始顶点的预测是利用多任务loss训练另一个CNN。作为目标边界的真值,作者画出真值多边形的边,然后使用多边形的顶点作为真值的顶点层。

2.5 预测与循环中人为矫正

  模型预测阶段,在RNN每一步得到最高概率分数的顶点。此外标注着可以在每一步纠正预测。我们可以输入人为纠正的顶点到RNN下一步,然后让模型返回到正确的划分道路上。正常情况下,一个目标圈出轮廓仅需要250ms。
  实验质量上结果如下:


这里写图片描述


个人学习记录,由于能力和时间有限,如果有错误望读者纠正,谢谢!

转载请注明出处:CSDN 无鞋童鞋。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文笔记——CVPR 2017 Annotating Object Instances with a Polygon-RNN 的相关文章

  • 接口测试——Postman配置环境变量和全局变量

    我们在测试的过程中 遇到最多的问题也可以是环境的问题了吧 今天开发用了这个测试环境 明天又换了另一个测试环境 这样对于我们测试非常的麻烦 特别最接口的时候需要来回的输入环境地址比较麻烦 今天我们看看强大的工具Postman有没有办法解决这个
  • javabean存在服务器什么位置,jsp中javaBean的运用

    IT168 服务器学院 利用JSP JavaServer Pages 技术 能有效快速地建造动态数据库查询网页 众所周知 要学好 学精一应用软件 首先要装好软件 找一可运行实例学习 并对实例修改运行 学习提高 这样你就会很快入门及学精这一软
  • 在32位Windows系统下安装Java

    Java分成三个平台 Java SE Java Standard Edition 包含了JRE Java SE runtime environment Java SE运行环境 和JDK Java development kit Java开发

随机推荐

  • 设计一个“完美“的测试用例,用户登录模块实例...

    前言 好的测试用例一定是一个完备的集合 它能够覆盖所有等价类以及各种边界值 而跟能否发现缺陷无关 好的测试用例必须具备哪些特征 整体完备性 一定是一个完备的整体 是有效测试用例组成的集合 能够完全覆盖测试需求 等价类划分的准确性 对于每个等
  • C++ Attentions

    1 switch内部的变量定义 C 语言规定 不允许跨过变量的初始化语句直接跳转到该变量作用域内的另一个位置 include
  • Python学习-----起步1(Python的下载,脚本与交互模式,注释)

    目录 Python的下载 解释器 IDLE进入Python解释器 交互模式 脚本模式 注释 单行注释 多行注释 Python的下载 解释器 百度网盘链接 https pan baidu com s 1WEmOAGGHtHc1fxZzNGKu
  • Android Studio安装配置、环境搭建详细步骤及基本使用

    前言 Android Studio的安装配置及使用篇终于来啦 废话不多说 以下针对JDK正确安装 及其环境变量配置完毕 即Java开发环境下 Android Studio的安装 配置 以及创建工程 主题字体更换 窗口工具 布局 快捷方式等的
  • oracle账号共享

    各位小伙伴 在oracle官网下载JDK需要oracle账号 本人提供账号共享 方便大家下载 希望大家不要改密码 方便更多的人 账号 908344069 qq com 密码 Java2019 jdk 8u271 linux x64 tar
  • Element ui 格式化后端时间、el-date-picker日期格式化

    目录 1 el组件格式化后端时间 1 el组件格式化前端时间 1 el组件格式化后端时间 1 引入moment js 先安装 npm install moment save 导入 import moment from moment 使用
  • EDG王者归来

    11月7日凌晨1点 刚刚落幕的英雄联盟S11全球总决赛 中国战队EDG以3 2击败韩国战队DK 一举夺得S11总冠军 随着BO5最后一场 EDG破三路 摧毁敌方水晶 6年的努力 6年的汗水与泪水 都在这一刻得到了见证 断剑重铸之日 骑士归来
  • torch.autograd.set_detect_anomaly在mmdetection中的用法

    这里写自定义目录标题 作用 添加位置 作用 添加位置
  • 关于数据库的备份个人见解

    一 关于数据备份和还原 1 在工作中 经常碰到生产环境上面数据库数据需要进行一些变更或者改动 这个时候呢 很多人的第一反应就是先备份整张表为一张临时表 然后就开始对表数据进行操作 如果出现数据异常 需要回退的时候 就直接删除现在表 然后把备
  • 50个知名的开源网站

    1 http snippets dzone com tag c 数以千计的有用的C语言源代码片段 2 http www hotscripts com category c cpp scripts programs Hotscripts 提供
  • Python 文件的读写操作

    文章目录 1 文件对象 1 1 文件打开方式 1 1 1 打开文件 1 1 2 关闭文件 1 1 3 访问模式 1 2文件读取 1 2 1 read 1 2 2 readline 1 2 3 readlines 1 3 文件迭代 1 4 文
  • 最短路径:迪杰斯特拉算法

    算法步骤 1 初始化 1 将源点v0加到S中 即S v0 true 2 将v0到各个终点的最短路径长度初始化为权值 即D i G arcs v0 vi vi属于V S 3 如果v0和顶点vi之间有弧 则将vi的前驱置为v0 即Path i
  • 硬件系统工程师宝典(28)-----关于LDO,应该知道的事

    各位同学大家好 欢迎继续做客电子工程学习圈 今天我们继续来讲这本书 硬件系统工程师宝典 上篇我们说到BJT配合MOSFET控制电源开关的四种电路以及MOSFET的均流电路 今天我们来讲讲LDO的应用分析 LDO的结构 LDO Low Dro
  • XML格式数据集转TXT(YOLO)

    我从网上下载了一个数据集 underwater 它们提供了xml格式的数据 但是我想用yolov5进行训练 所以需要将xml格式转化为txt格式 正常的xml格式的数据集可以参考 目标检测中将已有的 xml数据集转换成 txt数据集 附代码
  • 深入浅出VA函数的使用技巧

    深入浅出VA函数的使用技巧 作者 钟小兵 发文时间 2005 04 11 本文主要介绍可变参数的函数使用 然后分析它的原理 程序员自己如何对它们实现和封装 最后是可能会出现的问题和避免措施 VA函数 variable argument fu
  • MySQL——模糊查询(LIKE关键字与通配符:百分号%和下划线_的使用和理解)——(运用场景+通俗易懂)

    使用mysql模糊查询主要点 LIKE关键字和这两个通配符配合使用 任意一个字符 任意0或多个字符 那么我们立即上手吧 一 使用LIKE和通配符 场景1 我要搜索一个名字 可我都忘记叫什么了 只知道是3个字符的 那怎么搜索呢 三个下划线 代
  • elasticsearch7.9 修改指定JDK

    错误 future versions of Elasticsearch will require Java 11 your Java version from usr local nlp java jdk1 8 0 162 jre does
  • 大致解决 Ubuntu 18.04 系统启动极慢的问题

    早在一两个月之前就想升级到 18 04 或是 18 10 了 然而那会儿用 LiveCD 测试得速度实在是慢 启动要很久 干脆没过多纠缠 旧暂时不管了 现因实际需要 不得不升级系统 以便获取到更新的软件包 从 17 10 向上升级很方便 直
  • hdoj 题目分类

    1001 整数求和 水题 1002 C语言实验题 两个数比较 水题 1003 1 2 3 4 5 简单题 1004 渊子赛马 排序 贪心的方法归并 1005 Hero In Maze 广度搜索 1006 Redraiment猜想 数论 容斥
  • 论文笔记——CVPR 2017 Annotating Object Instances with a Polygon-RNN

    文章主页 http www cs toronto edu polyrnn 1 简介 文章作者基于深度学习提出一种半自动目标事例标注 semi automatic annotation of object instances 的算法 大多数前