《HRNet-OCR:Object-Contextual Representations for Semantic Segmentation》论文笔记

2023-11-01

参考代码:HRNet-OCR

1. 概述

导读:这篇文章研究了语义分割中上下文信息的提取与表达,其方法设计的灵感来自于:分割中一个像素的label是其对应目标(object)的类别,那么基于此文章便是通过不同object区域的表达去关联并表达一个像素(特征图上)的信息,从而建立更加具有区分性质的上下文信息。对此完成该目的需要3个步骤:
1)通过在GT的监督训练下得到图片的分割结果;
2)在分割结果的基础上按照分割的类别划分区域(对应文章的object),使用区域中像素去计算区域的表达(OCR,Object-Contextual Representations);
3)建立每个像素与不同区域之间的联系,这里通过加权的方式去聚合不同区域的表达,从而去增强像素信息的表达;
文章的方法提供了另外一种角度的上下文信息增强方法,通过添加SegFix的后处理过程可以进一步优化分割边界,从而文章的整体方法HRNet+OCR+SegFix取得相当不错的分割结果。

文章的方法是通过在分割网络的中间阶段通过一个分割预测头来生成一个corse的分割结果,再在此基础上使用文章提到的object-contextual representation去优化特征图中的像素,因而文章的方法将相同目标类别的上下文信息与不同不目标类别的上下文信息进行区分,也就是说文章的方法是基于目标的(object based)。

在常见的上下文信息提取的方法中有比较常用的基于空间聚合的也有基于attention方式聚合的,这里将他们与文章的方法进行比较:

  • 1)基于空间的方法,这类中ASPP/PPM是典型的代表,其区分的是当前pixel与周围位置的pixel。以典型的ASPP方式为例子,对于一个增强之后的像素其输出可以描述为:
    y i d = ∑ p s = p i + d Δ t K t d x s y_i^d=\sum_{p_s=p_i+d\Delta_t}K_t^dx_s yid=ps=pi+dΔtKtdxs
    其中, x s x_s xs代表的是输入特的pixel, K K K代表的是对应空洞卷积的参数, d d d代表膨胀系数。在下图中展示的是文章的方法和ASPP方法使用使用上下文上的不同:
    在这里插入图片描述
    从下表可以看看与其它空间聚合类方法的性能比较:
    在这里插入图片描述
  • 2)基于attention的方法,这类中DANet/ CFNet/ OCNet是较为典型的代表,多使用attention的方式去建立当前像素和整体像素之间的关系,并没有去考虑像素所属的不同目标属性,其输出可以描述为:
    y i = ρ ( ∑ s ∈ I w i s δ ( x s ) ) y_i=\rho(\sum_{s\in I}w_{is}\delta(x_s)) yi=ρ(
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《HRNet-OCR:Object-Contextual Representations for Semantic Segmentation》论文笔记 的相关文章

  • 4字节向下取整,向上取整的宏定义

    向下取整 define DOWN 4BYTE X X 0X11 向上取整 define UP 4BYTE X X 3 0X11
  • 对话风变科技 CTO|从线上教育服务商到教育资源供给平台,风变背后的第二增长曲线思维

    Authing 是用户中心团队 我们是业务系统 大家冲刺一个目标 再做合并 然后让基于多租户的 B 端产品成功上线 那个阶段刚好有个客户卡在当时的时间点 一定要赶着上线 最后 Authing 的协作让我们赢得了客户信任 还是很振奋人心的 风
  • 关于android获取手机号码(主要是移动手机)

    转载 整理 尚未找到原文链接 我参考与http blog csdn net sunny2come article details 8290023 首先手机号码不是所有的都能获取 只是有很少一部分可以拿到 这个是取决于移动运营商有没有把手机号
  • ctfshow-Misc入门 图片篇(1-49)

    八神出的misc入门系列 misc50及之后的题解 我这里很多题的解法是非预期 建议不懂的师傅去看八神师傅的出题思路及预期解 misc5 23 图片篇 图片篇 基础操作 misc1 misc2 misc3 misc4 图片篇 信息附加 mi
  • 机器学习之交叉验证汇总及其Python代码

    交叉验证是什么 在模型建立中 通常有两个数据集 训练集 train 和测试集 test 训练集用来训练模型 测试集是完全不参与训练的数据 仅仅用来观测测试效果的数据 一般情况下 训练的结果对于训练集的拟合程度通常还是挺好的 但是在测试集总的
  • UE4添加自定义配置文件信息

    创建一个UObject子类 将需要配置的变量实现在其中 UClass中的两个设置可以自己更改 变量宏需添加config pragma once include CoreMinimal h include UObject Object h i
  • 网站logo服务器更换显示以前,网站更换logo

    网站更换logo 内容精选 换一换 将unslider插件放入底板中 所有页面统一使用同一个底板 此时只要修改底板中unslider插件的图片 就能实现此效果 在站点编辑的 页面管理 中将首页复制为底板 复制为底板设置其他页面使用此底板 在
  • Data OnLine集合

    这里写自定义目录标题 目标 集合 目标 记录线上可用的数据集合 集合 中国诗词 诗词周历 古诗文网 另外一个诗词
  • Unity 屏幕自适应之锚点

    大家有没有这样的情况 自己在使用 Unity 制作 UI 界面时明明设计好了各个图标的大小 但是在实际运行时却出现了问题 原本场景里面是这样 最大化运行后是这样的 是不是不太好看 和自己当初设定的完全不一样 没事 小问题 那么我们该如何解决
  • 定制自己的printf函数——以stm32串口打印为例

    printf这个函数相信学习过编程的人应该都用过 这是一个用来向终端打印数据的函数 这个函数不仅在调试软件代码的时候经常有使用 单片机开发时也经常用于串口打印调试 所以 在此就如何让单片机使用printf来调试代码 开始接下来的学习 在此
  • .NET基础知识快速通关(8)

    NET 总结 Edison Zhou 此系列文章为我在2015年发布于博客园的 NET基础拾遗系列 它十分适合初中级 NET开发工程师在面试前进行一个系统的复习 因此我将其搬到公众号分享与你 本文为第八篇 我们会对 NET的委托相关考点进行
  • Mysql查询当天,本周,本月所有数据记录

    Mysql查询当天 本周 本月所有数据记录 一 查询当天的记录 select from create time where TO DAYS create time TO DAYS NOW 注意 这里的create time是数据库中的时间字
  • centos6安装python2.7

    下载python安装包 1 wget https www python org ftp python 2 7 12 Python 2 7 12 tgz 2 tar zxvf Pyhon 2 7 12 tgz 3 cd Python 2 7
  • 创建src目录

    在一个功能包里单独创建src目录可以先进入这个功能包 然后使用命令 mkdir src 然后使用命令 ls 发现功能包里有了src 还有一种就是在要创建的目录名前面加上路径名 则会在指定的路径名下创建的src 同时要确保这个路径下没有要创建
  • js 去除字符串首尾指定字符

    abc trim abc 这是去除首尾空格的办法 那么有没办法去除首尾指定的字符 肯定有 方法很多 下面通过正则表达式实现 例如 我想去掉首尾逗号 let str abc cde fff str str replace s s g 结果 a
  • ESP32S3学习——i2c,点亮0.96寸oled

    芯片 esp32s3 开发环境 espidfv4 4 一 官网相关资料 哎嘿嘿 中文的I2C 驱动程序 ESP32 S3 ESP IDF 编程指南 v4 4 2 文档 1 概述 ESP32 S3 有两个 I2C 控制器 也称为端口 负责处理
  • 使用CFimagehost源码搭建免费的PHP图片托管私人图床,无需数据库支持

    文章目录 1 前言 2 CFImagehost网站搭建 2 1 CFImagehost下载和安装 2 2 CFImagehost网页测试 2 3 cpolar的安装和注册 3 本地网页发布 3 1 Cpolar临时数据隧道 3 2 Cpol

随机推荐

  • 【android12-linux-5.1】【ST芯片】【RK3588】【LSM6DSR】驱动移植

    一 环境介绍 RK3588主板搭载Android12操作系统 内核是Linux5 10 使用ST的六轴传感器LSM6DSR芯片 二 芯片介绍 LSM6DSR是一款加速度和角速度 陀螺仪 六轴传感器 还内置了一个温度传感器 该芯片可以选择I2
  • SAP 账号人员信息

    视图USER ADDR 转载于 https www cnblogs com CtrlS p 10482779 html
  • Python中的网络通信

    概述 在我们平时生活工作中 常常会接触到网络通信的内容 不管你是普通的用户 还是通信行业内的开发人员 都无法避免与网络通信打交道 我在初步学习python的过程中 对python的网络通信问题做了总结 所以写下这篇文章作为记录 也希望能给其
  • JVM 内存分析工具 - MAT

    文章目录 1 简介 2 使用 2 1 准备 MAT 2 2 准备堆转储文件 Heap Dump 2 3 分析堆转储文件 2 3 1 Histogram 2 3 2 Leak Suspects 2 3 3 内存快照对比 MAT Memory
  • python span函数_如何使用python selenium单击span元素

    我不知道还有没有其他的元素 您可以使用css选择器选择范围 driver find element by css selector span click 我认为这是你代码中唯一的跨度标记 可能不是 作为一个非常 散弹枪 的解决方案 您可以单
  • 秒杀系统的设计和思考

    秒杀系统的难点 首先我们先看下秒杀场景的难点到底在哪 在秒杀场景中最大的问题在于容易产生大并发请求 产生超卖现象和性能问题 下面我们分别分析下下面这三个问题 1 瞬时大并发 一提到秒杀系统给人最深刻的印象是超大的瞬时并发 这时你可以联想到小
  • 【面试题】面试问红黑树,我脸都绿了。。

    https mp weixin qq com s biz MzI3ODcxMzQzMw mid 2247491467 idx 2 sn 1eb11dbfb7b72fdcf0360e06448c4cfc chksm eb539abddc241
  • 如何解决:Mac 进不去JetBrains官网 Mac 打不开 idea/webstorm/PyCharm官方网站

    问题需求 Mac 进不去 Idea Webstorm PyCharm 官网 即JetBrains官方网站 只要进入 www jetbrains com 就提示 Safari Can t Connect to the Server 即 Saf
  • NEON简单介绍

    ARM Advanced SIMD nick named NEON it provides 1 A set of interesting scalar vectorinstructions and registers the latter
  • Mysql8官方分布式数据库MGR最佳实践

    MGR简介 MGR是mysql Group Replication简称 中文名称是Mysql组复制 MGR是MySQL官方于2016年12月推出的一个全新的高可用与高扩展的解决方案 提供了高可用 高扩展 高可靠的MySQL集群服务 目前只支
  • flutter 圆角裁剪

    需求 高宽 为40 圆角度20 1 先实现高宽40方形 创建 Container 设置 width 40 height 40 如果需要颜色 自行在 color设置 2 设置圆角度 使用Physicalmodel方式 需要设置 color b
  • Python日期格式处理

    数据分析工作中 Python和SQL是常用的两大工具 常见的数据类型有数值型 字符串型 日期型等 对日期型格式进行处理也是比较常见的情形 文章SQL中日期格式处理记录了SQL针对日期型字段的处理过程 本文记录Python对日期型数据的处理
  • Linux 下创建新用户并且添加为root组用户

    1 创建用户及设置密码 创建用户名 useradd test 设置密码 passwd test 输入两次密码 test 2 给新用户授root权限 1 chmod v u w etc sudoers 增加 sudoers 文件的写的权限 默
  • 有关StandardScaler的transform和fit_transform方法

    背景 StandardScaler类是一个用来讲数据进行归一化和标准化的类 所谓归一化和标准化 即应用下列公式 使得新的X数据集方差为1 均值为0 问题一 StandardScaler类中transform和fit transform方法有
  • OpenCV中利用knn进行数字(0-9)识别--RGB-D相机采集

    目录 前言 一 KNN原理 二 数字识别系统效果演示 三 数字识别系统 1 图像采集 2 阈值分割 定位数字区域 3 轮廓特征分析 定位数字区域 4 数字轮廓提取 5 扩充边界并归一化其尺寸 6 训练数据集并预测测试样本 总结 前言 本章使
  • Google Cloud API设计指南

    目录 一 基于资源的设计 什么是 REST API 设计流程 资源 方法 示例 Gmail API Cloud Pub Sub API Cloud Spanner API 二 资源名称 完整资源名称 相对资源名称 资源 ID 集合 ID 资
  • 牛客:华为机试---人民币转换

    1 题目描述 考试题目和要点 1 中文大写金额数字前应标明 人民币 字样 中文大写金额数字应用壹 贰 叁 肆 伍 陆 柒 捌 玖 拾 佰 仟 万 亿 元 角 分 零 整等字样填写 30分 2 中文大写金额数字到 元 为止的 在 元 之后 应
  • ubuntu18 安装gcc 9遇到add-apt-repository: command not found

    sudo add apt repository ppa ubuntu toolchain r test 执行上面命令遇到add apt repository command not found问题 尝试了各种方法 发现下面方法最有用 依次执
  • Makefile 中的几种 等号

    在Makefile中我们经常看到 这几个赋值运算符 那么他们有什么区别呢 我们来做个简单的实验 新建一个Makefile 内容为 ifdef DEFINE VRE VRE Hello World else endif ifeq OPT de
  • 《HRNet-OCR:Object-Contextual Representations for Semantic Segmentation》论文笔记

    参考代码 HRNet OCR 1 概述 导读 这篇文章研究了语义分割中上下文信息的提取与表达 其方法设计的灵感来自于 分割中一个像素的label是其对应目标 object 的类别 那么基于此文章便是通过不同object区域的表达去关联并表达