CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割

2023-11-02

本文转自商汤学术

导读

半监督任务的关键在于充分利用无标签数据，商汤科技联合上海交通大学、香港中文大学，基于「 Every Pixel Matters」的理念，有效利用了包括不可靠样本在内的全部无标签数据，大幅提升了算法精度。目前 U2PL 已被 CVPR 2022 接收，相关代码已开源，有任何问题欢迎在 GitHub 提出。

论文标题：Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

Self-training: 样本筛选导致训练不充分

半监督学习的核心问题在于有效利用无标注样本，作为有标签样本的补充，以提升模型性能。

经典的 self-training 方法大多遵循着 supervised learning → pseudo labeling → re-training 的基本流程，但学生网络会从不正确的伪标签中学习到错误的信息，因而存在 performance degradation 的问题。

常规作法是通过样本筛选的方式只留下高置信度预测结果，但这会将大量的无标签数据排除在训练过程外，导致模型训练不充分。此外，如果模型不能较好地预测某些 hard class，那么就很难为该类别的无标签像素分配准确的伪标签，从而进入恶性循环。

我们认为「 Every Pixel Matters」，即使是低质量伪标签也应当被合理利用，过往的方法并没有充分挖掘它们的价值。

Motivation: Every Pixel Matters

具体来说，预测结果的可靠与否，我们可以通过熵 (per-pixel entropy) 来衡量，低熵表示预测结果可靠，高熵表示预测结果不可靠。我们通过 Figure 2 来观察一个具体的例子，Figure 2(a) 是一张蒙有 entropy map 的无标签图片，高熵的不可靠像素很难被打上一个确定的伪标签，因此不参与到 re-training 过程，在 Figure 2(b) 中我们以白色表示。

Figure 2. Illustration on unreliable pseudo-labels.

我们分别选择了一个可靠的和不可靠的预测结果，在 Figure 2(c) 和 Figure 2(d) 中将它们的 category-wise probability 以柱状图的形式画出。黄色十字叉所表示的像素在 person 类上的预测概率接近于 1，对于这个预测结果模型非常确信，低熵的该像素点是典型的 reliable prediction。而白色十字叉所表示的像素点在 motorbike 和 person 两个类别上都具有不低的预测概率且在数值上较为接近，模型无法给出一个确定的预测结果，符合我们定义的 unralibale prediction。对于白色十字叉所表示的像素点，虽然模型并不确信它具体属于哪一个类别，但模型在 car 和 train 这两个类别上表现出极低的预测概率，显然很确信不属于这些类别。

因而，我们想到即使是不可靠的预测结果，虽然无法打上确定的伪标签，但仍可以作为部分类别的负样本，从而参与到模型的训练，从而让所有的无标签样本都能在训练过程中发挥作用。

Method

● Overview

Figure 3. An overview of our proposed U2PL method

网络结构上，U2PL 采用 self-training 技术路线中常见的 momentum teahcer 结构，由 teacher 和 student 两个结构完全相同的网络组成，teacher 通过 EMA 的形式接受来自 student 的参数更新。单个网络的具体组成参考的是 ReCo (ICLR'22)[1]，包括三个部分: encoder , decoder , 表征头。

损失函数优化上，有标签数据直接基于标准的交叉熵损失函数进行优化。无标签数据则先靠 teacher 给出预测结果，然后根据 pixel-level entropy 将预测结果分成 reliable pixels 和 unreliable pixels 两大部分 (分流的过程在 Figure 2 有所体现)，最后分别基于和进行优化。

如上三个部分构成了 U2PL 全部的损失函数，熟悉 self-training 的话就只需要关注对比学习部分，是经典的 InfoNCE Loss[2]，细节会在后续具体讨论。

● Pseudo-Labeling

本节主要探讨无标签样本中可靠预测结果的利用方式，即损失函数中的部分。

我们通过熵：

对预测结果的可靠性进行衡量，将最可靠的部分筛选出来，再通过常规方式打上伪标签：

随着训练过程的推进，我们认为模型的性能在不断攀升，不可靠预测结果的比例相适应地也在不断下降，因此在不同的训练时刻我们对可靠部分的定义是不断变化的，这里我们简单采用了线性变化策略，并未作过多探索：

需要注意的是，由于并非所有的无标签像素都会参与这部分的计算，因此需要计算一个权重对这部分损失进行调节。

● Using Unreliable Pseudo-Labes

本节主要探讨无标签样本中不可靠预测结果的利用方式，即损失函数中的部分。

U2PL 以对比学习为例介绍了如何将不可靠伪标签用于提升模型精度。既然是对比学习，那不可避免的问题就是讨论如何构建正负样本对。接下来的有关对比学习内容的实现细节大量参考了 ReCo[1]，因此如果要深入了解 U2PL，建议可以先看下这篇论文。

首先是 anchor pixels (queries) ，我们会给训练过程中出现在 mini-batch 中的每一个类别都采样一系列的 anchor pixel 用于对比学习。

然后是构建 anchor pixel 的 positive sample，我们会给每一个类别都算一个特征中心，同一类的 anchor pixel 会 share 共同的特征中心作为 postive sample。具体地，我们先从 mini-batch 分类别筛选出可用于计算特征中心的像素点，对于有标签样本和无标签样本，筛选的标准是一致的，就是该样本在真值标签类别或伪标签类别上的预测概率大于一个阈值，对筛选出来的像素点的表征的集合求一个均值作为各类别的特征中心。这里可以参见如下公式：

最后是构建 anchor pixel 的 negative sampe，同样的也需要分成有标签样本和无标签样本两个部分去讨论。对于有标签样本，我们明确知道其所属的类别，因此除真值标签外的所有类别都可以作为该像素的负样本类别；而对于无标签样本，由于伪标签可能存在错误，因此我们并不完全却行确信标签的正确性，因而我们需要将预测概率最高的几个类别过滤掉，将该像素认作为剩下几个类别的负样本。这部分对应的是论文中公式 13-16，但说实话这一段内容用公式去描述还是比较晦涩的。

Algorithm 1: Using Unreliable Pseudo-Labels

由于数据集中存在长尾问题，如果只使用一个 batch 的样本作为对比学习的负样本可能会非常受限，因此我们采用 MemoryBank 来维护一个类别相关的负样本库，存入的是由 teacher 生成的断梯度特征，以先进先出的队列结构维护。

Comparison with Existing Alternatives

本文所有的实验结果均是基于 ResNet-101 + Deeplab v3+ 的网络结构完成的，所采用的的数据集构成和评估方式请参见论文描述。

我们在 Classic VOC, Blender VOC, Cityscapes 三种数据集上均和现存方法进行了对比，在全部两个 PASCAL VOC 数据集上我们均取得了最佳精度。在 Cityscapes 数据集上，由于我们没能很好地解决长尾问题，落后于致力解决类别不平衡问题的 AEL (NeurIPS'21)[3]，但我们将 U2PL 叠加在 AEL 上能够取得超越 AEL 的精度，也侧面证明了 U2PL 的通用性。值得一提的是，U2PL 在有标签数据较少的划分下，精度表现尤为优异。

Ablation Studies

● Effectiveness of Using Unreliable Pseudo-Labels

我们在 PSACAL VOC 和 CItyscapes 等多个数据集的多个划分上验证了使用不可靠伪标签的价值。

● Alternative of Contrastive Learning

我们增加了通过二分类去利用不可靠样本的对比实验，证明利用低质量伪标签并不是只能通过对比学习去实现，只要利用好低质量样本，即使是二分类方法也能取得不错的精度提升。

附录

● U2PL 与 negative learning 的区别

这里需要着重强调下我们的工作和 negative learning 的区别, negative learning 选用的负样本依旧是高置信度的可靠样本[4]，相比之下，我们则提倡充分利用不可靠样本而不是把它们过滤掉。

比如说预测结果由于其不确定性会被 negative learning 方法丢弃，但在 U2PL 中却可以被作为多个 unlikely class 的负样本，实验结果也发现 negative learning 方法的精度不如 U2PL。

● U2PL 技术蓝图

这里贴出技术蓝图，便于大家更好地理解论文的核心 story 和实验设计：

U2PL 技术蓝图

传送门

U2PL 的相关代码目前已经开源，欢迎各位同学使用和交流。

论文地址

https://haochen-wang409.github.io/U2PL/resources/U2PL_CVPR_2022.pdf

项目地址

https://haochen-wang409.github.io/U2PL/

代码地址

https://github.com/Haochen-Wang409/U2PL

References

[1] Bootstrapping Semantic Segmentation with Regional Contrast https://arxiv.org/abs/2104.04465

[2] Representation Learning with Contrastive Predictive Coding https://arxiv.org/abs/1807.03748

[3] Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning https://arxiv.org/abs/2110.05474

[4] In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label Selection Framework for Semi-Supervised Learning https://openreview.net/pdf/c979bcaed90f2b14dbf27b5e90fdbb74407f161b.pdf

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割的相关文章

如何编写嵌套的 __init__.py 文件

我正在努力解决嵌套问题 init py在我正在编写的Python包中该包具有以下架构 module init py submodule1 init py source py submodule2 init py source py sub
蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

方法的定义和格式

方法什么是方法方法是程序中最小的执行单元定义把一些代码打包在一起该过程称为方法实际开发过程中什么时候用到方法重复的代码具有独立功能的代码可以抽取到方法中实际开发中方法的好处提高代码的复用性提高代码的可维护性方法的
C++内存泄漏和内存碎片的产生及避免策略

1 内存泄漏的定义一般我们常说的内存泄漏是指堆内存的泄漏堆内存是指程序从堆中分配的大小任意的内存块的大小可以在程序运行期决定使用完后必须显示释放的内存应用程序一般使用malloc realloc new等函数从堆中分配到一块内存
AirTest自动化测试

目录一 AirTest简介二 AirTest与模拟器进行连接三图像库 touch 运行报告一 AirTest简介 AirTest是一个基于图像识别原理的跨平台UI自动化测试框架适用于游戏和应用程序 1 特点 a 跨平台 Air
windows10(1903) VMware(虚拟机）不能正常安装操作系统

win10虚拟机不能正常安装操作系统前言一问题现象二解决方案 1 停止hv主机服务 2 重启计算机 3 开启虚拟机的全局虚拟打印功能 4 正常工作了参考前言最近公司搬家重新搭环境事儿有点多哈我们win10 操作系统被运
vue-router基本使用方法

声明本人的所有博客皆为个人笔记作为个人知识索引使用因此在叙述上存在逻辑不通顺跨度大等问题希望理解分享出来仅供大家学习翻阅若有错误希望指出感谢动态路由匹配我们可以在 vue router 的路由路径中使用动态路径参数 d
EMC-MLCC电容反谐振点引起的RE辐射超标

MLCC电容反谐振点引起的RE辐射超标对待RE辐射问题可以按照干扰源干扰路径被干扰源入手较多的是干扰源和干扰路径解决干扰源可以从展频调频屏蔽干扰源增加RC snabber吸收干扰源等方向入手解决干扰路径的可以分为差模干
网络互连基础的实验

拓扑需求某网络整体结构如图所示根据如图的IP规划为设备配置IP地址在各路由器上配置静态路由要求实现全网互联在DNS服务器上增加一条域名解析记录域名可自定义当通过PC端用域名访问Web服务器时 PC端浏览器能够返回web服务
Python使用免费天气API,获取全球任意地区的天气情况

需求背景公司是做外贸服装的在亚马逊平台上有多个地区店铺运营运营人员需要参考地区的天气情况上新的服装所以需要能够获取全球任意地区的天气情况还需要预测未来10 15天的天气情况选型API 天气API中有大把免费的api 如国内的
基于元学习的红外弱小点状目标跟踪算法

基于元学习的红外弱小点状目标跟踪算法人工智能技术与咨询昨天本文来自激光技术作者热孜亚艾沙等引言红外点状目标的跟踪是红外搜索和跟踪 infrared search and track IRST 系统中的关键技术之一 1 在红外
vue手机端的调试神器eruda

前言分享一款神奇可以在手机上实现跟pc端f12打开调试一样的效果官方地址入口实现效果实现步骤 1 cdn使用打开public index html加入 2 node使用 cnpm install eruda save
配置Apache2.4.46

解压后打开 Apache24 conf 的httpd conf 定位Define SRVROOT并将后面的 SRVROOT 改为自己解压后的Apache24文件夹路径下一行ServerRoot后面的 SRVROOT 相同操作在cmd输入
SpringBoot整合AMQP

SpringBoot整合AMQP 文章目录 SpringBoot整合AMQP 前言一 JMS AMQP概念以及区别二 RabbitMQ简介三互联网大厂为什么选择RabbitMQ 四 RabbitMQ的一些核心概念五 RabbitM
推荐系统系列——推荐算法评价指标

文章目录同步读书之菜根谭 9 静坐观心真妄毕现 10 得意早回头拂心莫停手推荐算法评价指标 1 评分预测指标 1 1 符号定义 1 2 平均绝对误差 1 3 均方根误差 1 4 覆盖率 2 集合推荐指标 2 1 混淆矩阵 2 2
微信小程序事件传参

微信小程序事件传参微信小程序怎么事件传参 dataset 对象事件对象目标对象总结两步骤微信小程序怎么事件传参 dataset 对象每个虚拟dom身上都拥有一个dataset对象给虚拟 dom 绑定上 data 自定义键值
Docker服务的重启服务命令(systemctl restart docker)

重启Docker服务重启docker服务 systemctl restart docker 非root用户使用重启docker服务 sudo systemctl restart docker
两年外包生涯做完，感觉自己废了一半....

先说一下自己的情况大专生 17年通过校招进入湖南某软件公司干了接近2年的点点点今年年上旬感觉自己不能够在这样下去了长时间呆在一个舒适的环境会让一个人堕落而我已经在一个企业干了五年的功能测试已经让我变得不思进取谈了1年的女朋友
nginx配置域名访问

1 本地开发好的demo程序 target目录下把META INF WEB INF index jsp 所有文件打成zip包如下图 2 Linux服务器下部署到Tomcat下清空ROOT目录下所有文件把1中nginx zip文件放
点云TXT与PCD格式之间的转换

开发环境为win10 vstudio2019 注 txt形式的点云文件没有header 存储的全是xyz数据如下图这个点云数据中不仅包含有x y z的位置信息还包含其他的位置信息因此我们只需要提取前三列的信息并忽略前两行提取后的
消息中间件篇

消息中间件篇 RabbitMQ 如何保证消息不丢失面试官 RabbitMQ如何保证消息不丢失候选人嗯我们当时MYSQL和Redis的数据双写一致性就是采用RabbitMQ实现同步的这里面就要求了消息的高可用性我们要保证消息的不丢
CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割

本文转自商汤学术导读半监督任务的关键在于充分利用无标签数据商汤科技联合上海交通大学香港中文大学基于 Every Pixel Matters 的理念有效利用了包括不可靠样本在内的全部无标签数据大幅提升了算法精度目前 U2PL

CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割

CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割 的相关文章

随机推荐

热门标签

CVPR 2022｜U2PL：使用不可靠伪标签的半监督语义分割的相关文章