CVPR2023 语义分割论文合集

2023-11-09

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是语义分割主题论文,共72篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 论文详情页
作者:Feng Liang,Bichen Wu,Xiaoliang Dai,Kunpeng Li,Yinan Zhao,Hang Zhang,Peizhao Zhang,Peter Vajda,Diana Marculescu
链接:https://www.aminer.cn/pub/6344dede90e50fcafd24d0b0/
AI综述(大模型驱动):开放语义分割的目标是将图像划分为语义区域。最近的两种阶段方法首先生成类安全假设,然后利用先前训练的视觉语言模型(例如CLIP)将分割区域划分为区分性区域。我们定义了这种 paradigm的性能瓶颈,即CLIP模型并不在隐藏的图像上表现得很好。为了解决这个问题,我们提出了一种改进的CLIP训练方法,该方法利用了先前培训的CLIP特征。实验结果表明,与以前最好的CLIP系统相比,最佳CLIP系统的F-度量提高了8.8%。

2.LaserMix for Semi-Supervised LiDAR Semantic Segmentation 论文详情页
作者:Lingdong Kong,Jiawei Ren,Liang Pan,Ziwei Liu
链接:https://www.aminer.cn/pub/62c2a9595aee126c0fcf0a45/
AI综述(大模型驱动):我们研究了LiDAR分割中未知半监督学习的潜力。我们的中心思想是利用线性特征充分利用未标记数据。我们提出了激光混合器,该混合器将来自不同LiDAR扫描的激光波束混合起来。然后鼓励模型在混合过程中做出一致且令人信服的预测。我们的框架具有三个令人兴奋的属性: 1)生动:激光组合对射线表示(例如,视图和矩阵)是安全的,因此我们可以 universal地应用。

3.Understanding Imbalanced Semantic Segmentation Through Neural Collapse 论文详情页
作者:Zhisheng Zhong,Jiequan Cui,Yibo Yang,Xiaoyang Wu,Xiaojuan Qi,Xiangyu Zhang,Jiaya Jia
链接:https://www.aminer.cn/pub/63b63fd190e50fcafd8f584f/
AI综述(大模型驱动):在本文中,我们探讨了下层特征中心和分类器在其语义分词中相应的结构。基于我们的实证和理论分析,我们指出了语义分词自然会产生上下文相关性和不平衡分布。然而,这种连贯的结构对于小类来说是有益的。为了保持这些优点,我们引入了特征中心上一个随机化器来鼓励网络学习特征更接近具有吸引力的结构。实验结果表明,该方法可以在2D和3D数据集上的性能提高方面取得了显著改进。此外,我们的方法排名第一,并在ScanNet200测试领导板上打破了一个新记录。

4.Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision 论文详情页
作者:Jilan Xu,Junlin Hou,Yuejie Zhang,Rui Feng,Yi Wang,Yu Qiao,Weidi Xie
链接:https://www.aminer.cn/pub/640559c290e50fcafddb3868/
AI综述(大模型驱动): 在本文中,我们考虑了开放词汇语义分割(OVS)问题,该问题旨在将任意类对象的指定实体划分为预定义的闭包类别。主要贡献包括:首先,我们提出了一种基于转换模型的OVS系统,称为OVSegmentor,它仅利用web搜索的图形文本对进行训练,而没有使用任何隐藏标记。OVSegmentor将图像片段组装成一个可学习的单个单元标记集,并将其映射到相应的标题嵌入。其次,我们提出了两种诱导任务,即隐藏实体完成和跨图隐藏一致性。前者试图归纳给给定的标签中的所有隐藏实体,这使得模型能够学习精细粒度的视角实体对齐。

5.Dynamic Focus-aware Positional Queries for Semantic Segmentation 论文详情页
作者:Haoyu He,Jianfei Cai,Zizheng Pan,Jing Liu,Jing Zhang,Dacheng Tao,Bohan Zhuang
链接:https://www.aminer.cn/pub/624bb3a25aee126c0fea4e5a/
AI综述(大模型驱动):本文提出了一种名为Dynamic Focus aware Positional Queries(DFPQ)的语义分词问题设计,它动态地生成位置查询,依赖于先前解码块的视觉关注得分和对应的图像特征的位置编码。因此,我们的方法能够有效地处理高分辨率的跨焦点信息,通过仅结合上下文标记以实现局部关系聚类。在Ade20K和Cityscapes上进行的大量实验表明,该框架在SOTA方面表现出优异的性能,并在Mask2former方面表现出显著的竞争优势。

6.Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation 论文详情页
作者:Lihe Yang,Lei Qi,Litong Feng,Wayne Zhang,Yinghuan Shi
链接:https://www.aminer.cn/pub/6304456b90e50fcafd12fe39/
AI综述(大模型驱动):本文回顾了从半监督分类器中流行的弱到强一致性框架。我们认为,这种简单的管道已经在与最近最先进的工作相比取得了竞争性的结果,当将其转换为分区情景时,它已经实现了与当前最先进的工作相媲美的性能。基于此,我们提出了一个辅助特征干扰流作为补充,以扩展干扰空间。此外,我们还提出了一种双向干扰技术,能够同时引导两种强大视图,从而在Pascal、Cityscapes和COCO基准测试中超过了所有现有方法。这项研究表明,该方法在遥感解释和医学图像分析方面均表现出优异的表现。

7.Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation 论文详情页
作者:Zhen Zhao,Lihe Yang,Sifan Long,Jimin Pi,Luping Zhou,Jingdong Wang
链接:https://www.aminer.cn/pub/63969ba790e50fcafdcf1c76/
AI综述(大模型驱动):本文提出了AugSeg,一个简单的和干净的半监督语义分组方法,主要关注数据干扰,以提高SSS性能。我们采用一种简化的强度扩展,通过选择任意数量的数据转换,从连续空间中随机注入标记信息,并基于模型对不同未标记样本来的表现进行估计。此外,我们还随机注入标记信息以改进未标记样本,从而在不同分区协议下获得新的先进水平。

8.PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 论文详情页
作者:Jiacong Xu,Zixiang Xiong,Shankar P. Bhattacharyya
链接:https://www.aminer.cn/pub/629ec1f85aee126c0fb6e78d/
AI综述(大模型驱动):两类网络的融合将使精确的分割任务变得困难。然而,直接合并低级别细节和高层次语义会产生一个现象,即图中缺陷,这限制了现有的两类模型的性能提高。在本文中,我们打破了神经递质网络(CNN)和最大似然归纳生成器算法之间的联系,并揭示了两个分支网络实际上不是总共似然解析器的控制者。为了解决这个问题,我们提出了一种新的三类网络架构:pidnet,它拥有三个分支来分析详细、上下文和边界信息(语义的产物)。

9.Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning 论文详情页
作者:Jishnu Mukhoti,Tsung-Yu Lin,Omid Poursaeed,Rui Wang,Ashish Shah,Philip H. S. Torr,Ser-Nam Lim
链接:https://www.aminer.cn/pub/63969ba790e50fcafdcf1cbd/
AI综述(大模型驱动):我们介绍了基于变换的投影感知学习(CLIP)改进的兼容性函数,旨在训练对眼镜编码器和文本编码器的对齐。通过这样做,模型可以识别给定文本输入对应的图像区域,并因此将其有效地传递到开放词汇语义分割任务中,而不需要培训期间进行任何分割注释。使用预先训练好的CLIP解码器,我们在4个不同的分级标准上对该任务进行了评估,其中包括PASCAL VOC、PASCAL Context、COCO Stuff和ADVD20K。此外,我们还表明,当与CLIP的背面应用时,PATL也适用于图形预测,并且对于一个包含12份数据集的完整系统,它比CLIP具有更好的精度。

10.Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation 论文详情页
作者:Zicheng Wang,Zhen Zhao,Xiaoxia Xing,Dong Xu,Xiangyu Kong,Luping Zhou
链接:https://www.aminer.cn/pub/640166a590e50fcafd68b4fb/
AI综述(大模型驱动):半监督语义分割近年来受到了越来越大的研究关注。本文提出了一种新的基于冲突的跨视图一致性(CCVC)方法。我们的工作旨在鼓励两个子网从不相关的观察中学习有用的信息特征。特别是,我们首先提出了一种新的跨视图一致性(CVC)策略,该策略鼓励两个子网从相同输入中学习不同的特征,而这些不同特征都预计会生成与输入一致的预测得分。此外,我们还提出了一种基于敌对伪标记(CPL)的方法来保证模型将从冲突性的预测中学习更多的有用信息。我们在广泛使用的基线数据集PASCAL VOC2012和城市景观上评估了我们的新方法。

——————————————————————————————————————

想查看全部语义分割论文,可以点击这里
https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2023 语义分割论文合集 的相关文章

随机推荐

  • python面试题

    文章目录 Python面试基础题小汇总 1 Python是如何进行内存管理的 2 什么是lambda函数 它有什么好处 3 Python里面如何实现tuple和list的转换 4 请写出一段Python代码实现删除一个list里面的重复元素
  • 常用的运算放大器电路

    在线仿真网站 http scratch trtos com circuitjs html 一 反向比例放大电路 二 同向比例放大电路 三 电压跟随器 四 反向求和运算电路 五 同向求和运算电路 六 加减法运算放大器 七 差分放大器 八 积分
  • 关于自制CMSIS_DAP离线下载器下载算法的代码说明:“0xE00ABE00, 0x062D780D, 0x24084068, 0xD3000040, 0x1E644058, 0x1C49D1FA“

    关于自制CMSIS DAP离线下载器下载算法的代码说明 0xE00ABE00 0x062D780D 0x24084068 0xD3000040 0x1E644058 0x1C49D1FA 在自制CMSIS DAP离线下载器的时候 利用FLM
  • Mysql篇-第2章,什么是脏读、幻读、不可重复读?如何处理?

    一 Mysql进行事务并发控制时经常遇到的问题 脏读 在事务进行中 读到了其他事务未提交的数据 举个例子 有一个table表 如果执行顺序如下 这种情况下左边查询的结果会是101 正是因为读取到了另一个事务未提交的数据 幻读 在一个事务中
  • selenium 获取cookie 并使用

    selenium 获取cookie 参数设置 以获取阿里云cookie范例 from selenium import webdriver import json url https account aliyun com login logi
  • 使用Python的方式理解Golang的结构体struct

    Go源码 package GoTools import fmt 定义结构体存储密码 type Config struct password string func InitConfig password string Config c ne
  • Vue用户进行页面切换(路由跳转)时,动态改变路由的动画(transition效果)

    当我们在使用Vue Router时 为了用户有更好的视觉效果及体验 我们通常需要实现基于路由的动态过渡效果 github https github com Rise Devin FullStack Product Transport Use
  • retinaface代码讲解_「干货」RetinaFace最强开源人脸识别算法

    看来最早商业化的人脸检测为目标检测算法 依然是各大CV方向AI公司的必争之地 那我们今天主角就是RetinaFace RetinaFace 是今年5月份出现的人脸检测算法 当时取得了state of the art 作者也开源了代码 过去了
  • 集合的知识

    集合 collection集合的常用方法 collection的特点 Collection代表单列集合 每个元素 数据 只包含一个值 Map代表双列集合 每个元素包含两个值 键值对 Collection集合特点 由于collection是一
  • gRpc指南

    本文翻译自官网 原文 https grpc io docs languages java quickstart 快速开始 下面通过一个简单的样例 让你快速上手基于java的gRpc的使用 前置条件 JDK7以上版本 获取示例代码 示例代码是
  • 斯坦福密码学课程-笔记-01-Introduction绪论

    斯坦福密码学课程笔记 01 绪论 Introduction Course Overview Cryptography is everywhere Secure communication Secure Sockets Layer TLS P
  • 使用thop库对yolo等深度学习模型的FLOPS进行计算

    据说yolov5原来的FLOPS计算脚本有bug 因此这个大神推荐使用thop库进行计算 代码如下 input torch randn 1 3 416 416 flops params thop profile model inputs i
  • 【华为OD机试真题 C++】寻找链表的中间结点

    前言 本专栏将持续更新华为OD机试题目 并进行详细的分析与解答 包含完整的代码实现 希望可以帮助到正在努力的你 关于OD机试流程 面经 面试指导等 如有任何疑问 欢迎联系我 wechat steven moda email nansun09
  • SuperMemo 【POJ - 3580】【Splay+懒标记递推想法】

    题目链接 可以说这道题很好的给我们讲述了在Splay树上的lazy标记的递推 跟线段树上类似 在这棵二叉搜索树上 我们一样的去递推懒标记 接下来说说在哪几处需要专门注意懒标记的使用 这里有几处需要注意的地方 就是一开始给你的元素不是已经排好
  • 四种常见的代码覆盖率测试

    您听说过 代码覆盖率 吗 在这篇文章中 我们将探讨什么是测试中的代码覆盖率 以及四种衡量它的常用方法 什么是代码覆盖率 代码覆盖率是衡量测试代码测试了源代码百分比多少的指标 它可以帮助您识别可能缺乏适当测试的代码区域 通常 覆盖率指标会这样
  • 大头小头 字节序

    http blog csdn net zjf82031913 article details 7245183 字节序的问题涉及硬件架构 目前主要是Motorola的PowerPC系列CPU和Intel的x86系列CPU PowerPC系列采
  • Kibana导入CVS数据

    导入CVS数据 下载数据源CVS文件2018 7 12月份地震数据 https www elastic co assets bltb0648a200c490f5e quakes data csv 导入Machine Learning gt
  • 压缩zip文件和解压zip文件(设置压缩密码)

    欢迎访问个人博客 德鲁大叔撸代码 说明 注意引入的依赖 否则一直报错 很不容易找到的错误 import net lingala zip4j core ZipFile import net lingala zip4j exception Zi
  • 搭建并部署Vue3+TypeScript+Vite+ElementPlus项目

    目录 前言 一 搭建Vue3项目 1 安装yarn命令 2 创建VUE项目 3 安装VUE依赖 4 启动VUE项目 5 访问VUE项目 6 打包VUE项目 带项目名 7 部署VUE项目 二 使用Visual Studio Code管理vue
  • CVPR2023 语义分割论文合集

    国际计算机视觉与模式识别会议 CVPR 是计算机科学领域中的顶级会议之一 也是图像处理 机器学习 人工智能等多个领域的交叉学科会议 每年的CVPR会议都会有大量的论文投稿和学术交流活动 其中涵盖了包括图像处理 计算机视觉 模式识别 机器学习