【计算机视觉

2023-11-17

文章目录

一、分割|语义相关(12篇)

1.1 UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase

UniSeg:一种统一的多模激光雷达分割网络及OpenPCSeg代码库

https://arxiv.org/abs/2309.05573

点视图、体素视图和范围视图是点云的三种代表形式。它们都具有精确的3D测量,但缺乏颜色和纹理信息。RGB图像是这些点云视图的自然补充,充分利用它们的综合信息有利于更强大的感知。在本文中,我们提出了一个统一的多模态LiDAR分割网络,称为UniSeg,它利用的信息的RGB图像和三个视图的点云,并完成语义分割和全景分割同时。具体而言,我们首先设计了可学习的跨模态关联(LMA)模块,自动融合体素视图和距离视图特征与图像特征,充分利用图像丰富的语义信息,并具有鲁棒性的校准误差。然后,增强的体素视图和距离视图特征被转换到点空间,其中的三个点云特征的视图进一步自适应融合的学习交叉视图关联模块(LVA)。值得注意的是,UniSeg在三个公共基准中取得了令人鼓舞的结果,即,SemanticKITTI、nuScenes和Waymo开放数据集(WOD);它在两个基准测试的两个挑战中排名第一,包括nuScenes的LiDAR语义分割挑战和SemanticKITTI的全景分割挑战。此外,我们构建了OpenPCSeg码库,这是最大和最全面的户外LiDAR分割码库。它包含了大多数流行的户外LiDAR分割算法,并提供了可重复的实现。OpenPCSeg代码库将在https://github.com/PJLab-ADG/PCSeg上公开提供。

1.2 Learning Semantic Segmentation with Query Points Supervision on Aerial Images

基于查询点监督的航空图像语义分割学习

https://arxiv.org/abs/2309.05490

语义分割在遥感中至关重要,高分辨率卫星图像被分割成有意义的区域。深度学习的最新进展显着改善了卫星图像分割。然而,这些方法中的大多数通常在需要高质量像素级注释的完全监督设置中进行训练,获得这些注释既昂贵又耗时。在这项工作中,我们提出了一种弱监督学习算法来训练语义分割算法,该算法只依赖于查询点标注,而不是全掩码标签。我们提出的方法执行准确的语义分割,并通过显着降低成本和时间手动注释,提高效率。具体来说,我们生成超像素,并将查询点标签扩展到那些组类似的有意义的语义的超像素。然后,我们训练语义分割模型,用超像素伪标签部分标记的图像进行监督。我们在航空图像数据集和不同的语义分割架构上对我们的弱监督训练方法进行了基准测试,表明与完全监督训练相比,我们可以达到有竞争力的性能,同时减少注释工作。

1.3 Semantic Latent Decomposition with Normalizing Flows for Face Editing

基于归一化流程的人脸编辑语义隐含分解

https://arxiv.org/abs/2309.05314

在StyleGAN的潜在空间中导航已经显示出人脸编辑的有效性。然而,由于潜在空间中不同属性之间的纠缠,所得到的方法在复杂的导航中往往遇到挑战。为了解决这个问题,本文提出了一种新的框架,称为SDFlow,在原始的潜在空间中使用连续的条件规范化流的语义分解。具体而言,SDFlow通过联合优化两个组件将原始潜在代码分解成不同的不相关变量:(i)语义编码器,用于从输入面估计语义变量,以及(ii)基于流的变换模块,用于将潜在代码映射到高斯分布的语义无关变量,以学习到的语义变量为条件。为了消除变量之间的纠缠,我们采用了一个互信息框架下的解纠缠学习策略,从而提供精确的操纵控制。实验结果表明,SDFlow在定性和定量上都优于现有的最先进的人脸编辑方法。源代码可在https://github.com/phil329/SDFlow获得。

1.4 Towards Viewpoint Robustness in Bird’s Eye View Segmentation

鸟瞰图像分割中的视点稳健性研究

https://arxiv.org/abs/2309.05192

自动驾驶汽车(AV)要求用于感知的神经网络对不同的观点是鲁棒的,如果它们要部署在许多类型的车辆上,而没有重复的数据收集和标记成本。AV公司通常专注于从不同的场景和位置收集数据,但由于成本原因,而不是摄像机机架配置。因此,在大多数船队中仅存在少量钻机变化。在本文中,我们研究了AV感知模型是如何受到摄像机视点变化的影响,并提出了一种方法来扩展它们在车辆类型,而无需重复的数据收集和标记。使用鸟瞰图(BEV)分割作为一个激励性的任务,我们发现,通过广泛的实验,现有的感知模型是令人惊讶的敏感相机视点的变化。当使用来自一个相机装备的数据进行训练时,在推断时间对相机的俯仰、偏航、深度或高度的微小改变导致性能的大幅下降。我们引入了一种新的视图合成技术,并使用它来将收集的数据转换为目标钻机的观点,使我们能够为不同的目标钻机训练BEV分割模型,而无需任何额外的数据收集或标记成本。为了分析观点变化的影响,我们利用合成数据来缩小其他差距(内容,ISP等)。然后,我们的方法在真实数据上进行训练,并在合成数据上进行评估,从而能够对不同的目标钻机进行评估。我们将发布所有数据以供将来工作使用。我们的方法能够恢复平均14.7%的IoU,否则会在部署到新钻机时丢失。

1.5 MFPNet: Multi-scale Feature Propagation Nwtwork For Lightweight Semantic Segmentation

MFPNet:面向轻量级语义分割的多尺度特征传播网络

https://arxiv.org/abs/2309.04914

相对于大量的研究集中在大规模的模型,轻量级语义分割的进展似乎是在一个相对较慢的速度前进。然而,现有的紧凑的方法往往遭受有限的特征表示能力,由于其网络的浅。在本文中,我们提出了一种新的轻量级分割架构,称为多尺度特征传播网络(MFPNet),以解决这一困境。具体而言,我们设计了一个强大的编码器-解码器结构,具有对称的残差块,由灵活的瓶颈残差模块(BRM),以探索深层次和丰富的多尺度语义上下文。此外,利用它们对潜在的远程上下文关系进行建模的能力,我们利用图卷积网络(GCN)来促进BRM块之间的多尺度特征传播。当评估基准数据集时,我们提出的方法显示出优越的分割结果。

1.6 How to Evaluate Semantic Communications for Images with ViTScore Metric?

如何使用ViTScore指标评估图像的语义通信?

https://arxiv.org/abs/2309.04891

语义通信(SC)被期望成为催化下一代通信的新范式转变,其主要关注点从准确的比特传输转向有效的语义信息交换。然而,以前和广泛使用的图像度量不适用于评估图像语义相似性在SC。传统的度量方法来度量两幅图像之间的相似性通常依赖于像素级或结构级,例如PSNR和MS-SSIM。直接使用CV社区中基于深度学习方法的一些量身定制的指标,例如LPIPS,对于SC是不可行的。为了解决这个问题,受NLP社区BERTScore的启发,我们提出了一种新的度量来评估图像语义相似性,称为Vision Transformer得分(ViTScore)。从理论上证明了ViTScore具有对称性、有界性和归一化等3个重要性质,使得ViTScore能够方便直观地进行图像测量。为了评估ViTScore的性能,我们通过5类实验将ViTScore与3个典型指标(PSNR、MS-SSIM和LPIPS)进行比较。实验结果表明,ViTScore能够更好地评价图像的语义相似度,这表明ViTScore在SC场景中是一种有效的性能指标。

1.7 Semi-supervised Instance Segmentation with a Learned Shape Prior

学习形状先验的半监督实例分割

https://arxiv.org/abs/2309.04888

到目前为止,大多数实例分割方法都是基于监督学习,需要大量的注释对象轮廓作为训练的基础事实。在这里,我们提出了一个框架,搜索的目标对象的基础上的形状先验。形状先验模型通过变分自动编码器学习,该变分自动编码器仅需要非常有限的训练数据量:在我们的实验中,来自目标数据集的几十个对象形状块以及纯合成形状足以实现与监督方法相当的结果,并且可以完全访问三个细胞分割数据集中的两个数据集的训练数据。我们使用合成形状先验的方法优于预训练的监督模型,可以访问所有三个数据集上的有限的特定领域训练数据。由于先验模型的学习需要形状补丁,无论是真实的还是合成的数据,我们称这种框架为半监督学习。

1.8 SortedAP: Rethinking evaluation metrics for instance segmentation

SortedAP:重新思考实例细分的评估指标

https://arxiv.org/abs/2309.04887

设计用于评估实例分割的度量围绕着全面考虑对象检测和分割精度。然而,其他重要的属性,如敏感性,连续性,平等性,在目前的研究被忽视。在本文中,我们发现,大多数现有的度量有一个有限的分辨率分割质量。它们仅对掩码或错误预测的变化有条件敏感。对于某些指标,分数可以在窄范围内急剧变化,这可能提供结果之间的质量差距的误导性指示。因此,我们提出了一个新的度量标准sortedAP,它严格减少对象和像素级的缺陷,并在整个域上有一个不间断的惩罚规模。我们在https://www.github.com/looooongChen/sortedAP上提供了评估工具包和实验代码。

1.9 Neural Semantic Surface Maps

神经语义面映射

https://arxiv.org/abs/2309.04836

我们提出了一种自动化的技术,用于计算两个零属形状之间的映射,该映射在语义上相互匹配对应的区域。缺乏注释数据禁止直接推断3D语义先验;相反,当前现有技术方法主要优化几何特性或需要变化量的手动注释。为了克服缺乏带注释的训练数据,我们从预先训练的视觉模型中提取语义匹配:我们的方法从多个视点渲染该对3D形状;然后将得到的渲染馈送到现成的图像匹配方法中,该方法利用预先训练的视觉模型来产生特征点。这产生语义对应,其可以被投影回3D形状,从而产生在不同视点之间不准确且不一致的原始匹配。这些对应关系被细化和蒸馏成一个界面间的映射通过一个专用的优化方案,这促进了输出映射的双射性和连续性。我们说明,我们的方法可以生成语义的表面到表面的地图,消除手动注释或任何3D训练数据的要求。此外,它被证明是有效的,在高语义复杂度的情况下,对象是非等距相关的,以及在他们几乎等距的情况下。

1.10 A Localization-to-Segmentation Framework for Automatic Tumor Segmentation in Whole-Body PET/CT Images

一种用于全身PET/CT图像肿瘤自动分割的定位分割框架

https://arxiv.org/abs/2309.05446

氟脱氧葡萄糖(FDG)正电子发射断层扫描(PET)结合计算机断层扫描(CT)被认为是检测某些癌症(如肺癌和黑色素瘤)的主要方法。PET/CT图像中肿瘤的自动分割可以帮助减少医生的工作量,从而提高诊断质量。然而,由于许多肿瘤的小尺寸和高摄取正常区域与肿瘤区域的相似性,精确的肿瘤分割具有挑战性。为了解决这些问题,本文提出了一个定位到分割框架(L2 SNet)的精确肿瘤分割。L2 SNet首先在病变定位阶段中定位可能的病变,然后在病变分割阶段中使用位置线索对分割结果进行整形。为了进一步提高L2 SNet的分割性能,我们设计了一个自适应阈值方案,考虑到这两个阶段的分割结果。在全身FDG-PET/CT挑战数据集中使用MICCAI 2023自动病变分割的实验表明,我们的方法取得了有竞争力的结果,并在初步测试集中排名前7位。我们的工作可在:https://github.com/MedCAI/L2SNet。

1.11 Two-Stage Hybrid Supervision Framework for Fast, Low-resource, and Accurate Organ and Pan-cancer Segmentation in Abdomen CT

用于腹部CT快速、低资源、准确的器官和泛癌分割的两阶段混合监督框架

https://arxiv.org/abs/2309.05405

腹部器官和肿瘤分割具有许多重要的临床应用,如器官量化、手术计划和疾病诊断。然而,人工评估本质上是主观的,具有相当大的专家间和专家内的差异性。在本文中,我们提出了一个混合监督框架,StMt,它集成了自我训练和平均教师的分割腹部器官和肿瘤使用部分标记和未标记的数据。我们引入了两阶段分割流水线和基于全体积的输入策略,以最大限度地提高分割精度,同时满足推理时间和GPU内存使用的要求。在FLARE 2023验证集上的实验表明,该方法具有良好的分割性能,以及快速和低资源的模型推理。我们的方法在验证集上获得了89.79%和45.55%的平均DSC评分,GPU存储时间固化下的平均运行时间和面积分别为11.25s和9627.82MB。

1.12 SSHNN: Semi-Supervised Hybrid NAS Network for Echocardiographic Image Segmentation

SSHNN:用于超声心动图图像分割的半监督混合NAS网络

https://arxiv.org/abs/2309.04672

准确的医学图像分割,特别是对于具有不可遗漏噪声的超声心动图图像,需要精心设计的网络。与人工设计相比,神经结构搜索(Neural Architecture Search,NAS)由于具有更大的搜索空间和自动优化能力,实现了更好的分割效果,但现有方法大多在逐层特征聚合方面较弱,采用"强编码器,弱解码器”结构,对全局关系和局部细节处理不足.为了解决这些问题,我们提出了一种新的半监督混合NAS网络精确的医学图像分割称为SSHNN。在SSHNN中,我们创造性地在逐层特征融合中使用卷积运算而不是归一化标量,以避免丢失细节,使NAS成为更强大的编码器。此外,引入Transformers补偿全局上下文和U形解码器的设计,有效地连接全局上下文和局部特征。具体来说,我们实现了一个半监督算法Mean-Teacher,以克服标记的医学图像数据集的体积有限的问题。CAMUS超声心动图数据集上的大量实验表明,SSHNN优于最先进的方法,实现了准确的分割。代码将公开提供。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【计算机视觉 的相关文章

随机推荐

  • 官网下载python,下载pycharm

    一 下载python 访问python官网 https www python org downloads 点击 Downloads Windows 选择要下载的历史版本 点击 保存本地路径即可完成下载 二 下载pycharm 访问pycha
  • 结构体大小计算

    求结构体的大小是我们面试经常考察的一个问题 必须熟练的掌握 首先我们必须懂结构体的内存对齐规则 如下 1 第一个成员在与结构体变量偏移量为0的地址处 2 其他成员变量要对齐到某个数字 对齐数 的整数倍的地址处 对齐数 编译器默认的对齐数 v
  • Unittest 之 DDT 的原理解析

    引言 前面的文章介绍了如何在 Python 的 Unittest 框架中来使用 ddt 实现数据驱动的自动化测试 在了解了 ddt 的使用后 你是否有过如下疑问 ddt 是如何把你的测试数据转换传给你的测试用例 当你的一组数据有多个参数时
  • 损失函数(IoU、GIoU、DIoU、CIoU)

    一 IoU 1 笔记原页 IoU Loss 1 IoU 2 IOU优缺点 目标检测中常常用iou来衡量proposal或anchor和gt之间的重合度 也就是他们之间的交并比 是目标检测中重要的评价尺度 鲜明的特点就是对尺度scale不敏感
  • 0/1背包问题(递归求解)

    0 1背包问题 0 1背包问题是十分常见的算法 下面我就是我对此问题的分析 引言 一想到0 1背包问题 首先会想到用递归求解 但此问题的递归不像数学公式中的递归那么简单 首先是此问题的分支比较多 需要判断背包的容量是大于 小于还是等于当前物
  • 正则表达式大全,一篇前后端都可用

    正是掌握了这些正则表达式 冰河平均每天比别人少写200行代码 极大的提高了研发效率 熟练的掌握正则表达式 能够帮助程序员以最快的速度写出最优雅的代码 冰河在多年的编程工作中 对使用过的正则表达式进行了梳理和总结 这些正则表达式能够帮助你节省
  • es7 的 await, async function

    es7 的 await async function 简单概念 await The await operator is used to wait for a Promise It can only be used inside an asy
  • docker启动mysql

    docker pull mysql docker run itd p 3306 3306 name mysql v root mysql data var lib mysql e MYSQL ROOT PASSWORD 123456 mys
  • mysql 类型 bigint_MySQL的bigint类型

    bigint支持的数字的大小范围为 19位 存电话号码 有符号范围 9223372036854775808 到 9223372036854775807 int支持的数字范围为 10位 有符号范围 2147483648 到 214748364
  • 如何在Ubuntu20下安装Android studio

    安装jdk 安装jdk 安装Android studio 的前提是要先配置好 jdk 环境 我这里下载的是 jdk 8u251 linux x64 tar gz 解压到指定文件夹下 tar zxvf jdk 8u251 linux x64
  • epoch、batch、batch size和mini-batch的区别

    epoch batch batch size和mini batch的区别 epoch batch batch size和mini batch都是深度学习中常见的名词 初学时经常混淆 在此整理 epoch 当一个完整的数据集经过神经网络一次
  • QSettings使用中出现的问题及正确示例

    为什么80 的码农都做不了架构师 gt gt gt 背景 使用QSettings读写配置文件 示例及需要注意的问题 写配置文件 QSettings settings Option ini QSettings IniFormat settin
  • [900]mysql字符串数字互转

    文章目录 字符串转数字 CAST 函数转化为整数 CAST 函数转化为浮点数 CONVERT方法转化为整数 CONVERT方法转化为浮点数 数字转为字符串 CONVERT方法转化为字符串 字符串转数字 最简单的方式就是直接在字符串后面 0
  • #systemverilog# 之 event region 和 timeslot 仿真调度(九)assign 赋值 和 always 组合赋值的调度区别

    有时候 我们会发现一个问题 举个最简单的例子 比如将两个信号进行简单的异或运算 该逻辑运算 我们可以使用 assign 数据流建模完成 也可以使用always 组合逻辑过程赋值语句实现 那仿真工具在对它进行调度的时候 有什么区别吗 不慌 今
  • Ubuntu安装可视化界面ElasticSearch-head插件

    1 下载地址 GitHub mobz elasticsearch head A web front end for an elastic search cluster 上传并解压 root zq virtual machine home e
  • 一次url请求的过程

    1 HTTP协议 超文本传输协议 Hyper Text Transfer Protocol HTTP 一个简单的请求 响应协议 指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应 2 域名解析 DNS Domain Name Sy
  • 如何开启bios虚拟化

    要开启 BIOS 虚拟化 首先需要进入 BIOS 设置 通常可以在电脑启动时按下 F2 或 Del 键进入 具体操作可能因电脑品牌和型号而异 在 BIOS 设置中 需要找到 虚拟化支持 或 硬件虚拟化 选项 并将其设置为 开启 有些电脑可能
  • 货币的教训——汇率与货币系列评论

    这本书中介绍了中国的人民币的具体的流转形式 就是不知到底准确否 2013 9 29
  • numpy广播机制

    NumPy的广播机制 文章目录 NumPy的广播机制 Broadcast 最简单的广播机制 稍微复杂的广播机制 广播机制到底做了什么 一个典型的错误案例 一个正确的经典示例 一种更便捷的计算方式 Broadcast 广播是numpy对不同形
  • 【计算机视觉

    文章目录 一 分割 语义相关 12篇 1 1 UniSeg A Unified Multi Modal LiDAR Segmentation Network and the OpenPCSeg Codebase 1 2 Learning S