首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)

2023-05-16

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【分割】技术交流群

后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!

摘要

用于视频分析的图像分割在智慧城市、医疗保健、计算机视觉和地球科学以及遥感应用等不同的研究领域中发挥着重要作用。在这方面,全景分割是最新的杰出成果之一。后者是语义和实例分割融合的结果。显然,全景分割目前正在研究中,以帮助获得视频监控、人群计数、自动驾驶、医学图像分析等图像场景的更细致的知识,以及对一般场景的更深入理解。为此,本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。

d3ddc8830054ab7ba153a1f20f62a15f.png

总结来说,本文的主要贡献如下:

  • 在介绍了全景分割技术的背景及其显著特征之后,对不同方面的现有工作进行了彻底的分类,例如用于设计全景分割模型的方法、主题技术和应用场景可以处理的图像数据类型;

  • 然后讨论用于验证全景分割模型的公共数据集,并与不同参数进行比较;

  • 描述了评估指标,并对最新技术中确定的最重要的工作进行了各种比较,以显示它们在不同数据集和各种指标下的性能;

  • 在提供关于未来方向的见解之前,将描述当前已解决的挑战和尚未解决的问题,这些未来方向在近期和远期吸引了大量的研究和开发兴趣;

  • 最后得出了相关的结论和建议,以提高图像分割策略的质量。

语义分割

其中进行密集预测的场景的分割。换一种说法;语义分割是用表示像素类别的对应类标记图像的每个像素的操作。此外,语义分割将图像中属于同一类别的不同区域进行分类。尽管语义分割在2007年首次被提出,当时它成为计算机视觉的一部分,但Long等人在2014年首次利用神经网络对自然图像进行端到端分割后,这一重大突破就开始了[37]。

对于图像分割,空间分析是浏览图像区域以确定每个像素的标签的主要过程。基于CNN的方法,如U-Net、SegNet、全连接网络(FCN)和DecovNet,这些是基本架构,在分割质量方面成功地以可接受的精度分割这些区域。然而,对于语义分割,这是一种复杂的分割,特别是当图像复杂时,这些基本网络的性能不足以标记图像中的大量对象。例如,SegNet网络严重依赖于编码器-解码器架构。相反,其他网络在编码器端具有类似的架构,并且仅在架构的解码器部分略有不同。为了处理信息丢失的问题,最近提出了利用深度卷积特征提取的语义分割方法,该方法使用多尺度特征聚合[38,39,40,41]或端到端结构化预测视角[42,43,44,45,46]。

实例分割

实例分割是基于目标检测任务的增量研究工作。目标(事物)检测任务不仅检测目标,还提供检测目标周围的边界框以指示位置[47]。图像分割是目标检测的另一个步骤,它在精细级别上分割场景中的目标,并为分割的场景中的所有目标提供标签。进化顺序可分为图像分类、目标检测、目标定位、语义分割和实例分割。分割效率指的是计算时间和成本,而准确度指的是以鲁棒性正确分割目标的能力。因此,在准确性和效率之间始终存在权衡。

对于任何计算机视觉方法,可区分特征的选择都至关重要,因为特征是决定方法性能的关键因素。特征抽取器,如SIFT和SURF,最初是在AI引入之前使用的。接下来,特征抽取慢慢地从人工选择的方法发展到完全自动化的DL架构。用于目标检测的一些流行DL网络是VGGNet[48]、ResNet[49,50]、DenseNet[51,52,53]、GoogLeNet Inception[59,60]。在此背景下,CNN架构已被用作某些方法中提取特征的主干,这些特征可用于进一步处理。此外,实例分割必须克服几个问题,包括几何变换、检测较小的目标、遮挡、噪声和图像退化。因此,用于实例分割的广泛使用的架构包括掩码RCNN[61]、RCNN[62、63]、PANet[64]和YOLACT[65、66]。

通常,使用基于区域的两阶段方法[67、68、69、39、70、71]或统一的单阶段方法[72]实现实例分割。如前所述,在效率和准确性之间始终存在折衷。两阶段方法具有更好的精度,而单阶段方法具有更高的效率。与语义分割不同,每个目标都与其他目标不同,即使它们属于同一类。

全景分割

全景分割是实例和语义分割的融合,旨在区分场景中的事物。事实上,全景分割有两类,即thing和stuff。Stuff是指不可数的区域,如天空、人行道和地面。而thing包括所有可数的物体,例如汽车、人等。与实例分割和语义方法不同,在全景方法中,通过给每一个目标赋予不同的颜色,使其与其他目标区分开来,从而对thing进行分割,全景分割允许不同场景组件的良好可视化,并且可以作为包括各种场景部分的检测、定位和分类的全局技术来呈现。这生成了一个全面和实际的场景理解。

全景分割技术能够描述图像的场景内容并允许其深入理解,这有助于显著简化分析,提高性能,并为许多计算机视觉任务提供解决方案。我们可以在这些任务中找到视频监控、自动驾驶、医学图像分析、图像场景解析、地球科学和遥感。全景分割通过实现对特定目标的分析而无需检查图像的整个区域,从而允许这些应用,这减少了计算时间,最大限度地减少了对某些目标的漏检或识别,并确定了图像或视频中不同区域的边缘显著性。为了调查全景分割的发展,关于对things和stuff实现的相关任务,图2中描述了从二值分割和目标检测开始到全景分割结束的图像分割的时间线演变。通常,用于执行每项任务的流行网络也被突出显示。

1cb9d6c8cf013a4e45437c7aefe06526.png

全景分割技术概览

全景分割是计算机视觉的一个突破;它实现了“thing”和“stuff”的组合视图。因此,它代表了图像分割的一个新方向。为了了解最新情况,本节将介绍并深入讨论文献中提出的现有全景分割研究。

a7e6c3f5abb68b2455d2d418168a00ca.png

一些全景分割技术在组合或聚合结果以产生全景分割之前分别利用实例和语义分割。因此,如图3(a)所示,共享主干通过将主干生成的特征用于网络的其他部分来使用。其他框架使用了相同的方法,但使用了实例和语义网络之间的显式连接[73],如图3(b)所示。

大多数提出的全景分割框架使用RGB图像,而其他框架则对医学图像和LIDAR数据执行其方法。本节将根据使用的数据类型讨论现有框架。

RGB图像数据

RGB图像是主要的数据源,其中应用了大多数全景分割算法。这是由于RGB图像在摄像机、图像扫描仪、数码相机、计算机和手机显示器中的广泛使用。此外,大多数提出的全景分割方法都是对RGB图像进行的。例如,在[74]中,提出了一种称为Panoptic-Fusion的全景分割模型,这是一种结合了stuff和thing的在线体积语义建图系统。为了预测背景区域(stuff)的类标签并单独分割任意前景目标(thing),它首先通过融合语义和实例分割输出来预测输入RGB帧的像素全景标签。类似地,在[75]中,Faraz等人专注于提高网络的泛化能力,以从单目RGB输入图像预测每像素深度。已经设计了过多的其他全景方法来分割RGB图像,例如[23,31,76,77,78]。

为了用全景策略分割图像,已经提出了许多框架,首先利用实例和语义分割,然后将每个部分的结果拼接,以获得最终的全景分割结果。一些算法如[23]、[43]、Mask R-CNN[79]、PCV[80]、ESPNet[81]、EfficientPS[82]、Panoptic–MOPE[84]等等。

另一方面,在[39]中,提出了Panoptic-DeepLab,这是一种简单的设计,在训练期间只需要三个损失函数。Panoptic0DeepLab是第一个自下而上的单镜头全景分割,在公共基准测试上获得了最先进的性能,因此它提供了端到端的推理速度。后续工作如[86]、OANet[87]等。

作者在[31]中使用基于Lintention的网络,提出了一种基于两阶段的全景分割方法。与基于两个分离网络的方法相似[85],LintensionNet架构由实例分割分支和语义分割分支组成,其中引入了融合操作以生成最终全景结果。

目标尺度是语义、实例和全景分割方法面临的挑战之一。同一个物体可以用几个像素来表示,在图像中占据很大的区域。因此,具有不同尺度的目标的分割会影响方法的性能。因此,Porzi等人[90]提出了一种基于尺度的全景分割架构。而在[69]中,引入了基于双向学习管道的深度全景分割。其他相关算法如[73]、[91]。

图4说明了使用的四个全景分割网络,而表1和表2总结了每个全景分割框架中使用的主干、特征和数据集。

f2406ad06f3d870217009f4918a3776c.png c62619853aa9069a48aef35e092b35d4.png 3e05903bd66e7d133057cdfcfd348253.png

如前所述,一些全景分割模型通过保持从主干到最终密度图的信息而无需任何显式连接来生成分割掩模。在这种情况下,全景边缘检测(PED)用于解决新的细粒度任务,其中预测填充类的语义级边界以及实例类的实例级边界[93]。这提供了对场景的更全面和统一的理解。接下来,全景边缘网络(PEN)将内容和实例汇集到具有多个分支的单个网络中。而在[70]中,低填充率线性对象和无法识别边界框附近的像素的问题已被考虑在内。因此,可训练和分支的多任务架构已用于对全景分割的像素进行分组。

接下来,[46]中提出了一种全景分割方法,与现有方法相比,该方法提供了更快的推理。显然,使用了全景图像分割的统一框架,该框架使用算盘网络和两个轻量级头部对语义和实例分割进行一次性预测。

另一方面,在[67]中,提出了一种快速全景分割网络(FPSNet),该网络比其他全景方法更快,因为实例分割和合并启发式部分已被称为全景头部的NN模型取代。

在[98]中,提出了一种新的single-shot全景分割网络,其利用密集检测的实时分割。通常,使用无参数掩模构造方法,这降低了计算成本。另一方面,通过建模目标和背景之间的相关性,可以实现全景分割任务中图像的整体理解。为此,[100]中提出了用于全景分割的双向图推理网络(BGRNet)。为了预测一致的语义分割,Porzi等人使用从基于CNN的deep-lab模块生成上下文信息的FPN来生成多尺度特征[41]。

在不统一实例和语义分割以获得全景分割的情况下,Hwang等人[103]利用block和路径集成,从而允许统一的特征图来表示最终的全景结果。在相同的背景下,[104]中提出了一种基于实例和语义分割共享特征图的统一方法(DR1Mask),用于执行全景分割。

根据语义分割,[106]中的作者对目标的实例进行分割,以生成最终的全景分割。该方法首先使用CNN模型分割语义,然后从获得的语义结果中提取实例。全景分割是使用每个阶段的结果之间的连接来创建的。在相同的背景下,使用实例感知像素嵌入网络,[107]中提出了一种全景分割方法。

医学图像

由于医学成像是计算机视觉最有价值的应用之一,不同类型的图像被用于诊断和治疗目的,例如X射线、计算机断层扫描(CT)、磁共振成像(MRI)、超声、核医学成像和正电子发射断层扫描(PET)。在这方面,医学图像分割在计算机辅助诊断系统中起着至关重要的作用。通过为每个像素分配类值并在同一类中分离对象,需要进行实例分割。通常,为每个目标分配一个唯一的ID。另一方面,从图像的形态、空间位置和目标的分布等方面研究和分析生物行为。由于实例分割有其局限性,提出了具有全景结构的cell R-CNN。通常,实例分割模型的编码器用于学习通过联合训练语义分割模型而实现的全局语义级特征[110]。

在[111]中,重点是用于细胞核分割的组织病理学图像,为此提出了CyC–PDAM架构。首先设计了一种基线架构,该架构基于外观、图像和实例级自适应实现无监督域自适应(UDA)分割。然后,设计了一种核修复机制来移除合成图像中的辅助目标,这被发现可以避免错误的FN预测。接下来,引入了一个语义分支,使用语义和实例级别的自适应来适应前景和背景方面的特征,其中模型在全景级别学习域不变特征。接下来,为了减少偏差,引入了重新加权任务。该方案已在三个公共数据集上进行了测试;发现其在很大程度上优于现有技术的UDA方法。该方法可用于其他应用,其性能接近全监督方案。

此外,读者可以参考许多其他全景分割框架,这些框架已开发用于分割医学图像并实现不同的目标,例如病理图像分析[112]、前列腺癌检测[113]和全景X射线图像中的牙齿分割[114]。

LiDAR数据

LiDAR是一种类似于RADAR的技术,可以创建垂直精度几乎为10cm的高分辨率数字高程模型。LiDAR数据因其准确性和鲁棒性而备受青睐,其中,LiDAR空间上的目标检测[115、116、117、118]和里程计[119、120、121]已经有较大进展,重点已转向LiDAR的全景分割。因此,SematicKITTI数据集是KITTI的扩展,包含不同环境下的注释激光雷达扫描,汽车场景[122]已被广泛使用。例如,在[123]中,结合语义分割和3D目标检测器的两种基线方法用于全景分割。类似地,在[124]中,使用Point-Pillars目标检测器来获取每个对象的边界框和类,并部署KPConv[125]和RangeNet++[126]的组合来执行每个类的实例分割。分别训练和测试两个基线网络,并在最后一步合并结果以生成全景分割。然后使用隐藏测试集对基于LiDAR的全景分割进行在线评估。

接着,当使用CNN架构时,Hahn等人[127]采用了一种截然不同的对比方法来聚类目标片段。由于集群不需要像CNN那样的计算时间和能量,因此[127]中采用的模型即使使用CPU也可以部署。然而,已经在SemanticKITTI数据集上进行了评估,并将PQ、SQ、RQ和mIoU用作评估指标。更进一步,在[128]中,Gasperini等人(即Panoster)实现了一种基于Q学习的LiDAR点云全景分割聚类方法。而在[123]中,基于结合基于LiDAR的语义分割和另一个有助于用实例信息丰富分割的检测器,实现了两阶段方法。此外,在[129]中,Milioto等人使用了统一的方法,其中提出了端到端模型。具体地说,数据以距离点表示,并使用共享主干提取特征。在使用两个解码器重建全景图像和偏移的误差估计之前,在主干的末端使用图像金字塔。其他相关算法PanopticTrackNet[130]、EfficientLPS[131]、DSNet[132]可以参考具体论文。

应用

全景分割系统的开发有助于各种任务和应用。因此,可以发现全景分割在提高性能方面发挥重要作用的几个案例场景。图5总结了涉及全景分割的一些主要应用。

5b1458affa9ffc1af4db0e4d585b0a06.png

目标检测

主要引入了全景分割,以使目标检测过程更易于管理和准确[23]。目标检测是计算机视觉和图像处理的重要技术。它指的是在数字图像和视频中检测特定类别的语义目标(例如人类、建筑物或汽车)的实例。全景分割已经受到了新的和鲁棒的目标检测方案的显著关注[98,134,135]。

医学图像分析

医学图像的分析和分割是基于医学图像中感兴趣目标分割的重要应用。自从全景分割出现以来,人们对在医学领域使用不同的全景模型产生了极大的兴趣[136]。例如,在[137]中,考虑了分割重叠核的问题,并提出了用于核分割的弯曲损失正则化网络。高惩罚被保留给具有大曲率的轮廓,而小曲率被保留为具有小惩罚并用作弯曲损失。这有助于最大限度地减少弯曲损失,并避免生成被多个核包围的轮廓。MoNuSeg数据集用于使用不同的度量来验证该框架,包括聚合Jaccard索引(AJI)、Dice、RQ和PQ。该方法声称使用多个公共数据集会超过其他DL方法。

自动驾驶

自动驾驶汽车是全景分割的关键应用领域。为了有效地构建自动驾驶系统,需要精细的场景理解和更好的场景感知。从LiDAR、摄像头和雷达等硬件传感器收集的数据对实现自动驾驶汽车的可能性至关重要[140、133、141]。此外,DL和计算机视觉的进步导致传感器数据用于自动化的使用增加。在这种情况下,全景分割可以帮助准确分析图像的语义内容(其中像素表示汽车与行人与可驾驶空间)和实例内容(其中,像素表示同一辆汽车与其他汽车对象)。因此,规划和控制模块可以使用来自感知系统的全景分割输出,以更好地通知自动驾驶决策。例如,详细的物体形状和轮廓信息可以帮助改进物体跟踪,从而为转向和加速提供更准确的输入。它还可以与密集(像素级)目标距离估计方法结合使用,以允许场景的高分辨率3D深度估计。通常,在[142]中,NVIDIA开发了一种有效的方案,基于单个、多任务学习DNN执行相机图像的像素级语义和实例分割。该方法实现了基于全景分割的DNN的训练,其目的是将场景理解为整体而不是分段。因此,在嵌入式车载NVIDIA DRIVE AGX平台上,只有一个端到端DNN用于提取所有相关数据,同时达到约5ms的每帧推断时间。

无人机遥感

全景分割是无人机遥感平台的基本方法,它可以实现道路状况监测和城市规划。具体而言,近年来,全景分割技术比当前的语义分割技术提供了更全面的信息[143]。例如在[144]中,全景分割算法的框架被设计用于无人机应用场景,以解决一些问题,即无人机的大目标场景和小目标,这导致分割结果缺少前景目标,分割掩模质量较差。通常,在特征提取网络中引入可变形卷积以提高网络特征提取能力。此外,MaskIoU模块被开发并集成到实例分割分支中,以增强前景目标掩码的整体质量。此外,无人机收集了一系列数据,并将其组织到UAV-OUC全景分割数据集中,以测试和验证航空图像中的全景分割模型[144]。

数据集标注

数据标注是指对数据或图像进行分类和标记,以验证分割算法或其他基于AI的解决方案。全景分割也可用于实现数据集注释[145146]。通常在[147]中,全景分割被用于帮助进行图像标注,这使用协作者(人类)和自动助手(基于全景分割)共同对数据集进行注释。人类注释者的动作作为上下文信号,智能助手对图像的其他部分做出反应并进行注释。而在[92]中,提出了一种弱监督全景分割模型,用于联合进行实例分割、语义分割和标注数据集。但是,这不会检测到重叠的实例。它已经在Pascal VOC 2012上进行了测试,其监督性能高达95%。接着,在[76]中,研究了用于标注数据集的全景分割的工业应用。3D模型用于生成工业建筑的模型,这可以改进远程执行的库存,在那里可以实现目标的精确估计。例如,在核电站现场,由于设备位置可以在进入现场之前首先使用收集的全景图像的全景分割来分析,因此可以显著降低维护成本和时间。所以,这被认为是利用全景分割技术实现大规模工业自动化的巨大突破。此外,[143]中提出了一个名为VALID的综合虚拟航空图像数据集,该数据集由6690张高分辨率图像组成,这些图像通过全景分割进行注释,并分为30类。

数据增强

全景分割的另一个有前途的应用是数据增强。通过使用全景分割,可以设计仅在像素空间中操作的数据增强方案,因此不需要额外的数据或训练,并且实现起来计算成本低[148149]。例如,在[148]中,提出了一种全景数据增强方法,即PanDA。具体而言,通过对不同PanDA augmented数据集的现有模型进行再训练(使用一组冻结的参数生成),除了跨模型主干、数据集域和尺度的检测之外,在实例分割和全景分割方面取得了高性能的进展。此外,由于看起来不真实的训练图像数据集(由PanDA合成)的效率,有必要重新思考图像真实性的需求,以确保强大和稳健的数据扩充。

其他

值得注意的是,全景分割可用于其他研究领域,如生物学和农业,用于分析和分割图像。这是[72]的情况,其中全景分割用于猪的行为研究。尽管评估不会直接影响动物的正常行为,例如食物和水的消耗、乱扔垃圾、互动、攻击行为等。通常,物体和关键点检测器用于单独检测动物。然而,没有追踪到动物的轮廓,这导致了信息的丢失。全景分割通过使用不同的网络头和后处理方法的神经网络(用于语义分割)有效地分割了单个猪,以克服这个问题。实例分割掩码已用于估计动物的大小或重量。即使有脏镜头和遮挡,作者声称也达到了95%的准确率。此外,全景分割可用于可视化战场上隐藏的敌人,如[109]所述。

公开数据集

总结和可视化如表3和6所示。

96ca345a24688398aa00dd51d45e5909.png ea3099382ab3bb321257b029c75e2190.png

结果分析和讨论

讨论

Cityscapes上的评估

Cityscapes是实验全景分割解决方案效率的最常用数据集。表4给出了使用该数据集和评估指标的方法的详细报告。此外,考虑到用于评估的数据集,给出了所获得的结果。虽然使用val集报告结果是很常见的,但一些作品已经在Cityscapes数据集的测试开发集上报告了结果。所有模型都具有代表性,表4中列出的结果已发表在参考文件中。此外,最近三年,所有这些作品都已发表,如WeaklySupervised(2018)[92]、Panoptic-DeepLab(2019)[105]和EfficientPS(2020)[82]。

6404c819f749d176290dfe22a22b56e7.png

COCO上的评估

表5表示使用现有全景分割技术获得的一些结果。与Cityscapes上的性能演示类似,论文展示了COCO不同工作中提供的结果,包括使用测试开发集和值集测试的结果。

ecf364fd995219a9af6bd888dd0a3377.png

Mapillary Vistas、VOC 2012和ADE20K上的评估

表6总结了在Mapillary Vistas和Pascal VOC 2012数据集下的其他框架中获得的结果。

3dda2a20071ecdc85d51ea9421c43031.png

使用AP和mIoU度量进行评估

表7显示了参考不同数据集(包括Cityscapes、COCO、ADE20K、Mapillary Vitas、KITTI和Semantic KITTI)的AP和IoU度量的几种现有全景分割工作的获得结果。

8d2e82c6d44725dcd3d9060e7d51263d.png

LiDAR数据上的评估

SemanticKITTI数据集的验证集和测试集已用于评估和研究现有方法的性能,如表8所示。

d47bed9ba280e769b80aa84bbe827569.png

医学图像上的评估

表9显示了使用两种场景的每种方法的性能。

58b9f47d8d25f9f1ef953695f11a9386.png

挑战和未来趋势

当前挑战

如前所述,全景分割是语义和实例分割的组合,而语义分割是场景的上下文像素级标记,实例分割是该场景中包含的目标的标记。对于基于语义的像素,通过确定该像素属于哪个类别来对像素进行分类,其中实例分类利用目标检测的结果,然后进行精细级别分割,以在一个同质标签中标记目标像素。

语义分割可以包括将stuff和thing分割在一起,同时用与目标类型对应的相同颜色类标记这些内容。而实例分割使用不同的颜色类来分离这些目标。与所有计算机视觉任务类似,许多挑战可能会阻碍任何实现最佳结果的方法。从这个角度来看,已经确定了不同的限制,例如目标之间的遮挡、目标的比例变化、照明变化以及最后但至少是目标的相似强度。为此,本文试图总结当前面临的一些挑战,如下所示:

  • 目标尺度变化:这是所有计算机视觉任务的限制之一,包括目标检测、语义、实例和全景分割。大多数提出的模型都试图作为第一步解决这个问题。通常现有方法在小目标上不太有效,而对于包含许多缩放目标的场景,用于训练的可用标注数据集是不够的[169170]。在图像中检测小物体是非常困难的,而且当物体很小时,尤其是当图像被扭曲和遮挡时,更难将它们区分为物体和物体;

  • 复杂背景:对于图像分割,当场景复杂时,许多东西(stuff, things)可以被视为其他东西(stuff, things)。捕获的图像可以包括许多数据集中未标注的(stuff, things),这使得人和其他目标的外观相似[171];

  • 杂乱场景:场景中动态目标之间的完全或部分遮挡也是大多数全景分割方法的限制之一。这尤其适用于实例(事物)分割的情况,这是全景分割中的一个重要部分,可能会受到遮挡的影响。因此,这导致分割的“事物”的质量和数量大大降低;

  • 天气变化:使用无人机进行的监控可能会受到各种天气条件和环境变化的影响,如雨、雾和雾。因此,一旦全景分割算法应用于现实场景,这可能会降低其准确性[172];

  • 数据集的质量:这对于提高全景分割模型的性能非常重要。尽管有几个可用的数据集,但在标注它们方面仍存在困难[173174175]。而全景分割和分割通常需要由人类专家标注或验证数据;

  • 需要一种有效的合并启发式方法来合并实例和语义分割结果,并产生最终的全景分割可视化结果。合并启发式的准确性通常决定了模型的性能。然而,在这种情况下,一个关键问题是由于合并启发式算法而增加了计算时间。

  • 计算时间:使用DL模型进行全景分割的训练时间通常非常昂贵,这是因为这些模型的复杂性,也因为模型的性质,即单个或分离。一般来说,分离模型(全景的实例语义)比统一模型花费更多的训练时间,然而,全景SQ更好。

未来趋势

在不久的将来,更多的研究工作可以集中在开发端到端模型,以同时执行实例和语义分割。这将减少对合并启发式的需求,因为合并也会作为衡量模型性能的一个因素。替换合并启发式方法可以进一步提高模型的计算时间[67]。

可以更加专注于检测较小的物体,去除不必要的小物体和其他杂项物体。此外,使用精确的边缘检测方法,可以将事物之间的分离用于良好的实例分割。这也将有助于提供一些实时全景分割技术。目前,目前部署的全景分割实时应用程序数量非常有限。因此,今后关注这一观点至关重要。此外,提高全景分割模型的性能并拓宽其应用是相关的未来方向,尤其是在数字健康、实时自动驾驶、场景重建和3D/4D点云语义分割方面。

医学影像学

在不久的将来,全景分割被寄予了很大的希望,以改进医学图像分割。事实上,从医学图像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。这是因为不同癌细胞的形态学线索对于病理学家确定癌症分期非常重要。在这方面,全景分割有助于获得定量形态学信息,如[112]所示,其中提出了用于全景分割的端到端网络来分析病理图像。此外,虽然大多数现有的细胞分割方法基于语义级或实例级细胞分割,但全景分割方案统一了目标的检测和定位,并将像素级分类信息分配给具有大重叠的区域,例如背景。这有助于他们超越最先进的技术。

实时自动驾驶

由于自动驾驶对日常生活以及城市规划和交通技术的影响,自动驾驶已成为一项最新的进步。这鼓励了研究人员在过去的十年中为提高自动驾驶汽车的性能提出了不同的挑战。利用现有技术,特别是人工智能,例如神经网络和DL,有助于克服自动驾驶的许多限制。将这些技术与包括相机和激光雷达在内的不同传感器相结合,有助于场景理解和物体定位,这是自动驾驶的关键任务[176]。此外,通过了解和定位汽车周围的物体以及汽车行驶的表面,可以确保驾驶安全[91]。

在这种情况下,全景分割可以显著有助于识别这些物体(thing),例如,除了对行驶道路(stuff)进行分割之外,还可以读取标志并检测横穿道路的人,特别是在繁忙街道上[177]。图7说明了自动驾驶车辆全景分割的适用性示例。这也可以通过使用适当的计算板来实现,该计算板能够基于DL来训练全景分割模型,从而更好地将场景理解为整体而不是分段。

4530feb16a8f8ace11ebc61ade0442d7.png

场景重建

实时动态场景重建是视觉计算领域的热点之一。它的好处可以在真实世界场景理解上找到,也可以在所有当前应用中找到,包括虚拟现实、机器人等。使用基于3D的传感器,如激光雷达或相机数据,通过深度学习技术,场景重建变得更容易。现有的多视图动态场景重建方法要么在具有已知背景或色度键工作室的受控环境中工作,要么需要大量摄像机[179],[180]。由于复杂场景的简化以及使用颜色类的分离,全景分割可以对场景重建方法进行关键改进,从而理解场景的上下文,然后对其进行精确重建,如图8所示[181],利用3D激光雷达数据的全景分割也使3D形状的重建更容易,这与真实场景更相似。

c54862cd8f569516fafe612cf9e3e538.png

3D/4D点云语义分割

3D/4D点云语义分割(PCSS)是一项前沿技术,由于其在计算机视觉、遥感和机器人等不同研究领域的应用,由于深度神经网络提供了新的可能性,它吸引了越来越多的关注。3D/4D PCSS是指语义分割的3D/4D形式,其中使用3D/4D空间中的规则/不规则分布点,而不是2D图像中的规则分布像素。然而,与2D图像中的视觉基础相比,3D/4D PCSS由于稀疏和无序的特性而更具挑战性。为此,使用全景分割可以有效地提高3D/4D PCSS的性能。因此,基于来自自然语言的预测目标类别,[182]中的作者提出了基于全景的模型,即InstanceRefer,以首先从点云上的全景分割中过滤实例,以获得少量候选。随后,他们在使用自适应置信融合定位最相关的候选之前,对每个候选进行了协作整体场景语言理解。这有助于InstanceRefer有效地优于现有技术。

结论

全景分割是计算机视觉的一个突破,它通过将物体分成不同的类别来分割“thing”和“stuff”。全景分割在各个研究和开发领域中开辟了若干机遇。需要区分物体的东西,例如自动驾驶、医学图像分析、遥感图像映射等。为了达到最新水平,论文根据作者的知识,对全景分割技术进行了第一次广泛的批判性调查,该综述是按照定义明确的方法设计的。因此首先介绍了全景分割技术的背景。接下来基于所采用方法的性质、分析的图像数据类型和应用场景,对现有全景分割方案进行了分类。此外,还讨论了用于验证全景分割框架的数据集和评估指标,并将最相关的工作制成表格,以明确比较每个模型的性能。

在此背景下,很明显一些方法分别执行实例分割和语义分割,并将结果融合以实现全景分割,而大多数现有技术作为统一模型完成了该过程。尽管如此,研究界对全景分割的高度重视导致了各种研究文章的发表。Cityscapes数据集上69%的PQ和COCO数据集上50%的PQ是所有模型的最佳结果。这表明,仍需开展大量工作来改进其绩效并促进其实施。

在全景分割的应用方面,人们倾向于自动驾驶、行人检测和医学图像分析(特别是使用组织病理学图像)。然而,新的应用机会正在出现,例如在军事部门,全景分割可以用来可视化战场上隐藏的敌人。另一方面,尽管全景分割的实时应用还很少,但人们对这一方向的兴趣越来越大。全景分割最显著的特征之一是它能够注释数据集,这显著减少了标注过程所需的计算时间。

5963d60d9395b29ec42e5e8b5a78a329.png

a9b47774436e2382b7e4e8d0ee73c9d7.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

e63c054e8158840d09059cf64ea44e5e.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR) 的相关文章

  • 201803考试批次2C 程序设计语言,重庆大学201803批次2可视化程序设计(VB)D卷答案...

    201803考试批次2可视化程序设计 VB D卷 5 O0 R K G l可视化程序设计 VB l K 3 Z t 一 单项选择题 共 10 题 0 20 分 c c N G1 F4 D6 39 64 1 下列程序段的执行结果为 Dim x
  • VNC注册码

    5D7L8 ZQXSA 2L5D4 4UFB4 PWDLA 转载于 https blog 51cto com ciscolinux 1320541
  • matlab中矩阵可视化,matlab-如何可视化显示颜色和值的矩阵?

    您可以使用内置功能 39 X Y Z TickLabelRotation 39 和 39 X Y Z TickLabelRotation 39 并调整图形对象的许多参数 xff0c 轻松地自己创建此类绘图 这是一个例子 xff1a mat
  • Formik与antd-mobile的表单实践(上)

    概览 本文主要用于记录该次使用Formik时用到的相关接口 xff0c 而侧重点不在antd mobile xff0c 对antd mobile会贴出对应组件API 文章需要基础知识点 xff1a React基本知识ES6基本知识 文章实践
  • AT&T CORD架构解读

    这一两年 xff0c 我们时常听到CORD项目 xff08 Central Office Re Architected as a Data Center xff09 AT amp T希望通过CORD项目将运营商网络中的传统端局 xff08
  • 发送端口25,465,587端口疑问解答

    25端口 xff08 SMTP xff09 xff1a 25端口为SMTP xff08 Simple Mail Transfer Protocol xff0c 简单邮件传输协议 xff09 服务所开放的 xff0c 是用于发送邮件 如今绝大
  • brctl 命令详解

    安装网桥管理工具包 xff1a bridge utile 96 96 96 yum install bridge utils y 96 96 96 96 96 96 使用brctl命令创建网桥br1 96 96 96 brctl addbr
  • 缓存缓存CSS的策略

    浏览器缓存CSS将带来主要的性能提升 您确保服务器设置为发送标头 xff0c 这些标头告诉浏览器在给定的时间内挂接到CSS文件 最好的做法是 xff0c 即使不是大多数站点 xff0c 许多站点已经在这样做 与浏览器缓存紧密结合的是缓存清除
  • John the Ripper 安装用使用

    试着在ubuntu下安装了John the Ripper最新版本 xff11 7 9 xff0c 非常不给面子 xff0c 不成功 xff0c 总是报 34 No password hashes loaded 34 的错误 最终参照这篇文章
  • Vue父组件接收不到子组件$emit事件的原因分析

    通常有两种情况 xff1a 事件名称不全是小写 事件名称要求全小写 不是父子关系 这里的父子关系是严格的父子关系 xff0c 祖孙关系也不行 只能一层一层触发 xff0c 这在写树形组件时 xff0c 很容易掉坑里
  • NUMA的关闭方法【转】

    Centos 6 在 etc grub conf 在kernel 添加numa 61 off 就行了 一 检查OS是否开启NUMA numactl hardware available 1 nodes 0 如果是2或多个nodes就说明nu
  • java 网站用户在线和客服聊天

    注 xff1a 本文来源于 java 网站用户在线和客服聊天 这是应用到项目中的一个例子 实现原理是将信息存储到Application域里面 然后使用Struts2 Action 用json格式的数据进行前后台交互 截图 xff1a 前台用
  • Linux中文乱码问题终极解决方法

    方法一 xff1a 修改 root bash profile文件 xff0c 增加export LANG 61 zh CN GB18030 该文件在用户目录下 xff0c 对于其他用户 xff0c 也必须相应修改该文件 使用该方法时putt
  • C#将Excel数据表导入SQL数据库的两种方法(转)

    最近用写个winform程序想用excel 文件导入数据库中 xff0c 网上寻求办法 xff0c 找到了这个经过尝试可以使用 方法一 实现在c 中可高效的将excel数据导入到sqlserver数据库中 很多人通过循环来拼接sql xff
  • 最难学的10大编程语言排行榜,Java只排第三,第一出乎意料

    2018年12月的TIOBE编程语言排行榜已经出炉 xff0c Python重回前三 xff0c Go语言跌出前十 xff0c Visual Basic NET涨幅明显 xff0c 保持第五名 TIOBE排行榜是根据互联网上有经验的程序员
  • 网络安全设计方案

    IDC网络系统安全实施方案 1 吉通上海 IDC网络安全功能需求 1 1 吉通上海公司对于网络安全和系统可靠性的总体设想 xff08 1 xff09 网络要求有充分的安全措施 xff0c 以保障网络服务的可用性和网络信息的完整性 要把网络安
  • Altium_Designer-怎么将“原理图的更改”更新到“pcb图”?

    打开原理图 xff0c 直击菜单栏 gt gt Design xff0c 选择第一项 xff0c gt gt Update PCB Document 在弹出的对话框里面选择执行更改即可将原理图更新到工程下面对应的PCB 也可以先点生效更改看
  • Permutations II

    Given a collection of numbers that might contain duplicates return all possible unique permutations For example 1 1 2 ha
  • 【沧海拾昧】C# .Net 基本控件介绍

    C0201 沧海茫茫千钟粟 xff0c 且拾吾昧一微尘 沧海拾昧集 64 CuPhoenix 阅前敬告 沧海拾昧集仅做个人学习笔记之用 xff0c 所述内容不专业不严谨不成体系 如有问题必是本集记录有谬 xff0c 切勿深究 写在前面 本文
  • Super Ugly Number

    Write a program to find the nth super ugly number Super ugly numbers are positive numbers whose all prime factors are in

随机推荐

  • DirectUI中模态对话框和菜单的原理

    经常有人问关于模态对话框和系统菜单内部实现原理方面的问题 xff0c 因为系统通过API隐藏了太多细节 xff0c 这2个问题确实令初学者甚至是有经验的开发者困扰 xff0c 下面是我个人的一些经验总结 先说模态对话框 xff0c 外部看模
  • AD16PCB如何快速删除走线

    工具 xff08 Tools xff09 取消布线 xff08 Un Route xff09 全部 xff08 AII xff09 ad pcb画图 xff0c 如果想整体去掉一条线 xff0c 只要是连接在一起的 xff0c 不管在哪一层
  • 如何正确的选择云数据库?

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 本文由云 43 社区发表 作者 xff1a 数据库 江湖传说在选择和使用云数据库过程中 10个人有9个会遇到以下问题 xff1a 数据库正常使用过程中莫名卡顿 经常遭遇主从
  • C和C++的区别

    C 43 43 几乎完全兼容了C xff0c 但增加的特性差不多比整个C语言还多 C是一种简单的语言 它真正提供的只有有宏 指针 结构 数组和函数 xff1b 而C 43 43 还有私有和保护型成员 函数重载 缺省参数 构造和析构函数 自定
  • Pixhawk 添加超声波定高

    记录一下自己在Pixhawk上添加超声波模块进行定高的过程 xff1a 硬件 xff1a Pixhawk2 4 8 xff08 APM3 5固件 xff09 STM32开发板 几块钱一个的超声波模块 软件 xff1a Mission Pla
  • 使用VNC远程登录Linux主机

    一 安装 tigervnc yum install tigervnc server 这是服务端软件 yum install tigervnc 这是客户端软件 xff0c 安装完后 xff0c 程序在 应用程序 gt Internet gt
  • 重读 JVM

    秋招开始了 xff0c 前面由于做别的事耽误了半个月 xff0c 以前学的东西不用就很容易忘记 所以 xff0c 这次重新阅读 深入理解 JVM 虚拟机 时 xff0c 想做一个记录 将碎片的知识整合 xff0c 方便自己以后阅读 xff0
  • MA5680T跨板聚合

    跨板聚合可以提高上行带宽 xff0c 又可以给上行做冗余在出现单板故障时保持正常通信 MA5680T 0 19 0 与0 20 0做跨板聚合命令 xff1a link aggregation 0 19 0 0 20 0 egress ing
  • Deep Learning for Computer Vision with Python.

    Welcome back This is the fourth post in the deep learning development environment configuration series which accompany m
  • xargs

    功能说明 xff1a 向其他命令传递命令行参数的一个过滤器 xff0c 能够将管道或者标准输入传递的数据转换成xargs命令后跟随的命令的命令行参数 选项说明 xff1a n 指定每行的最大参数量 xff0c 可以将标准输入的文本划分为多行
  • TWEEN动画、JQUERY、ES6 — 2、轮播图-渐隐渐现版本

    分析 目录 编译并压缩less xff08 需要先npm安装less xff09 banner html lt DOCTYPE html gt lt html gt lt head gt lt meta charset 61 span cl
  • TypeScript【Webpack 打包过】 编译过的代码怎么对源码调试?

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 变换都可以通过 sourcemap 恢复 如果用的 Angular CLI xff0c 那么 ng serve 默认就提供完整的 sourcemap xff0c 直接点鼠标
  • mate桌面用户 root 自动登录lightdm.conf -20190520 方法【fedora 21】mate

    桌面用户自动登录lightdm conf 20190520 方法 修改 etc lightdm lightdm conf 步骤 xff1a 1 vim etc lightdm lightdm conf 解除注释 autologin user
  • pip 删除cache_删除〜/ .cache / pip目录是否安全?

    I have limited space on my server and I am thinking to delete the cache of the PIP I am not sure if its safe to delete o
  • 离线快速部署Mirantis Openstack 9.0

    Mirantis Openstack 9 0 简称为MOS 9 0 它 是 Mirantis 公司开发 openstack 自动化安装工具 xff0c 这个工具还有个专门的名字 xff0c 叫做 Fuel 离线安装时不需要更新Ubuntu和
  • 浅析人脸检测之Haar分类器方法

    补充 这是我时隔差不多两年后 回来编辑这篇文章加的这段补充 说实话看到这么多评论很是惊讶 有很多评论不是我不想回复 真的是时间久了 很多细节我都忘记了 无力回复 非常抱歉 我本人并非做CV的 这两年也都没有再接触CV 作为一个本科毕业的苦逼
  • Debian下如何进入图形界面

    在进行基本安装之后 xff0c 如果没有选择图形界面的话 xff0c 是不会进入图形界面的 xff0c 如果想要进入图形界面就必须要安装x window系统 xff0c 如果没有该系统就更别谈什么KDE和 GNOME了 xff0c 因为它们
  • RHEL5.5部署iscsi连接,开机自动启动

    最近要部署linux服务器连接iscsi服务器 xff0c 挂载iscsi盘 xff0c 记录下操作步骤 iscsi target是EMC的低端存储 xff0c IP xff1a 192 168 10 59 iscsi initiator安
  • ONIE

    http www onie org https github com opencomputeproject onie
  • 首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)

    点击下方卡片 xff0c 关注 自动驾驶之心 公众号 ADAS巨卷干货 xff0c 即可获取 点击进入 自动驾驶之心 分割 技术交流群 后台回复 分割综述 获取语义分割 实例分割 全景分割 弱监督分割等超全学习资料 xff01 摘要 用于视