【计算机视觉

2023-11-15

文章目录

一、检测相关(10篇)

一、检测相关(10篇)

1.1 Self-Training and Multi-Task Learning for Limited Data: Evaluation Study on Object Detection

有限数据的自训练和多任务学习：目标检测的评价研究

https://arxiv.org/abs/2309.06288

自训练允许网络从更复杂模型的预测中学习，因此通常需要训练有素的教师模型和师生数据的混合，而多任务学习联合优化不同的目标以学习显著的相互关系，并需要每个训练示例的多任务注释。这些框架，尽管是特别的数据要求有潜力的数据利用，如果可以放宽这些假设。在本文中，我们比较了教师训练数据不足的情况下的自训练对象检测，其中学生在教师看不见的示例上进行训练，以及部分注释数据的多任务学习，即。每个训练示例的单任务注释。这两种方案都有其自身的局限性，但可能有助于有限的注释数据。实验结果表明，当使用一个弱教师与看不见的数据训练多任务的学生时，性能的提高。尽管设置有限，我们相信实验结果显示了多任务知识提取和自我训练的潜力，这可能是有益的，为未来的研究。源代码位于https://lhoangan.github.io/multas。

1.2 OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action Segmentation

OTAS：面向对象的时间动作分割的无监督边界检测

https://arxiv.org/abs/2309.06276

时间动作分割通常通过发现全局视觉描述符中的显著变化来实现。在本文中，我们探索的优点，提出了无监督的框架，以对象为中心的时间动作分割（OTAS）的本地功能。从广义上讲，OTAS由自监督的全球和本地特征提取模块，以及一个边界选择模块，融合的功能和检测动作分割的显着边界。作为第二个贡献，我们讨论了现有的帧级和边界级的评价指标的优点和缺点。通过大量的实验，我们发现OTAS是优于以前的国家的最先进的方法，平均41%$在我们推荐的F1分数。令人惊讶的是，OTAS在用户研究中甚至胜过地面真实的人类注释。此外，OTAS是足够有效的允许实时推理。

1.3 SCP: Scene Completion Pre-training for 3D Object Detection

SCP：3D目标检测的场景完成预训练

https://arxiv.org/abs/2309.06199

使用LiDAR点云的3D对象检测是计算机视觉、机器人和自动驾驶领域中的基本任务。然而，现有的3D检测器严重依赖于注释的数据集，这是既耗时又容易在标记3D边界框的过程中的错误。在本文中，我们提出了一个场景完成预训练（SCP）的方法，以提高性能的3D对象检测器较少的标记数据。SCP提供了三个关键优势：（1）改进了点云模型的初始化。通过完成场景点云，SCP有效地捕捉城市环境中的对象之间的空间和语义关系。(2)消除了对额外数据集的需求。SCP作为一个有价值的辅助网络，不会对3D探测器施加任何额外的工作或数据要求。(3)减少用于检测的标记数据量。在SCP的帮助下，现有的最先进的3D检测器可以实现相当的性能，同时仅依赖于20%的标记数据。

1.4 JOADAA: joint online action detection and action anticipation

JOADAA：联合在线动作检测和动作预测

https://arxiv.org/abs/2309.06130

行动预期是通过将过去的事件与未来的事件联系起来来预测未来的行动。然而，这种推理忽略了现实生活中事件的层次结构，该层次结构被认为由三个主要部分组成：过去现在和未来我们认为，考虑这三个主要部分及其依赖关系可以提高性能。另一方面，在线动作检测是以流式方式预测动作的任务。在这种情况下，人们只能访问过去和现在的信息。因此，在在线动作检测（OAD）现有的方法错过语义或未来的信息，限制了他们的性能。总而言之，对于这两个任务，完整的知识集（过去-现在-未来）缺失，这使得推断动作依赖性具有挑战性，因此具有低性能。为了解决这一限制，我们建议将这两项任务融合到一个统一的架构中。通过结合行动预测和在线行动检测，我们的方法可以覆盖未来的信息在在线行动检测的依赖关系。该方法被称为JOADAA，提出了一个统一的模型，联合执行动作预测和在线动作检测。我们在三个具有挑战性的数据集上验证了我们提出的模型：THUMOS’14，它是一个稀疏注释的数据集，每个时间步一个动作，CHARADES和Multi-THUMOS，两个密集注释的数据集，具有更复杂的场景。JOADAA在这两项任务的基准测试中均获得了SOTA结果。

1.5 A new meteor detection application robust to camera movements

一种新的流星探测应用程序，对相机移动具有很强的鲁棒性

https://arxiv.org/abs/2309.06027

本文介绍了一种新的流星自动探测工具。快速流星探测工具箱（FMDT）能够通过分析气象气球或稳定飞机内的摄像机获取的视频来探测流星目击。挑战在于设计由简单算法组成的处理链，该算法对视频的高波动具有鲁棒性，并满足功耗（10 W）和实时处理（每秒25帧）的约束。

1.6 ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution Detection in Segmentation

ATTA：异常感知测试时间自适应用于分割中的分布外检测

https://arxiv.org/abs/2309.05994

密集分布外（OOD）检测的最新进展主要集中在训练和测试数据集共享类似域的场景中，假设它们之间不存在域偏移。然而，在现实世界的情况下，域移位经常存在，并显着影响现有的分布外（OOD）检测模型的准确性。在这项工作中，我们提出了一个双层OOD检测框架来处理域转移和语义转移联合。第一级区分域移位是否存在的图像中的利用全局低层次特征，而第二级识别像素的语义移位，通过利用密集的高层次特征映射。通过这种方式，我们可以选择性地使模型适应看不见的领域，以及提高模型的能力，在检测新的类。我们验证了我们提出的方法的有效性，几个OOD分割基准，包括那些显着的域转移和那些没有，观察到一致的性能改善各种基线模型。

1.7 Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation

超越世代：利用文本到图像的模型进行对象检测和分割

https://arxiv.org/abs/2309.05956

我们提出了一种新的范例，使用文本到图像合成框架（例如，DALL-E、稳定扩散等）。所提出的方法1解耦训练数据生成为前景对象生成，和上下文相关的背景生成。为了生成前景对象，我们采用了一个简单的文本模板，将对象类名作为输入提示。这被馈送到文本到图像合成框架中，产生针对孤立背景设置的各种前景图像。然后使用前景-背景分割算法来生成前景对象掩模。为了生成上下文图像，我们首先创建上下文的语言描述。这是通过将图像字幕方法应用于表示所需上下文的一小组图像来实现的。这些文本描述，然后通过文本到图像的合成框架转换成一个不同的阵列的上下文图像。随后，我们利用剪切和粘贴方法将这些与初始步骤中产生的前景对象掩模合成，以制定训练数据。我们展示了我们的方法在五个对象检测和分割数据集上的优势，包括Pascal VOC和COCO。我们发现，仅在通过我们的方法产生的合成数据上训练的检测器实现了与在真实数据上训练的检测器相当的性能（图1）。①的人。此外，真实数据和合成数据的组合产生更好的结果。进一步的分析表明，合成数据分布有效地补充了真实数据分布。此外，我们强调我们的数据生成方法在分布和zero-shot数据生成场景的组成性质。我们在https://github.com/gyhandy/Text2Image-for-Detection上开源我们的代码

1.8 Quality-Agnostic Deepfake Detection with Intra-model Collaborative Learning

基于模型内协作学习的质量不可知的深伪检测

https://arxiv.org/abs/2309.05911

Deepfake最近引发了社会对其可能的安全威胁和虚假信息传播的大量担忧。已经进行了大量关于深度伪造检测的研究。然而，检测低质量以及同时检测不同质量的deepfake仍然是一个严峻的挑战。大多数SOTA方法都受到使用单个特定模型来检测某些deepfake视频质量类型的限制。当构建具有关于视频质量的先验信息的多个模型时，这种策略引起显著的计算成本，以及模型和训练数据开销。此外，它不能在现实世界环境中部署是可扩展的和实用的。在这项工作中，我们提出了一个通用的模型内协作学习框架，以实现对不同质量的deepfakes的有效和同时检测。也就是说，我们的方法是质量不可知的deepfake检测方法，称为QAD。特别是，通过观察一般误差期望的上界，我们最大限度地从不同的质量水平，通过希尔伯特-施密特独立准则的图像的中间表示之间的依赖性。此外，我们还精心设计了一个对抗性权重扰动模块，使模型在提高整体模型性能的同时，对图像损坏更具鲁棒性。在七个流行的deepfake数据集上进行的广泛实验证明了我们的QAD模型优于之前的SOTA基准测试.

1.9 Adversarial Attacks Assessment of Salient Object Detection via Symbolic Learning

基于符号学习的显著目标检测的对抗性攻击评估

https://arxiv.org/abs/2309.05900

机器学习是主流技术的核心，在手工特征设计方面优于经典方法。除了人工特征提取的学习过程，它还具有从输入到输出的端到端范例，达到了非常准确的结果。然而，由于其预测可以完全改变，因此其对恶意和不可感知的扰动的鲁棒性的安全担忧引起了人们的注意。显著对象检测是一个研究领域，深度卷积神经网络已被证明是有效的，但其可信度代表了一个需要分析和解决黑客攻击的重要问题。大脑编程是一种象征性的学习，它遵循传统的人工智能。这项工作提供了证据表明，符号学习鲁棒性在设计可靠的视觉注意系统中至关重要，因为它可以承受即使是最强烈的扰动。我们测试这种进化计算方法对几个对抗性攻击和噪声扰动使用标准数据库和一个现实世界中的问题，一个滨鸟称为雪鸟描绘视觉注意力的任务。我们将我们的方法与五种不同的深度学习方法进行了比较，证明它们在鲁棒性方面与符号范式不匹配。所有的神经网络都遭受了显著的性能损失，而大脑编程则坚守阵地，不受影响。同时，通过对雪犁的研究，我们也指出了安全在野生动物保护和养护监视活动中的重要性。

1.10 Rice Plant Disease Detection and Diagnosis using Deep Convolutional Neural Networks and Multispectral Imaging

基于深度卷积神经网络和多光谱成像的水稻病害检测与诊断

https://arxiv.org/abs/2309.05818

大米被认为是埃及的战略作物，因为它经常在埃及人民的饮食消费。尽管埃及是非洲最大的稻米生产国，每年产量为600万吨，但由于产量损失，特别是水稻病害，埃及仍然进口稻米以满足当地需求。稻瘟病在全世界造成30%的水稻产量损失。因此，在水稻病害发生的早期阶段进行病害的早期检测，以达到限制产量损失的目的是至关重要的。本文介绍了一个公共的多光谱和RGB图像数据集和一个深度学习管道，用于使用多模态数据进行水稻植物病害检测。收集的多光谱图像包括红色，绿色和近红外通道，我们表明，使用多光谱与RGB通道作为输入档案更高的F1精度相比，仅使用RGB输入。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)