【计算机视觉

2023-11-11

文章目录

一、检测相关(11篇)

1.1 BandRe: Rethinking Band-Pass Filters for Scale-Wise Object Detection Evaluation

BandRe:基于尺度智能目标检测评估的带通滤波

https://arxiv.org/abs/2307.11748

在这里插入图片描述
对象检测器的尺度评估对于现实世界的应用是重要的。然而,现有的度量要么是粗略的,要么不够可靠。在本文中,我们提出了新的尺度上的指标,罢工之间的平衡细度和可靠性,使用三角形和梯形带通滤波器组成的滤波器组。我们在两个数据集上使用两种方法进行实验,并表明所提出的度量可以突出方法之间和数据集之间的差异。代码可在https://github.com/shinya7y/UniverseNet上获得。

1.2 Morphological Image Analysis and Feature Extraction for Reasoning with AI-based Defect Detection and Classification Models

基于AI的缺陷检测与分类模型用于推理的形态图像分析与特征提取

https://arxiv.org/abs/2307.11643

在这里插入图片描述
随着人工智能(AI)模型在工程和制造等行业的使用越来越普遍,这些模型必须在其预测背后提供透明的推理。本文提出了人工智能推理,它从图像中提取缺陷的形态特征(DefChars),并利用决策树来推理DefChar值。此后,AI推理器将可视化(即,图表)和文本解释,以提供对由基于掩蔽的缺陷检测和分类模型做出的输出的洞察。它还提供了有效的缓解策略,以增强数据预处理和整体模型性能。使用一组包含缺陷的366张图像,对AI推理器进行了测试,以解释IE Mask R-CNN模型的输出。结果证明了其在解释IE Mask R-CNN模型预测方面的有效性。总的来说,所提出的AI-Reasoner提供了一种解决方案,用于提高需要缺陷分析的工业应用中AI模型的性能。

1.3 Multi-modal Hate Speech Detection using Machine Learning

基于机器学习的多模式仇恨语音检测

https://arxiv.org/abs/2307.11519

在这里插入图片描述
随着互联网用户和媒体内容的不断增长,很难在音频和视频中追踪仇恨言论。将视频或音频转换为文本并不能准确地检测仇恨言论,因为人类有时会使用仇恨词语作为幽默或愉快的感觉,并且还使用不同的语音语调或在视频中显示不同的动作。最先进的仇恨言论检测模型大多是在单一模态上开发的。在这项研究中,多模态系统的组合方法已被提出来检测仇恨言论从视频内容中提取的特征图像,从音频,文本中提取的特征值,并使用机器学习和自然语言处理。

1.4 Redemption from Range-view for Accurate 3D Object Detection

用于精确3D目标检测的距离视角救赎

https://arxiv.org/abs/2307.11482

在这里插入图片描述
用于3D对象检测的最新方法主要依赖于点视图或鸟瞰视图表示,具有有限的探索基于距离视图的方法。距离视图的表示遭受尺度变化和表面纹理缺陷,这两个构成了显着的限制,开发相应的方法。值得注意的是,表面纹理损失问题已被所有现有的方法在很大程度上忽略,尽管其对基于距离视图的3D物体检测的准确性的显着影响。在这项研究中,我们提出了从范围视图R-CNN(R2 R-CNN)的救赎,这是一种全面探索范围视图表示的新颖而准确的方法。我们所提出的方法通过HD Meta内核,它捕获多个尺度的距离视图的几何信息解决尺度变化。此外,我们引入特征点赎回(FPR)恢复丢失的3D表面纹理信息的范围视图,和同步网格RoI池(S-网格RoI池),多尺度的方法,多个接受领域的准确框细化。我们的R2 R-CNN优于现有的基于范围视图的方法,在KITTI基准测试和Waymo开放数据集上都实现了最先进的性能。我们的研究强调了解决表面纹理损失问题的关键重要性,准确的三维物体检测在距离视图为基础的方法。守则将公开提供。

1.5 SA-BEV: Generating Semantic-Aware Bird’s-Eye-View Feature for Multi-view 3D Object Detection

SA-BEV:用于多视角三维目标检测的语义感知鸟视特征生成

https://arxiv.org/abs/2307.11477

在这里插入图片描述
最近,纯基于摄像头的鸟瞰(BEV)感知为经济的自动驾驶提供了可行的解决方案。然而,现有的基于BEV的多视图3D检测器通常将所有图像特征转换为BEV特征,而没有考虑大比例的背景信息可能淹没对象信息的问题。在本文中,我们提出了语义感知BEV池(SA-BEVPool),它可以过滤掉背景信息,根据图像特征的语义分割和转换图像特征到语义感知BEV功能。因此,我们提出了BEV-Paste,一种有效的数据增强策略,与语义感知的BEV特征紧密匹配。此外,我们设计了一个多尺度跨任务(MSCT)头,它结合了特定任务和跨任务的信息,以预测深度分布和语义分割更准确,进一步提高语义感知BEV特征的质量。最后,我们将上述模块集成到一个新的多视图3D目标检测框架,即SA-BEV。在nuScenes上的实验表明,SA-BEV实现了最先进的性能。代码已在https://github.com/mengtan00/SA-BEV.git上提供。

1.6 Attention Consistency Refined Masked Frequency Forgery Representation for Generalizing Face Forgery Detection

注意力一致性改进掩蔽频率伪装表示法推广人脸伪装检测

https://arxiv.org/abs/2307.11438

在这里插入图片描述
由于深度图像生成技术的成功发展,视觉数据伪造检测将在社会和经济安全中发挥更重要的作用。现有的伪造检测方法遭受不令人满意的泛化能力,以确定在看不见的域的真实性。在本文中,我们提出了一个新的注意一致性精化掩蔽频率伪造表示模型的广义人脸伪造检测算法(ACMF)。大多数伪造技术总是引入高频感知线索,这使得区分来源真实性变得容易,但难以推广到看不见的伪影类型。掩蔽频率伪造表示模块被设计成通过随机丢弃高频信息来探索鲁棒伪造线索。此外,我们发现,伪造注意力地图的不一致性,通过检测网络可能会影响的推广。因此,伪造注意一致性的引入,以迫使检测器集中在相似的注意区域,以更好的泛化能力。在几个公开的人脸伪造数据集(FaceForensic++、DFD、Celeb-DF和WDF数据集)上的实验结果表明,与现有方法相比,该方法具有更好的性能。

1.7 A Video-based Detector for Suspicious Activity in Examination with OpenPose

一种基于视频的OpenPose考试可疑行为检测器

https://arxiv.org/abs/2307.11413

在这里插入图片描述
考试是学习过程中至关重要的一部分,学术机构投入大量资源,通过防止学生或辅导员作弊来维护其诚信。然而,作弊在考试机构中变得猖獗,损害了他们的诚信。传统的依靠监考人员来监督每个学生的方法是不切实际的,也是无效的。为了解决这个问题,需要持续记录考试会话以监视学生的可疑活动。然而,这些录音往往太长,监考人员无法有效分析,疲劳可能会导致他们错过重要的细节。为了扩大覆盖范围,监考人员可以使用固定的头顶或可穿戴的摄像头。本文介绍了一个框架,使用自动化来分析视频和检测可疑活动,在考试期间有效地和有效地。我们利用OpenPose框架和卷积神经网络(CNN)来识别学生在考试期间交换对象。该检测系统对于防止作弊和促进学术诚信,公平和机构的优质教育至关重要。

1.8 Deep Directly-Trained Spiking Neural Networks for Object Detection

深度直接训练的尖峰神经网络用于目标检测

https://arxiv.org/abs/2307.11411

在这里插入图片描述
尖峰神经网络(SNN)是大脑启发的能量高效模型,其在时空动态中编码信息。最近,直接训练的深度SNN在以很少的时间步长实现分类任务的高性能方面取得了巨大成功。然而,如何设计一个直接训练的SNN用于目标检测的回归任务仍然是一个具有挑战性的问题。为了解决这个问题,我们提出了EMS-YOLO,这是一种用于对象检测的新型直接训练的SNN框架,这是第一次尝试用替代梯度训练深度SNN进行对象检测,而不是ANN-SNN转换策略。具体而言,我们设计了一个全尖峰残差块,EMS-ResNet,它可以有效地扩展直接训练的SNN的深度,低功耗。此外,我们从理论上分析和证明EMS-ResNet可以避免梯度消失或爆炸。结果表明,我们的方法优于国家的最先进的ANN-SNN转换方法(至少500个时间步长),在非常少的时间步长(只有4个时间步长)。它表明,我们的模型可以达到相当的性能,神经网络相同的架构,而消耗5.83倍的能量的基于帧的COCO数据集和基于事件的Gen 1数据集。

1.9 ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection

ParGanda:使合成行人成为目标检测的现实

https://arxiv.org/abs/2307.11360

在这里插入图片描述
目标检测是计算机视觉应用的关键技术,但它往往需要大量的注释数据来实现体面的结果。此外,特别是对于行人检测,所收集的数据可能包含一些个人身份信息(PII),这在许多国家是高度受限的。这种标签密集和隐私有关的任务最近导致了越来越多的兴趣训练检测模型,使用合成生成的行人数据集与照片逼真的视频游戏引擎收集。该引擎能够生成无限量的数据,并具有精确和一致的注释,这为现实世界的应用带来了巨大的收益。然而,使用合成数据进行训练引入了合成域到实域的偏移,从而使最终性能恶化。为了缩小真实数据和合成数据之间的差距,我们建议使用生成对抗网络(GAN),它执行参数化的未配对图像到图像的转换,以生成更逼真的图像。使用GAN的主要好处是其对几何变化的低级别变化的固有偏好,这意味着即使在执行域转换之后,给定合成图像的注释也保持准确,从而消除了对标记真实数据的需要。我们使用MOTSynth数据集进行训练,并使用MOT17和MOT20检测数据集进行测试,对所提出的方法进行了广泛的实验,实验结果证明了该方法的有效性。我们的方法不仅产生视觉上合理的样本,而且不需要任何标签的真实域,从而使其适用于各种下游任务。

1.10 Heuristic Hyperparameter Choice for Image Anomaly Detection

用于图像异常检测的启发式超参数选择

https://arxiv.org/abs/2307.11197

在这里插入图片描述
图像中的异常检测(AD)是一个基本的计算机视觉问题,它通过深度学习神经网络来识别显著偏离正态的图像。从预训练模型中提取的深度特征已被证明是基于多元高斯分布分析的AD所必需的。然而,由于模型通常是在大型数据集上进行预训练的,例如ImageNet,因此它们可能会为AD产生大量冗余特征,这会增加计算成本并降低性能。我们的目标是做的降维的否定主成分分析(NPCA)的这些特征。因此,我们提出了一些启发式的选择NPCA算法的超参数,以得到尽可能少的特征成分,同时保证良好的性能。

1.11 Screening Mammography Breast Cancer Detection

乳房钼靶摄影筛查乳腺癌

https://arxiv.org/abs/2307.11274

在这里插入图片描述
乳腺癌是癌症相关死亡的主要原因,但目前的计划是昂贵的,容易出现假阳性,导致不必要的后续行动和病人的焦虑。本文提出了一种乳腺癌自动检测的解决方案,以提高筛查方案的效率和准确性。针对大约20,000名女性患者的放射学乳腺图像的RSNA数据集测试了不同的方法,并在各种方法中产生了0.56的平均验证病例pF1评分。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【计算机视觉 的相关文章

随机推荐

  • fork函数全解析

    从最简单 基础 的一个例子说起 应该说是最基础而不是简单 下面的这个最基础的例子其实并不简单 因为有很多细节 我们需要从fork函数的定义开始说起 man 手册官方定义 this function creates a new process
  • 建立安全连接失败连接到 120.79.9.99:9200 时发生错误。SSL 接收到一个超出最大准许长度的记录。错误代码:SSL_ERROR_RX_RECORD_TOO_LONG

    建立安全连接失败 连接到 120 79 9 99 9200 时发生错误 SSL 接收到一个超出最大准许长度的记录 错误代码 SSL ERROR RX RECORD TOO LONG 因为我是用https访问的需要安全协议只要改为http就行
  • docker运行有数据库连接的springboot项目无法访问

    docker run name tsb p 8808 8080 d testspringboot 8808 8888 前一个数值是访问路径的端口号 后一个数值是上传的jar包中项目设定的端口号 默认8080 访问测试 测试地址 http 1
  • Spark学习笔记(二)

    以下笔记基于对尚硅谷spark教程的学习 Spark版本3 0 目录 什么是 RDD RDD核心属性 执行原理 基础编程 创建环境 RDD 创建 从集合中创建RDD 从文件中创建RDD RDD 转换算子 Value 类型 双Value类型
  • C1认证学习笔记(第一章)

    C1认证 一 计算机通识 进制转换 进制定义 进制之间的转换 任务训练练习 信息单位 单位定义 换算公式 任务训练练习 数据校验 任务背景 奇偶校验 任务训练练习 多媒体基础参数 任务背景 参数定义 计算公式 任务训练练习 HTTP 任务背
  • 【Transformer】12、Do Vision Transformers See Like Convolutional Neural Networks?

    文章目录 一 背景 二 方法 论文链接 https arxiv org pdf 2108 08810 pdf 出处 NeurIPS2021 一 背景 Transformer 现在在视觉方面取得了超越 CNN 的效果 所以作者就有一个问题 T
  • SQL server2019安装教程

    建议 建议给位看官先看完再动手 也可以多搜索其他的文章多看看 心里有数儿了再按照文档执行 有条件的在虚拟机里面跑一遍 下载必备 由于安装文件太大 所以没有办法上传 各位就请自行下载 我尝试着加一下链接SQL引导包的链接 也就是图片中的第二个
  • leetcode#26 Remove Duplicates from Sorted Array

    给定一个排序数组 你需要在原地删除重复出现的元素 使得每个元素只出现一次 返回移除后数组的新长度 不要使用额外的数组空间 你必须在原地修改输入数组并在使用 O 1 额外空间的条件下完成 示例 1 给定数组 nums 1 1 2 函数应该返回
  • JS 数组求和的5种方法(解题报告)

    转自牛客网 题目 题目描述 计算给定数组 arr 中所有元素的总和 输入描述 数组中的元素均为 Number 类型 输入例子 sum 1 2 3 4 输出例子 10 不考虑算法复杂度 用递归做 1 2 3 4 5 6
  • 推荐10个AI人工智能技术网站

    推荐 将 NSDT场景编辑器加入你的3D工具链 3D工具集 NSDT简石数字孪生 1 AI Trends AI Trends https www aitrends com 是一个专注于人工智能领域的网站 它提供了最新的AI技术和应用趋势的报
  • C++ 常用数学函数详解汇总#include<math.h>

    目录 前言 一 头文件 二 常用函数 1 开平方 2 求常数e的x次方 3 求常数x的y次方 4 求对数lnx lgx 5 求x绝对值 6 取整函数 7 产生随机数 8 取整与取余 9 三角函数 10 反三角函数 11 的表示 前言 在实际
  • 左神-11 动态规划(仔细看end)

    最长递增子序列 01背包问题 硬币找零问题 用空间换时间 1 2 3 4 5 6 end 转载于 https www cnblogs com h3953774 p 7307790 html
  • 卷麻了,00后测试用例写的比我还好,简直无地自容.....

    前言 作为一个测试新人 刚开始接触测试 对于怎么写测试用例很头疼 无法接触需求 只能根据站在用户的角度去做测试 但是这样情况会导致不能全方位的测试APP 这种情况就需要一份测试用例了 但是不会写 求指教 还有就是测试出来的bug该如何追踪
  • Prometheus Node_exporter 之 Node Exporter

    Node Exporter 1 Node Exporter Scrape Time type GraphUnit secondsLabel Seconds collector 各个收集器持续时间metrics node scrape col
  • 安全SaaS,在中国TO B中艰难成长

    无论是一体化 还是以业务为中心专攻政企或金融客户 还是针对中小微企业市场推出免费产品 都可能成为未来安全SaaS规模化的发展路径 作者 斗斗 编辑 皮爷 出品 产业家 5G 物联网 AI 云计算等技术的应用 让生产 服务过程加速数字化 云化
  • 【Qt】UI显示中文

    QT UI显示中文的三种方法 最近在用Qt做项目 遇到UI不能显示中文的问题 发现有3种方法可以解决 先记录一下 方法一 QString fromLocal8Bit 你好中国 1 方法二 QStringLiteral 你好中国 1 方法三
  • cmake 报错

    目录 错误 原因 错误 The C compiler identification is unknown The CXX compiler identification is unknown CMake Error at CMakeList
  • Android加载圆形(圆角)图片的方式总结(RoundedBitmapDrawable、Glide)

    一 问题引入 Android开发中经常要使用到ImageView 而ImageView控件自带的宽度width 高度height等属性无法让ImageView呈现出圆形 圆角这样的形状 相信很多小伙伴都和我一样为这个问题苦恼 现在介绍几种方
  • 2022如何做副业?35岁前,千万别让死工资绊住你赚钱的步伐

    近年来互联网行情下降 好多人都在思考要不要搞个副业来抵御风险 这不又来事了 这两天又爆了互联网大裁员 继阿里 向社会输送人才 之后 京东又搞了个 毕业礼 整的小伙伴们人心惶惶 副业的关注度又一波升级 那今天我们就来聊聊 程序员做副业这件事
  • 【计算机视觉

    文章目录 一 检测相关 11篇 1 1 BandRe Rethinking Band Pass Filters for Scale Wise Object Detection Evaluation 1 2 Morphological Ima