【计算机视觉

2023-11-13

文章目录

一、检测相关(11篇)

1.1 Benchmarking Anomaly Detection System on various Jetson Edge Devices

Jetson边缘设备的基准异常检测系统

https://arxiv.org/abs/2307.16834

在这里插入图片描述
从监控视频中捕获异常事件可以提高公民的安全和福祉。 EdgeAI(基于边缘计算的人工智能)的应用满足了严格的安全时延要求。 在本文中,我们借助边缘计算技术,将称为鲁棒时间特征幅度学习(RTFM)的弱监督视频异常检测应用于监控摄像头的端到端犯罪现场异常检测系统。 该系统直接在多个 Jetson 边缘设备上进行测试,并结合 NVIDIA 的 TensorRT 作为软件开发套件来增强系统性能。 还提供了使用 Docker 技术在各种 Jetson Edge 设备上部署基于 AI 的系统的经验。 与 UCF-Crime 和 UIT VNAnomaly 等可用数据集上的其他最先进 (SOTA) 算法相比,异常检测模型产生了具有竞争力的结果。 该方法系统在 Jetson 边缘设备上达到了 47.56 帧每秒 (FPS) 的推理速度,总共仅使用 3.11 GB RAM。 我们还发现了很有前景的 Jetson 设备,其 AI 系统比之前版本的 Jetson 设备性能提高了 15%,同时能耗降低了 50%。

1.2 High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection

基于双特征池目标检测的高性能人造皮革细微缺陷检测

https://arxiv.org/abs/2307.16751

在这里插入图片描述
本研究重点分析了YOLOv5模型的结构问题。 针对人造革细微缺陷的特点,设计了DFP、IFF、AMP、EOS四种创新结构。 这些进步导致了一种名为YOLOD的高性能人造革精细缺陷检测模型的提出。 YOLOD 在人造皮革缺陷数据集上表现出了出色的性能,与 YOLOv5 相比,AP_50 的性能提升了 11.7% - 13.5%,错误检测率显着降低了 5.2% - 7.2%。 此外,YOLOD在通用MS-COCO数据集上也表现出了不俗的表现,AP较YOLOv5提升了0.4% ~ 2.6%,AP_S较YOLOv5提升了2.5%~4.1%。 这些结果证明了YOLOD在人造皮革缺陷检测和一般物体检测任务中的优越性,使其成为现实世界应用的高效且有效的模型。

1.3 Towards General Visual-Linguistic Face Forgery Detection

面向一般视觉语言的人脸伪造检测

https://arxiv.org/abs/2307.16545

在这里插入图片描述
Deepfakes 是一种现实的面部操纵,可能对安全、隐私和信任构成严重威胁。 现有方法大多将此任务视为二元分类,即使用数字标签或掩模信号来训练检测模型。 我们认为这种监督缺乏语义信息和可解释性。 为了解决这个问题,在本文中,我们提出了一种名为视觉语言人脸伪造检测(VLFFD)的新范式,它使用细粒度的句子级提示作为注释。 由于当前的 Deepfakes 数据集中不提供文本注释,VLFFD 首先通过 Prompt Forgery Image Generator (PFIG) 生成混合伪造图像以及相应的细粒度提示。 然后,将细粒度的混合数据和粗粒度的原始数据通过粗细协同训练框架(C2F)进行联合训练,使模型获得更多的泛化性和可解释性。 实验表明,所提出的方法在几个具有挑战性的基准上改进了现有的检测模型。

1.4 Towards Head Computed Tomography Image Reconstruction Standardization with Deep Learning Assisted Automatic Detection

基于深度学习辅助自动检测的头部CT图像重建标准化

https://arxiv.org/abs/2307.16440

在这里插入图片描述
头部计算机断层扫描 (CT) 图像的三维 (3D) 重建阐明了组织结构复杂的空间关系,从而有助于准确诊断。 尽管如此,由于技术人员的定位不当、患者的身体限制或 CT 扫描仪倾斜角度限制,确保最佳的头部 CT 扫描无偏差在临床环境中具有挑战性。 手动格式化和重建不仅引入了主观性,而且还造成时间和劳动力资源的紧张。 为了解决这些问题,我们提出了一种高效的自动头部 CT 图像 3D 重建方法,提高了准确性和可重复性,并减少了人工干预。 我们的方法采用基于深度学习的对象检测算法,识别和评估眼眶线标志,以在重建之前自动重新格式化图像。 鉴于缺乏头部 CT 图像背景下的目标检测算法的现有评估,我们从理论和实验角度比较了十种方法。 通过探索它们的精度、效率和鲁棒性,我们选出轻量级 YOLOv8 作为最适合我们任务的算法,其 mAP 为 92.91%,并且对类别不平衡具有令人印象深刻的鲁棒性。 我们对标准化重建结果的定性评估证明了我们方法的临床实用性和有效性。

1.5 Detecting Out-of-distribution Objects Using Neuron Activation Patterns

利用神经元激活模式检测散布物体

https://arxiv.org/abs/2307.16433

在这里插入图片描述
物体检测对于现代机器人应用中使用的许多感知算法至关重要。 不幸的是,现有模型都倾向于为分布外 (OOD) 样本分配高置信度分数。 尽管 OOD 检测近年来已被计算机视觉 (CV) 社区广泛研究,但大多数提出的解决方案仅适用于图像识别任务。 现实世界的应用(例如自动驾驶汽车的感知)面临着比分类复杂得多的挑战。 在我们的工作中,我们关注对象检测的流行领域,引入神经元激活模式用于对象检测(NAPTRON)中的分布外样本检测。 进行的实验表明,我们的方法优于最先进的方法,且无需影响分布内 (ID) 性能。 通过评估两种不同的 OOD 场景和三种类型的对象检测器中的方法,我们创建了最大的 OOD 对象检测开源基准。

1.6 RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection

RCS-YOLO:一种用于脑肿瘤检测的快速高精度目标检测器

https://arxiv.org/abs/2307.16412

在这里插入图片描述
凭借速度和准确性之间的出色平衡,尖端的 YOLO 框架已成为最有效的目标检测算法之一。 然而,在脑肿瘤检测中很少研究使用 YOLO 网络的性能。 我们提出了一种基于通道洗牌(RCS-YOLO)的具有重新参数化卷积的新型YOLO架构。 我们提出了 RCS 和 RCS 的一次性聚合(RCS-OSA),它将特征级联和计算效率联系起来,以提取更丰富的信息并减少时间消耗。 在脑肿瘤数据集Br35H上的实验结果表明,所提出的模型在速度和准确性上超越了YOLOv6、YOLOv7和YOLOv8。 值得注意的是,与YOLOv7相比,RCS-YOLO的精度提高了2.6%,推理速度提高了60%,每秒检测到114.8张图像(FPS)。 我们提出的 RCS-YOLO 在脑肿瘤检测任务上实现了最先进的性能。

1.7 Implementing Edge Based Object Detection For Microplastic Debris

实现基于边缘的微塑性碎屑目标检测

https://arxiv.org/abs/2307.16289

在这里插入图片描述
塑料已成为我们日常活动中不可或缺的一部分,但由于其不可生物降解的性质和较便宜的生产价格而成为问题的根源。 伴随这些问题,缓解和应对处置后遗症或缺乏适当处置导致废物集中在一定地点并扰乱动植物生态系统的挑战随之而来。 随着垃圾填埋场垃圾场中废物的积累以及自然水体中更危险的废物的积累,塑料碎片水平持续上升,因此必须迅速采取行动来堵塞或停止这种流动。 虽然手动分类操作和检测可以提供解决方案,但可以使用与机器人附件相连接的高度先进的计算机图像来增强它们,以清除废物。 本报告重点关注的主要应用是备受讨论的计算机视觉和开放视觉,它们因其对互联网的轻度依赖和在偏远地区中继信息的能力而获得新颖性。 这些应用程序可用于创建基于边缘的移动设备,这些设备可以解决海洋和河流中日益严重的塑料碎片问题,只需很少的连接性,并且通过合理的定时维护仍然可以提供相同的结果。 该项目的主要发现涵盖了经过测试和部署的各种方法来检测图像中的废物,并将它们与不同的废物类型进行比较。 该项目已经能够生成可行的模型,可以使用增强的 CNN 方法对采样图像进行实时检测。 该项目的后期部分还更好地解释了达到最佳精度所需的必要预处理步骤,包括将废物检测研究扩展到更大环境的最佳硬件。

1.8 Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in Autonomous Driving

基于不确定性编码的多模式融合在自动驾驶目标检测中的应用

https://arxiv.org/abs/2307.16121

在这里插入图片描述
多模态融合在自动驾驶感知的目标检测方面已显示出初步有希望的结果。 然而,许多现有的融合方案没有考虑每个融合输入的质量,并且可能会受到一个或多个传感器上的不利条件的影响。 虽然预测不确定性已被应用于表征运行时的单模态目标检测性能,但将不确定性纳入多模态融合中仍然缺乏有效的解决方案,这主要是由于不确定性的跨模态不可比性和对各种不利条件的不同敏感性。 为了填补这一空白,本文提出了不确定性编码专家混合(UMoE),它将单模态不确定性明确地纳入激光雷达相机融合中。 UMoE 使用单独的专家网络来处理每个传感器的检测结果以及编码的不确定性。 然后,通过门网络分析专家网络的输出以确定融合权重。 所提出的 UMoE 模块可以集成到任何提案融合管道中。 评估表明,在极端天气、对抗性和致盲攻击场景下,与最先进的提议级多模态目标检测器相比,UMoE 最多实现了 10.67%、3.17% 和 5.40% 的性能增益。

1.9 Separate Scene Text Detector for Unseen Scripts is Not All You Need

未见脚本的单独场景文本检测器并不是您需要的全部

https://arxiv.org/abs/2307.15991

在这里插入图片描述
野外文本检测是一个众所周知的问题,在处理多个脚本时变得更具挑战性。 在过去的十年中,一些脚本得到了研究界的关注并取得了良好的检测性能。 然而,许多脚本用于训练基于深度学习的场景文本检测器的资源不足。 这就提出了一个关键问题:是否需要对新脚本进行单独培训? 这是场景文本检测领域中一个尚未探索的查询。 本文承认这个问题,并提出了一种检测训练期间不存在的脚本的解决方案。 在这项工作中,进行了分析以理解跨脚本文本检测,即在一个文本上进行训练并在另一个上进行测试。 我们发现文本注释的相同性质(字级/行级)对于更好的跨脚本文本检测至关重要。 脚本之间文本注释的不同性质会降低跨脚本文本检测性能。 此外,对于未见过的脚本检测,所提出的解决方案利用向量嵌入来映射与脚本类别相对应的文本的笔划信息。 所提出的方法在零样本设置下使用著名的多语言场景文本数据集进行了验证。 结果显示了所提出的方法在自然图像中看不见的脚本检测方面的潜力。

1.10 Detecting diabetic retinopathy severity through fundus images using an ensemble of classifiers

使用分类器集合通过眼底图像检测糖尿病视网膜病变的严重程度

https://arxiv.org/abs/2307.16622

在这里插入图片描述
糖尿病视网膜病变是一种影响糖尿病患者的眼部疾病。 这是糖尿病的常见并发症,会影响眼睛并导致视力丧失。 诊断糖尿病视网膜病变的一种方法是检查眼底。 眼科医生检查眼睛的后部,包括视网膜、视神经和供应视网膜的血管。 在糖尿病视网膜病变的情况下,视网膜血管恶化,可能导致出血、肿胀和其他影响视力的变化。 我们提出了一种检测糖尿病严重程度的方法。 首先,对可用数据应用一组数据预处理:自适应均衡、颜色归一化、高斯滤波器、视神经盘和血管的去除。 其次,我们对相关标记进行图像分割并从眼底图像中提取特征。 第三,我们应用一组分类器并评估系统的信任度。

1.11 Deep Learning and Computer Vision for Glaucoma Detection: A Review

深度学习和计算机视觉在青光眼检测中的应用

https://arxiv.org/abs/2307.16528

在这里插入图片描述
青光眼是全世界不可逆性失明的主要原因,并且由于依赖主观评估而带来重大的诊断挑战。 然而,计算机视觉和深度学习的最新进展已经证明了自动化评估的潜力。 在本文中,我们调查了最近使用眼底、光学相干断层扫描和视野图像进行基于人工智能的青光眼诊断的研究,特别强调基于深度学习的方法。 我们提供更新的分类法,将方法组织成架构范例,并包含可用源代码的链接,以增强方法的可重复性。 通过对广泛使用的公共数据集进行严格的基准测试,我们揭示了普遍性、不确定性估计和多模态集成方面的性能差距。 此外,我们的调查整理了关键数据集,同时强调了规模、标签不一致和偏差等局限性。 我们概述了开放的研究挑战,并详细说明了未来研究的有希望的方向。 这项调查预计对寻求将进步转化为实践的人工智能研究人员和旨在利用最新人工智能结果改善临床工作流程和诊断的眼科医生都有用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【计算机视觉 的相关文章

随机推荐

  • Windows 仍在设置此设备的类配置。 (代码 56)

    家里电脑有线网卡出现 Windows 仍在设置此设备的类配置 代码 56 解决方法 键盘按win r 弹出运行窗口 输入 redegit 进入注册表 删除HKEY CLASSES ROOT CLSID 3d09c1ca 2bcc 40b7
  • JavaScript的OO思想(一)

    类class是Object Oriented面向对象的语言有一个标志 通过类我们可以创建任意多个具有相同属性和方法的对象 JavaScript中没有类的概念 但它也是面向对象的 只是实现方法会有所不同 创建单个对象有两种基本方法 1 使用O
  • 从平面设计转行软件测试,喜提11K+13薪,回头看看我很幸运

    如何能够成为一个优秀的人 答 一以贯之的努力 不得懈怠的人生 每天的微小积累会决定最终结果 对待未来 人生与知识的敬意 永远值得我们学习 前言 我是2020年数字媒体技术专业毕业的 转行软件测试之前做的是平面设计 毕业的时候 我并不知道有软
  • transformers库的使用【一】——pipeline的简单使用

    transformers库的使用 使用pipeline API来快速使用一些预训练模型 使用预训练模型最简单的方法就是使用pipeline transformers提供了一些任务 1 情感分析 Sentment analysis 分析文本是
  • upload-labs

    在打本靶场之前 首先写一个一句话木马 关闭计算机的安全防护 不然计算机会杀掉 配合蚁剑可进行进一步操作 注 为避免部分题目可能无法实现 这里推荐使用phpstudy2016进行操作 目录 Pass 01 Pass 02 Pass 03 Pa
  • ethereumjs/ethereumjs-util

    ethereumjs ethereumjs util Most of the string manipulation methods are provided by ethjs util 更多的字符串处理方法可以看ethjs util ad
  • 几个常用的图片处理和图像识别API

    鸟类识别 http www inspirvision cn www product 支持鸟类品种鉴别 不同种类鸟类检测 鸟类数量统计 提供API Camera360 https github com pinguo PGSkinPrettif
  • [ kubernetes ] 基础名词解释

    Service RC RS和Deployment只是保证了支撑服务的微服务Pod的数量 但是没有解决如何访问这些服务的问题 一个Pod只是一个运行服务的实例 随时可能在一个节点上停止 在另一个节点以一个新的IP启动一个新的Pod 因此不能以
  • 跨域性的常识性推理

    跨域性的常识性推理是指在不同领域或知识领域之间进行推理和迁移的能力 它涉及将已有的知识和经验应用于新的情境或领域 以生成新的推理和理解 以下是关于跨域性常识性推理的一些常见观点 基础知识迁移 跨域性常识性推理可以帮助我们将基础知识从一个领域
  • 深度学习的发展方向: 深度强化学习!

    点击上方 小白学视觉 选择加 星标 或 置顶 重磅干货 第一时间送达 作者 莫凡 马晶敏 上海交通大学 转载自 Datawhale 深度学习不够智能 强化学习又太抽象 深度强化学习是两套理论体系乘风破浪以后的成团产物 其骨架来自强化学习 而
  • 整理了适合新手的20个Python练手小程序

    100个Python练手小程序 学习python的很好的资料 覆盖了python中的每一部分 可以边学习边练习 更容易掌握python 本文附带基础视频教程 私信回复 基础 就可以获取的 程序1 题目 有1 2 3 4个数字 能组成多少个互
  • 通过poi+java实现Excel表格的列宽度自适应

    新建sheet同时往sheet加入数据后 进行列宽设置 代码如下 固定首行 下拉时实现首行固定不动 sheet createFreezePane 0 1 0 1 列宽自适应 outputList get 0 size 为首行的列数 根据首行
  • web容器与servlet容器的区别

    servlet容器 负责管理servlet生命周期 web容器 负责管理和部署web应用 其本身可能具备servlet容器组件 如果没有 一般能将第三方servlet容器作为组件整合进web容器 1 web容器好比电视机 servlet容器
  • Hibernate(二)——一对多查询

    1 前言 本章节我们讨论Hibernate一对多查询的处理 在上一章节中 Hibernate 一 入门 我们探讨了Hibernate执行最基本的增删改查操作 现在我们将情况复杂化 加入我们在查询用户信息的时候需要同时查询其登录日志 这样就涉
  • 七、MySql-锁与事物

    MySql 锁与事物 锁 锁的简介 为什么需要锁 锁的概念 MySQL 中的锁 表锁与行锁的使用场景 MyISAM 锁 共享读锁 独占写锁 总结 InnoDB 锁 语法 注意 锁的等待问题 事务 什么存储引擎支持事务 事务特性 原子性 at
  • PyQt5接入高德地图搜索API出现Request Failed提示

    PyQt5接入高德地图搜索API出现Request Failed提示 Dcan1994的博客 CSDN博客 pyqt5 加载高德地图 PyQt5接入高德地图搜索功能API Windows版本 10 Python版本 3 6 5 高德地图AP
  • VC怎样调用COM控件的接口函数

    COM库函数 利用COM库函数使用代码组件的方法是本文介绍的三种方法中实现起来最麻烦和困难的方法 它要求开发人员必须具有对COM原理的深入理解 该方法实现步骤如下 1 首先添加COM初始和终止代码 在应用程序类的初始化实例函数InitIns
  • 跨时钟域信号传输(一)——控制信号篇

    1 跨时钟域与亚稳态 跨时钟域通俗地讲 就是模块之间有数据交互 但是模块用的不是同一个时钟进行驱动 如下图所示 左边的模块1由clk1驱动 属于clk1的时钟域 右边的模块2由clk2驱动 属于clk2的时钟域 当clk1比clk2的频率高
  • 线性代数 --- 什么是高斯消元法,什么又是高斯-若尔当消元法?

    高斯 若尔当消元法 写在最前面 我这个人比较喜欢炫耀 尤其发现别人在我面前炫耀的时候 我就会试图用我所学的知识盖过他的锋芒 所以呢 当初在Gilbert string老爷爷的课程里面第一次听到高斯若尔当这个词汇的时候 整个人就炸了 为什么我
  • 【计算机视觉

    文章目录 一 检测相关 11篇 1 1 Benchmarking Anomaly Detection System on various Jetson Edge Devices 1 2 High Performance Fine Defec