【计算机视觉

2023-11-12

文章目录

一、检测相关(9篇)

1.1 Boosting Detection in Crowd Analysis via Underutilized Output Features

利用未充分利用的输出特征增强人群分析中的检测

https://arxiv.org/abs/2308.16187

基于检测的方法在人群分析中由于其在密集人群中的表现不佳而被视为不利的。然而,我们认为,这些方法的潜力被低估了,因为他们提供了关键的信息,人群分析,往往被忽视。具体而言,输出提案和边界框的区域大小和置信度得分提供了对人群规模和密度的洞察。为了利用这些未充分利用的功能,我们提出了Crowd Hat,即插即用模块,可以很容易地与现有的检测模型集成。该模块使用混合2D-1D压缩技术来细化输出特征,并获得特定人群信息的空间和数值分布。基于这些特点,我们进一步提出了区域自适应NMS阈值和解耦然后对齐范式,解决基于检测的方法的主要局限性。我们广泛的评估各种人群分析任务,包括人群计数,定位和检测,证明了利用输出功能和潜在的基于检测的方法在人群分析的有效性。

1.2 CircleFormer: Circular Nuclei Detection in Whole Slide Images with Circle Queries and Attention

CircleFormer:基于圆形查询和关注的整体幻灯片图像圆形核检测

https://arxiv.org/abs/2308.16145

基于CNN和基于Transformer的包围盒表示的目标检测在计算机视觉和医学图像分析中已经得到了广泛的研究,但医学图像中的圆形目标检测仍然是研究不足的。受最近基于无锚CNN的圆形对象检测方法(CircleNet)的肾脏病理球检测的启发,本文提出了CircleFormer,一种基于变压器的圆形医学对象检测动态锚圆。具体而言,在Transformer解码器中使用圆形表示的查询迭代细化圆形对象检测结果,并引入圆形交叉注意模块来计算圆形查询与图像特征之间的相似度。提出了一种广义圆IoU(gCIoU)作为一种新的回归损失的圆形目标检测。此外,我们的方法很容易推广到分割任务,通过添加一个简单的分割分支到CircleFormer。我们评估我们的方法在圆形核的检测和分割公共MoNuSeg数据集上,实验结果表明,我们的方法实现了有前途的性能相比,国家的最先进的方法。每个组件的有效性也通过消融研究得到确认。我们的代码发布于:\url{https://github.com/zhanghx-iim-ahu/CircleFormer}.

1.3 Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection

基于多通道语境知识的开放词汇对象检测

https://arxiv.org/abs/2308.15846

在本文中,我们第一次探讨有用的多模态上下文知识,以了解新的类别开放词汇对象检测(OVD)。多模态语境知识代表跨地域、跨词语的联合关系。然而,它是具有挑战性的,将这样的多模态上下文知识到OVD。原因是先前的检测框架未能联合建模多模态上下文知识,因为对象检测器仅支持视觉输入,并且在测试时不提供字幕描述。为此,我们提出了一个多模态上下文知识蒸馏框架,MMC-Det,从教师融合Transformer与不同的多模态掩码语言建模(D-MLM)学生检测器学习的上下文知识。在传统的多模态掩蔽语言建模(MLM)基础上,通过对象发散约束实现了多样性的多模态掩蔽语言建模,以提取对目标检测至关重要的细粒度区域级视觉上下文。各种检测数据集上进行的大量实验表明,我们的多模态上下文学习策略的有效性,我们的方法优于最近的国家的最先进的方法。

1.4 Early Detection of Red Palm Weevil Infestations using Deep Learning Classification of Acoustic Signals

基于声信号深度学习分类的红掌象甲危害早期检测

https://arxiv.org/abs/2308.15829

红棕榈象鼻虫(RPW),也被称为棕榈象鼻虫,被认为是世界上最具破坏性的棕榈害虫之一。目前的检测技术包括使用视觉或声音检查的RPW症状的检测和由受感染的棕榈树产生的挥发性签名的化学检测。然而,在早期阶段有效地检测RPW疾病被认为是栽培枣棕榈最具挑战性的问题之一。在本文中,提出了一种有效的方法来早期检测RPW。所提出的方法是基于RPW的声音活动被记录和分析。第一步涉及基于所选择的特征集将声音数据转换成图像。第二步涉及将来自相同声音文件但由不同特征计算的图像组合成单个图像。第三步涉及应用不同的深度学习(DL)技术将结果图像分类为两类:感染和不感染。实验结果表明,所提出的RPW检测方法使用不同的DL技术,即MobileNetV2,ResNet50V2,ResNet152V2,VGG16,VGG19,DenseNet121,DenseNet201,Xception和InceptionV3的良好性能。所提出的方法优于现有的公共数据集技术。

1.5 Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking

多目标跟踪中的遮挡检测和重ID校正网络

https://arxiv.org/abs/2308.15795

多目标跟踪(MOT)是一项重要的计算机视觉任务,其目的是同时预测物体的边界框和身份。虽然最先进的方法通过联合优化检测和Re-ID特征学习的多任务问题取得了显着的进展,但很少有方法探索解决遮挡问题,这是MOT领域的一个长期挑战。通常,被遮挡的对象可能阻碍检测器估计边界框,从而导致碎片化的轨迹。并且学习到的遮挡Re-ID嵌入不太明显,因为它们包含干扰源。为此,我们提出了一个遮挡感知检测和Re-ID校准的多目标跟踪网络,称为ORCTrack。具体而言,我们提出了一个遮挡感知注意(OAA)的检测器模块,突出对象的功能,同时抑制被遮挡的背景区域。OAA可以用作增强检测器的调制器,用于一些潜在被遮挡的物体。此外,我们设计了一个基于最优传输问题的Re-ID嵌入匹配块,重点是通过不同的相邻帧互补地增强和校准Re-ID表示。为了验证所提出的方法的有效性,广泛的实验进行了两个具有挑战性的VisDrone 2021-MOT和KITTI基准。实验结果表明,我们的方法的优越性,它可以实现新的国家的最先进的性能和享受高的运行时间效率。

1.6 Towards Earlier Detection of Oral Diseases On Smartphones Using Oral and Dental RGB Images

利用口腔和牙科RGB图像在智能手机上早期检测口腔疾病

https://arxiv.org/abs/2308.15705

口腔疾病如牙周(牙龈)疾病和龋齿(龋齿)影响当今全世界数十亿人。然而,以前的最先进的模型依赖于X射线图像来检测口腔疾病,使得远程监测、发展中国家和远程医疗无法访问它们。为了对抗这种对X射线图像的过度使用,我们提出了一种轻量级的机器学习模型,能够检测RGB图像中的结石(也称为硬化斑块或牙垢),同时在低端设备上高效运行。该模型是从ImageNet学习的修改后的MobileNetV 3-Small神经网络传输,实现了72.73%的准确率(与最先进的解决方案相当),同时仍然能够在移动设备上运行,因为其减少了内存需求和处理时间。基于ResNet 34的模型也被构建,并实现了81.82%的准确率。这两种模型都在移动应用程序上进行了测试,证明了它们有可能限制严重口腔疾病病例的数量,因为它们的预测可以帮助患者更早地安排预约,而不需要去诊所。

1.7 Unveiling Camouflage: A Learnable Fourier-based Augmentation for Camouflaged Object Detection and Instance Segmentation

揭开伪装:一种基于可学习傅里叶变换的伪装目标检测与实例分割算法

https://arxiv.org/abs/2308.15660

伪装对象检测(COD)和伪装实例分割(CIS)的目标是识别和分割的对象,融入他们的周围环境,分别。虽然已经提出了几种深度神经网络模型来解决这些任务,但COD和CIS的增强方法尚未得到彻底探索。增强策略可以通过增加训练数据的大小和多样性并将模型暴露于更广泛的数据变化来帮助提高模型的性能。此外,我们的目标是自动学习转换,帮助揭示伪装对象的底层结构,并允许模型学习更好地识别和分割伪装对象。为了实现这一点,我们提出了一种可学习的增强方法,在频域的COD和CIS通过傅里叶变换的方法,称为CamoFourier。我们的方法利用条件生成对抗网络和交叉注意机制来生成参考图像和具有参数的自适应混合交换,以混合参考图像的低频分量和输入图像的高频分量。这种方法的目的是使伪装对象更明显的检测和分割模型。没有花里胡哨的,我们提出的增强方法大幅提升了伪装对象检测器和伪装实例分割器的性能。

1.8 Detection of Mild Cognitive Impairment Using Facial Features in Video Conversations

利用视频对话中的面部特征检测轻度认知障碍

https://arxiv.org/abs/2308.15624

轻度认知障碍(MCI)的早期检测导致早期干预以减缓从MCI到痴呆的进展。深度学习(DL)算法可以帮助实现MCI的早期无创、低成本检测。本文提出了检测MCI在老年人使用DL模型的基础上,仅从视频录制的对话中提取的面部特征。我们使用了从I-CONECT行为干预研究(NCT 02871921)中收集的数据,在该研究中,对社交孤立的老年人和访谈者之间的几次半结构化访谈进行了视频记录。我们开发了一个框架,提取空间整体面部特征使用卷积自动编码器和时间信息使用Transformers。我们提出的DL模型能够检测I-CONECT研究参与者的认知状况(MCI与具有正常认知(NC)的人)。与非时间特征相比,人脸特征的分段和序列信息提高了预测性能。使用这种组合方法的检测准确率达到88%,而84%的准确率是不应用的片段和序列信息的人脸特征在视频中的某一主题。

1.9 A Pseudo-Boolean Polynomials Approach for Image Edge Detection

一种伪布尔多项式图像边缘检测方法

https://arxiv.org/abs/2308.15557

我们介绍了一种新的图像边缘检测方法的基础上的伪布尔多项式的图像补丁。我们表明,补丁覆盖图像中的边缘区域的结果伪布尔多项式与更高的程度相比,补丁覆盖斑点区域。该方法是基于减少多项式的次数和等价性的惩罚为基础的伪布尔多项式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【计算机视觉 的相关文章

随机推荐

  • 常见的Linux高危端口有哪些

    一些常见的 Linux 高危端口 SSH 端口 22 SSH 虽然是一种安全的远程登录协议 但默认端口号 22 却经常成为黑客攻击的目标 因此 建议将 SSH 服务的端口号修改为一个不易被猜测的端口号 以增强系统安全性 Telnet 端口
  • 使用Go Hijack和jQuery轻松实现异步推送服务

    使用Go Hijack和jQuery轻松实现异步推送服务 首先要说明的是 这里实现的异步推送服务采用的是Long Polling方式 并不是Comet 如果想用Comet来实现的话 可以参考这个开源项目 http cometd org 不过
  • stm32通过esp8266实现温湿度实时监控和控制灯光

    stm32通过esp8266实现温湿度实时监控和控制灯光 前言 准备材料 一 硬件方面 二 软件方面 三 建立工程 1 工程创建 2 代码编写 三 关于一些C语言函数运用 结果演示 视频演示 前言 WiFi具有两种功能模式 一种叫 AP A
  • VMware Workstation 不可恢复错误: (vcpu-0) vcpu-0:VERIFY vmcore/vmm/main/cpuid.c:376 bugNr=1036521

    这个问题的原因有几个 第一个原因就是网上说的要开启BIOS的Interl virtual technology 而我当时开启了之后依然报错 最后找到问题的原因在VMWare Workstation 右键我们的虚拟机 选择最下面的设置 然后注
  • 梁山派GD32F470 CMSIS-DAPv1驱动错误

    请先参考嘉立创提供的解决方法 https dri8c0qdfb feishu cn wiki wikcnsGSBwwp15hr9dqRqbiKqxe 我的错误出现情况非常特别 仅供参考 本人电脑 2021拯救者r9000p win11 串口
  • 遗传算法--旅行商问题(TSP问题)-Matlab

    1 问题 2 仿真过程 3 代码实现 1 旅行商问题 TSP问题 假设有一个旅行商人要拜访全国31个省会城市 它需要选择所要走的路径 路径的限制是每个城市只能拜访一次 而且最后要回到原来出发的城市 对路径选择的要求是 所选路径的路成为所有路
  • QT笔记-PDF阅读器(附带完整源码)- 导入PDF文件,在窗体上显示,并提取PDF的文字内容

    环境搭建 1 mupdf 1 17 0 source库 mupdf 1 17 0 source默认是VS2019的工程 由于示例用的是VS2017 所以需要用VS2017重新编译mupdf 1 17 0 source工程 生成LIB库文件
  • k8s部署redis一主两从三哨兵

    目录 一 部署思路 二 部署 1 编写namespace脚本 2 编写configmap脚本 3 编写secret脚本 4 编写StorageClass脚本 1 编写ServiceAccount ClusterRole ClusterRol
  • 建站心得之discuz门户程序相比ZBLOG具有哪些优势[图]

    以前我是采用discuz门户程序建站的 因为个人觉得 这套程序确实不错 而门户discuz门户也可以生成纯静态HTML文件 这对于我们有特殊要求的站长来说 非常重要 因为纯静态不仅可以提升网页的访问速度 还可以节省服务器成本 因为我们都知道
  • Java异步执行方法

    一 利用多线程 直接new线程 Thread t new Thread Override public void run longTimeMethod 使用线程池 private ExecutorService executor Execu
  • 机器学习实验1---决策树预测泰坦尼克数据集

    泰坦尼克号乘客数据集分析 ID3算法决策树 泰坦尼克问题是一个比较经典的案例 此次实验的目的在于用决策树进行乘客的生存预测 数据集中的具体字段为 数据 含义 PassengerId 乘客编号 Survived 是否幸存 Pclass 船票等
  • 为什么要做一款ERP软件——开源软件诞生7

    技术之外的探讨 第7篇 用日志记录 开源软件 的诞生 赤龙ERP开源地址 点亮星标 感谢支持 与开发者交流 kzca2000 码云 https gitee com redragon redragon erp GitHub https git
  • 微搭低代码学习之销售员销售目标采集系统开发

    四月二十三 春意渐浓 草木抽出新枝 鸟儿唱响欢融 花开满园 香气袭人 阳光明媚 人们心情舒畅 愿这美好的日子 伴随你一生 使用Notion AI提问 写一首关于4月23日的诗 文章目录 前言 一 销售员销售目标采集系统需求分析 一 需求背景
  • Matplotlib绘制混淆矩阵及colorbar标签设置

    本文提供一种通过Matplotlib绘制混淆矩阵并调整colorbar标签的程序 直接上程序 from sklearn metrics import confusion matrix import matplotlib pyplot as
  • JS从编译到运行代码的过程

    js运行分为两个阶段 具体AST树以及bytecode等名词看我上一篇文章 浏览器工作原理 1 编译阶段 js代码 gt AST树 代码被解析的过程 v8引擎内部会在堆内存帮助我们创建一个对象 GlobalObject gt GO 简称GO
  • JS闭包理解

    JS闭包 1 闭包 每次看到jQuery的时候 首先想到的就是闭包 这是个常谈的问题了 今天重新回忆了一下闭包 什么是闭包 当有一个函数想要访问另一个函数内部的变量 这个是访问不了的 所有我们要用闭包来访问 所以简单的来说 闭包就是连接函数
  • STM32使用IIC协议驱动0.96寸OLED屏

    IIC是常用的协议之一 它通过不同的地址来区分设备 并且端口需要是开漏模式 并且需要接上拉电阻 要使用IIC驱动OLED 首先要配置IIC void I2C Configuration void I2C InitTypeDef I2C In
  • 程序员工资大概组成【刚毕业的大学生看过来】

    一 程序员的薪资组成是什么样子的呢 薪资组成因人而异 受到很多因素的影响 如工作地点 工作经验 工作职责 专业领域等 一般而言 中国程序员的薪资组成包括基本工资 绩效工资 津贴和奖金等 在中国 程序员的平均薪资水平受到地区 行业和职业经验等
  • C++实现一个线程池

    一 为什么使用线程池 大家都知道C 支持多线程开发 也就是支持多个任务并行运行 我们也知道线程的生命周期中包括创建 就绪 运行 阻塞 销毁等阶段 所以如果要执行的任务很多 每个任务都需要一个线程的话 那么频繁的创建 销毁线程会比较耗性能 有
  • 【计算机视觉

    文章目录 一 检测相关 9篇 1 1 Boosting Detection in Crowd Analysis via Underutilized Output Features 1 2 CircleFormer Circular Nucl