为什么ssd和yolo没有roi池化层？

2024-04-07

我们知道目标检测框架像faster-rcnn and mask-rcnn has an roi pooling layer or roi align layer。但是为什么ssd和yolo框架没有这样的层呢？

首先我们要明白这样做的目的是什么roi pooling : 从特征图上的建议区域获得固定大小的特征表示。由于所提出的区域可能有不同的大小，如果我们直接使用区域的特征，它们的形状会不同，因此无法输入到全连接层进行预测。（我们已经知道全连接层需要固定形状的输入）。如需进一步阅读，here https://stackoverflow.com/questions/43430056/what-is-the-purpose-of-the-roi-layer-in-a-fast-r-cnn是一个很好的答案。

So we understood that roi pooling essentially requires two inputs, proposed regions and feature maps. As is clearly described in the following figure https://arxiv.org/abs/1506.01497 .

那么为什么不呢YOLO and SSD use roi pooling？仅仅因为他们不使用区域提案！它们的设计本质上不同于诸如R-CNN、快速 R-CNN、更快 R-CNN，实际上YOLO and SSD被分类为one-stage探测器而 r-cnn 系列 (R-CNN、快速 R-CNN、更快 R-CNN）叫做two-stage检测器只是因为它们首先提出区域，然后执行分类和回归。

For one-stage detecors, they perform predictions (classification and regression )directly from feature maps. Their method is to divide images in grids and each grid will predict a fixed amount of bounding boxes with confidence scores and class scores. The original YOLO used a single scale feature map while SSD used multi-scale feature maps, as clearly shown in the following fig https://arxiv.org/abs/1512.02325

我们可以看到YOLO和SSD，最终输出是一个固定形状的张量。因此它们的行为与类似问题非常相似linear regression，因此它们被称为one-stage探测器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么ssd和yolo没有roi池化层？的相关文章

在 OpenCV 中使用 FindExtrinsicCameraParams2

我在对象坐标和相应的图像点在图像平面上中有 4 个共面点我想计算物平面相对于相机的相对平移和旋转 FindExtrinsicCameraParams2 应该是解决方案但我在使用它时遇到了麻烦编译时不断出现错误有人在OpenCV中
OpenCV 中 minEnclosureCircle 的意外结果

我最近使用了 OpenCV 2 4 2 的函数 minEnendingCircle 因为我需要测量一团点的直径一段时间后我意识到结果不正确因此我决定编写一个小例程来计算一组非常小的点的直径我测试了该函数 1个单点连续2 4分仅由
相同投影矩阵的不同基本矩阵

我使用两个投影矩阵 P1 和 P2 例如我使用恐龙数据集 http www robots ox ac uk 7Evgg data1 html 并且我需要计算基本矩阵 F 所以我使用两个Matlab函数彼得科维西的函数 www csse
OpenCV 2.4.1 - 在 Python 中计算 SURF 描述符

我正在尝试更新我的代码以使用cv2 SURF 相对于cv2 FeatureDetector create SURF and cv2 DescriptorExtractor create SURF 但是在检测到关键点后我无法获取描述符正
如何从颜色推断形状的状态

我已经形成了乐高立方体4x4形状我试图推断图像内区域的状态空满以及颜色是黄色还是蓝色为了简化我的工作我添加了红色标记定义border由于相机有时会晃动因此形状会受到影响这是我试图检测的形状的清晰图像由手机摄像头拍摄编辑请
将点云转换为深度/多通道图像

我有一个通过使用立体相机扫描平面生成的点云我已经生成了法线 fpfh 等特征并使用这些信息我想对点云中的区域进行分类为了能够使用更传统的 CNN 方法我想将此点云转换为 opencv 中的多通道图像我将点云折叠到 XY 平面并与
在caffe prototxt 文件中。 TRAIN 和 TEST 阶段做什么？

我是咖啡新手感谢你们 in https github com BVLC caffe blob master src caffe proto caffe proto https github com BVLC caffe blob mast
将图像与噪声进行模板匹配的最佳方法是什么？

我有一个大图像 5400x3600 其中有多个我需要检测的闭路电视旋转检测需要花费大量时间 4 7 分钟但它仍然无法解决某些闭路电视问题匹配这样的模板的最佳方法是什么我正在使用 skImage openCV 不适合我但我也愿意接受
Tensorflow 对象检测 API 索引越界

运行 Android TF Detect 演示并使用我重新训练的 3 类 ssd mobilenet v1 coco 模型后我的 TF 检测演示崩溃给出索引越界异常这是 12 26 17 53 13 931 22429 25212 or
如何使用 Python OpenCV 定义阈值以仅检测图像中的绿色对象？

我只想从自然环境中捕获的图像中检测绿色物体我该如何定义它因为在这里我想通过阈值所以我们说 x 通过使用这个x 我只想将绿色对象变成一种颜色白色而其他对象必须以另一种颜色黑色出现我该怎么做 One way 我制作了 HSV 颜
使用 TensorFlow 对象检测输出分数、类别和 ID 提取

如何提取由用于对象检测的 Tensorflow 模型生成的图像中检测到的对象对象类别对象 ID 的输出分数我想将所有这些详细信息存储到单独的变量中以便以后将它们存储在数据库中使用与此链接中找到的相同的代码https github
OpenCV 2.4.2 中的错误“OpenCV 错误：错误标志”

我刚刚开始尝试使用 OpenCV 并根据一本书编写了一个非常简单的小程序问题是当我尝试编译它时出现此错误我会给你我所掌握的所有信息我使用 Mac OS X 10 7 的 homebrew 安装了 openCV include
相机框架相对于基准点的世界坐标

我正在尝试确定世界坐标中的相机位置相对于基于场景中找到的基准标记的基准位置我确定 viewMatrix 的方法如下所述确定相机姿势 https stackoverflow com questions 28335954 determin
给定焦点和相机主中心，如何创建透视投影矩阵

我设法使用 OpenCV 获取相机的内在和外在参数因此我有 fx fy cx 和 cy 我还有屏幕图像的宽度和高度但是如何根据这些参数创建 OpenGL 透视投影矩阵呢 glFrustum 展示了如何在给定 Z 近 Z 远以及图像宽度
如何使用 OpenCV 和 Python 通过检测到的脸部和眼睛来移动鼠标

我已经成功地通过在脸部和眼睛周围绘制循环来检测它们并且在 Python 教程的帮助下工作得很好Python教程 https docs python org 3 5 tutorial index html 学习 OpenCV http ww
帮助--LibSVM 的准确率达到 100%？

名义上这是一个好问题但我很确定这是因为发生了一些有趣的事情作为上下文我正在研究面部表情识别空间中的一个问题因此获得 100 的准确度似乎令人难以置信并不是说在大多数应用程序中这是合理的我猜测数据集中存在一些一致的偏差这使得
如何在Python中的二值图像上使用kmeans聚类？

我试图对两个不同的人采取二元面具其他一切都是黑色的现在我想使用将每个人分组到他们自己的集群中K means这样我最终就可以在它们周围绘制边界框这是我到目前为止的代码 def kmeans img k values range 1 5
Python边缘检测和曲率计算

我知道边缘检测问题之前已经发布过在Java中计算图像中对象的数量 https stackoverflow com questions 2952165 count the number of objects in an image 与语言
Microsoft 认知服务 - 计算机视觉：订阅密钥无效

我正在尝试使用计算机视觉API https azure microsoft com en us services cognitive services computer vision 来自微软的认知服务但是我的钥匙似乎不起作用我使用该
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri

随机推荐

打印后出现奇怪的分段错误

写了一个简单的交换程序效果很好但给出了一个分段故障打印完所有内容后 include
WIX 3.9 及更高版本的自定义操作 RegisterComPlus 发生错误

在 Microsoft 我们长期以来一直使用 WIX 工具集版本 3 5 2519 0 来为我们名为 System Center Service Manager 又名 SCSM 的产品构建安装程序和补丁最近我们需要更新到 WIX Tool
如何消除混淆矩阵中的白线？

有谁知道为什么这些白线将我的混淆矩阵分成四部分我已经更改了许多参数但无法弄清楚唯一让它们消失的是如果我根本不标记这些块即 0 1 但这显然不是我想要的任何帮助将不胜感激 Code def plot confusion matri
识别录制声音中的音符 - Python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道是否可以使用 Python 从录制的声音中提取一系列音符这是我第一次考虑使用 Python 来完成此任务帮助真的很棒您想
如何在任何/所有电子表格上使用 Google Apps 脚本？

我正在尝试使用 Google Apps 脚本实现电子表格应用程序但我有几个问题不符合我的要求我研究了这些问题但未能找到答案或更好的替代方法来实现此功能要求编写可管理可测试的代码不是将脚本下载到每个电子表格中而是以某种方式在安
Wicket 重定向：如何传递参数并保持 URL“漂亮”？

考虑一个重定向到另一个页面的 Wicket 网页基于此处省略的一些逻辑 public class SomePage extends WebPage public SomePage PageParameters parameters set
Python ElementTree find() 在 kml 文件中不匹配

我正在尝试使用元素树从 kml 文件中查找元素如下所示 from xml etree ElementTree import ElementTree tree ElementTree tree parse history 03 02 201
为什么在构建视图时要指定数据上下文类？

当使用下图所示的添加视图对话框向 ASP NET MVC 5 项目添加新视图时我被邀请选择一个模板和一个模型类这使我能够快速生成一个表单来创建模型的新实例或显示模型属性的视图但是视图为什么要关心数据上下文类是什么在我的项目中无
在 ActionCable 中未找到订阅类“MyChannel”

我在使用 Action Cable 时遇到问题每当我运行程序时我都会收到一条错误消息 Subscription找不到类ConversationChannel 当我尝试发送消息时我收到此日志成功升级到WebSocket REQUEST
二维码回车

如何在 QR 条形码中编码回车符例如如果我用 Android 扫描它它就会出现 A B C 我努力了A d013B d013C等等但它总是显示转义字符在我发现的其他方法中这些方法似乎都不起作用您只需将正确的字节序列放入 QR
正则表达式中的负向前瞻以排除 R 中的百分比 (%)

我希望提取具有任意小数的数字小数点两边至少各有一个数字但是not模式后跟百分比因此我相信我需要一个负前瞻这样它就可以看到数字后面是否有百分号为了清楚起见我想提取 123 123 但不想提取 123 123 我尝试了十几种语法安
如何在tcl中搜索数字即进程ID并杀死进程ID

我尝试搜索存储在变量 say 缓冲区中的进程 id i e 6762 nohup tcpdump ni eth0 s0 2 gt 1 null 1 6762 You have new mail in var mail root 如果匹配的话
参数类型“对象？”无法分配给参数类型“Map”

我在以下行 var map Map from snap snapshot value 中的 snap snapshot value 参数上出现错误错误是参数类型对象无法分配给参数类型 Map class HomePageState
用于调整图像大小和创建缩略图的 ImageMagick 或 GD 库？

我一直在使用其他人编写的图像调整大小类来调整图像大小或创建缩略图这是我一直在使用的类的链接 http www white hat web design co uk articles php image resizing php http
使用用户窗体中的数据将值从一张纸复制到另一张纸

我有一个用户表单其中包含您可以填写的以下值 TextBoxLopnummer Value TextBoxFragestallare Value TextBoxMottagare Value TextBoxDatum Value Pictu
在 do while 循环内检查多个 checkbox.checked 状态

我在上一个问题中问过如何线程化 2 个表单以同时使用 C https stackoverflow com questions 40450905 threading 2 forms to use simultaneously c sharp
-1 是一个神奇的数字吗？反模式？代码味道？当局的引述和指南[重复]

这个问题在这里已经有答案了可能的重复不断的虐待 https stackoverflow com questions 1862593 constant abuse 我见过 1用于各种 API 最常用于搜索具有从零开始的索引的集合时通
从 Rails 3 升级后不允许使用 Rails 4 方法

我有一个现有的代码库我正在尝试将其从 Rails 3 2 升级到 Rails 4 0 我有一个名为 asset controller 的控制器带有 create 方法并且我的路由文件中有一个条目 resources assets 在前
如何创建一个接受任何类型变量的 Java 函数？

我想创建一个可以接受任何传入变量的函数无论类型如何 int double String或其他对象然后可能确定变量的类型并对该类型进行有条件的操作我怎样才能做到这一点重载是最推荐的选项大多数时候您不需要接受任何类型变量的函数但是如
为什么ssd和yolo没有roi池化层？

我们知道目标检测框架像faster rcnn and mask rcnn has an roi pooling layer or roi align layer 但是为什么ssd和yolo框架没有这样的层呢首先我们要明白这样做的目的是什么

为什么ssd和yolo没有roi池化层？

为什么ssd和yolo没有roi池化层？ 的相关文章

随机推荐

热门标签

为什么ssd和yolo没有roi池化层？的相关文章