为什么ssd和yolo没有roi池化层?

2024-04-07

我们知道目标检测框架像faster-rcnn and mask-rcnn has an roi pooling layer or roi align layer。但是为什么ssd和yolo框架没有这样的层呢?


首先我们要明白这样做的目的是什么roi pooling : 从特征图上的建议区域获得固定大小的特征表示。由于所提出的区域可能有不同的大小,如果我们直接使用区域的特征,它们的形状会不同,因此无法输入到全连接层进行预测。 (我们已经知道全连接层需要固定形状的输入)。如需进一步阅读,here https://stackoverflow.com/questions/43430056/what-is-the-purpose-of-the-roi-layer-in-a-fast-r-cnn是一个很好的答案。

So we understood that roi pooling essentially requires two inputs, proposed regions and feature maps. As is clearly described in the following figure https://arxiv.org/abs/1506.01497 figure.

那么为什么不呢YOLO and SSD use roi pooling?仅仅因为他们不使用区域提案!它们的设计本质上不同于诸如R-CNN、快速 R-CNN、更快 R-CNN, 实际上YOLO and SSD被分类为one-stage探测器而 r-cnn 系列 (R-CNN、快速 R-CNN、更快 R-CNN) 叫做two-stage检测器只是因为它们首先提出区域,然后执行分类和回归。

For one-stage detecors, they perform predictions (classification and regression )directly from feature maps. Their method is to divide images in grids and each grid will predict a fixed amount of bounding boxes with confidence scores and class scores. The original YOLO used a single scale feature map while SSD used multi-scale feature maps, as clearly shown in the following fig https://arxiv.org/abs/1512.02325 enter image description here

我们可以看到YOLO和SSD,最终输出是一个固定形状的张量。因此它们的行为与类似问题非常相似linear regression,因此它们被称为one-stage探测器。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么ssd和yolo没有roi池化层? 的相关文章

  • 在 OpenCV 中使用 FindExtrinsicCameraParams2

    我在对象坐标和相应的图像点 在图像平面上 中有 4 个共面点 我想计算物平面相对于相机的相对平移和旋转 FindExtrinsicCameraParams2 应该是解决方案 但我在使用它时遇到了麻烦 编译时不断出现错误 有人在OpenCV中
  • OpenCV 中 minEnclosureCircle 的意外结果

    我最近使用了 OpenCV 2 4 2 的函数 minEnendingCircle 因为我需要测量一团点的直径 一段时间后 我意识到结果不正确 因此我决定编写一个小例程来计算一组非常小的点的直径 我测试了该函数 1个单点 连续2 4分 仅由
  • 相同投影矩阵的不同基本矩阵

    我使用两个投影矩阵 P1 和 P2 例如我使用恐龙数据集 http www robots ox ac uk 7Evgg data1 html 并且我需要计算基本矩阵 F 所以我使用两个Matlab函数 彼得 科维西的函数 www csse
  • OpenCV 2.4.1 - 在 Python 中计算 SURF 描述符

    我正在尝试更新我的代码以使用cv2 SURF 相对于cv2 FeatureDetector create SURF and cv2 DescriptorExtractor create SURF 但是 在检测到关键点后 我无法获取描述符 正
  • 如何从颜色推断形状的状态

    我已经形成了乐高立方体4x4形状 我试图推断图像内区域的状态 空 满以及颜色是黄色还是蓝色 为了简化我的工作 我添加了红色标记定义border由于相机有时会晃动 因此形状会受到影响 这是我试图检测的形状的清晰图像 由手机摄像头拍摄 编辑 请
  • 将点云转换为深度/多通道图像

    我有一个通过使用立体相机扫描平面生成的点云 我已经生成了法线 fpfh 等特征 并使用这些信息我想对点云中的区域进行分类 为了能够使用更传统的 CNN 方法 我想将此点云转换为 opencv 中的多通道图像 我将点云折叠到 XY 平面 并与
  • 在caffe prototxt 文件中。 TRAIN 和 TEST 阶段做什么?

    我是咖啡新手 感谢你们 in https github com BVLC caffe blob master src caffe proto caffe proto https github com BVLC caffe blob mast
  • 将图像与噪声进行模板匹配的最佳方法是什么?

    我有一个大图像 5400x3600 其中有多个我需要检测的闭路电视 旋转检测需要花费大量时间 4 7 分钟 但它仍然无法解决某些闭路电视问题 匹配这样的模板的最佳方法是什么 我正在使用 skImage openCV 不适合我 但我也愿意接受
  • Tensorflow 对象检测 API 索引越界

    运行 Android TF Detect 演示并使用我重新训练的 3 类 ssd mobilenet v1 coco 模型后 我的 TF 检测演示崩溃 给出索引越界异常这是 12 26 17 53 13 931 22429 25212 or
  • 如何使用 Python OpenCV 定义阈值以仅检测图像中的绿色对象?

    我只想从自然环境中捕获的图像中检测绿色物体 我该如何定义它 因为在这里我想通过阈值 所以我们说 x 通过使用这个x 我只想将绿色对象变成一种颜色 白色 而其他对象必须以另一种颜色 黑色 出现 我该怎么做 One way 我制作了 HSV 颜
  • 使用 TensorFlow 对象检测输出分数、类别和 ID 提取

    如何提取由用于对象检测的 Tensorflow 模型生成的图像中检测到的对象 对象类别 对象 ID 的输出分数 我想将所有这些详细信息存储到单独的变量中 以便以后将它们存储在数据库中 使用与此链接中找到的相同的代码https github
  • OpenCV 2.4.2 中的错误“OpenCV 错误:错误标志”

    我刚刚开始尝试使用 OpenCV 并根据一本书编写了一个非常简单的小程序 问题是当我尝试编译它时 出现此错误 我会给你我所掌握的所有信息 我使用 Mac OS X 10 7 的 homebrew 安装了 openCV include
  • 相机框架相对于基准点的世界坐标

    我正在尝试确定世界坐标中的相机位置 相对于基于场景中找到的基准标记的基准位置 我确定 viewMatrix 的方法如下所述 确定相机姿势 https stackoverflow com questions 28335954 determin
  • 给定焦点和相机主中心,如何创建透视投影矩阵

    我设法使用 OpenCV 获取相机的内在和外在参数 因此我有 fx fy cx 和 cy 我还有屏幕 图像的宽度和高度 但是如何根据这些参数创建 OpenGL 透视投影矩阵呢 glFrustum 展示了如何在给定 Z 近 Z 远以及图像宽度
  • 如何使用 OpenCV 和 Python 通过检测到的脸部和眼睛来移动鼠标

    我已经成功地通过在脸部和眼睛周围绘制循环来检测它们 并且在 Python 教程的帮助下工作得很好Python教程 https docs python org 3 5 tutorial index html 学习 OpenCV http ww
  • 帮助--LibSVM 的准确率达到 100%?

    名义上这是一个好问题 但我很确定这是因为发生了一些有趣的事情 作为上下文 我正在研究面部表情 识别空间中的一个问题 因此获得 100 的准确度似乎令人难以置信 并不是说在大多数应用程序中这是合理的 我猜测数据集中存在一些一致的偏差 这使得
  • 如何在Python中的二值图像上使用kmeans聚类?

    我试图对两个不同的人采取二元面具 其他一切都是黑色的 现在我想使用将每个人分组到他们自己的集群中K means这样我最终就可以在它们周围绘制边界框 这是我到目前为止的代码 def kmeans img k values range 1 5
  • Python边缘检测和曲率计算

    我知道边缘检测问题之前已经发布过 在Java中 计算图像中对象的数量 https stackoverflow com questions 2952165 count the number of objects in an image 与语言
  • Microsoft 认知服务 - 计算机视觉:订阅密钥无效

    我正在尝试使用计算机视觉API https azure microsoft com en us services cognitive services computer vision 来自微软的认知服务 但是 我的钥匙似乎不起作用 我使用该
  • 无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

    该脚本用于进行检测 权重文件是 yolov4 coco 预训练模型 可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri

随机推荐