执行多尺度训练（yolov2）

2024-04-17

我想知道多尺度训练如何YOLOv2 https://arxiv.org/pdf/1612.08242.pdf works.

论文中指出：

原始YOLO使用的输入分辨率为448×448。通过添加锚框，我们将分辨率更改为416×416。然而，由于我们的模型仅使用卷积层和池化层，因此可以动态调整大小。我们希望 YOLOv2 能够在不同大小的图像上运行，因此我们将其训练到模型中。我们不是固定输入图像的大小，而是每隔几次迭代就改变网络。每 10 个批次，我们的网络都会随机选择一个新的图像尺寸。 “由于我们的模型按 32 倍下采样，因此我们从以下 32 的倍数中提取：{320, 352, ..., 608}。因此，最小的选项是 320 × 320，最大的选项是 608 × 608。我们调整大小将网络提升到该维度并继续训练。”

不明白网络如何仅包含卷积层和池化层允许输入不同的分辨率。根据我构建神经网络的经验，如果将输入的分辨率改变为不同的尺度，这个网络的参数数量就会改变，也就是这个网络的结构会改变。

那么，YOLOv2 如何改变这一点在飞行中?

我读了yolov2的配置文件，但我得到的只是一个random=1陈述...

如果只有卷积层，则权重的数量不会随着层的 2D 部分的大小而变化（但如果您调整通道数的大小，权重的数量也会改变）。

例如（想象的网络），如果你有 224x224x3 输入图像和 3x3x64 卷积层，你将有 64 个不同的 3*3*3 卷积滤波器内核 = 1728 个权重。这个值根本不依赖于图像的大小，因为内核独立地应用于图像的每个位置，这是卷积和卷积层最重要的事情，也是 CNN 可以走得这么深的原因，并且为什么在更快的 R-CNN 中，您可以从特征图中裁剪出区域。

如果有任何完全连接的层或其他东西，它就不会以这种方式工作，因为在那里，更大的 2D 层尺寸会导致更多的连接和更多的权重。

在 yolo v2 中，有一件事可能看起来仍然不合适。例如，如果将每个维度的图像大小加倍，则最终的 1x1xN 过滤器之前，每个维度的特征数量将增加 2 倍，就像原始网络大小的网格为 7x7 一样，调整大小的网络可能有 14x14。但这样你就会得到 14x14 * B*(5+C) 回归结果，就很好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

执行多尺度训练（yolov2）的相关文章

OpenCV 2.4.2 中的错误“OpenCV 错误：错误标志”

我刚刚开始尝试使用 OpenCV 并根据一本书编写了一个非常简单的小程序问题是当我尝试编译它时出现此错误我会给你我所掌握的所有信息我使用 Mac OS X 10 7 的 homebrew 安装了 openCV include
相机框架相对于基准点的世界坐标

我正在尝试确定世界坐标中的相机位置相对于基于场景中找到的基准标记的基准位置我确定 viewMatrix 的方法如下所述确定相机姿势 https stackoverflow com questions 28335954 determin
Tensorflow - 保存模型

我有以下代码在尝试保存模型时出现错误我可能做错了什么我该如何解决这个问题 import tensorflow as tf data labels cifar tools read data C Users abc Desktop Te
如何使用 OpenCV 和 Python 通过检测到的脸部和眼睛来移动鼠标

我已经成功地通过在脸部和眼睛周围绘制循环来检测它们并且在 Python 教程的帮助下工作得很好Python教程 https docs python org 3 5 tutorial index html 学习 OpenCV http ww
重塑图像数组时感到困惑

目前我正在尝试运行 ConvNet 随后将输入神经网络的每张图像都存储为列表但目前该列表是使用三个 for 循环创建的看一看 im Image open os path join p input directory item pix i
如何在运行 Tensorflow 推理会话之前批处理多个视频帧

我做了一个项目基本上使用谷歌对象检测 API 和张量流我所做的就是使用预先训练的模型进行推理这意味着实时对象检测其中输入是网络摄像头的视频流或使用 OpenCV 的类似内容现在我得到了相当不错的性能结果但我想进一步提高 FPS
分割车牌字符

我在从车牌图像中分割字符时遇到问题我应用了以下方法来提取车牌字符车牌图像的自适应阈值选择具有特定纵横比的轮廓如果车牌图像中有任何阴影如附件中所示由于二值化不正确我无法正确分割字符图像中的阴影合并图像中的相邻字符我已经对具有
CustomVision：操作返回无效状态代码：“NotFound”

我正在使用 NuGet 包Microsoft Cognitive CustomVision Prediction版本1 2 0 我创建了 1 个试验项目并用一些图像对其进行了训练现在当我尝试使用 API 调用 API 进行预测时Pred
CNN 模型分类错误：logits 和标签必须可广播：logits_size=[32,10] labels_size=[32,13]

这里我尝试在图像分类上运行 CNN 模型这是批量大小和 13 个标签 Image batch shape 32 32 32 3 Label batch shape 32 13 Watch Back Watch Chargers Watch
ND 输入的 im2col 算法

我正在尝试为输入维度 gt 2D 编写自己的 im2col 算法目前我正在研究 Matlab im2col 的实现但是我找不到任何有关二维以上输入的情况的文档如果我将 3D 张量输入到函数中我确实会得到输出不过我不太明白你是如何
图像中土壤颗粒分水岭以外的替代分割技术

我正在寻找一种替代方法来分割以下土壤颗粒图像中的颗粒而不是Python中的分水岭分割因为它可能会误导对颗粒的正确检测此外我正在研究边缘检测图像使用HED算法作为附加我希望找到一种更好的方法来分割颗粒以进行进一步处理因为我想获
Google Inceptionism：按类别获取图像

在著名的 Google Inceptionism 文章中 http googleresearch blogspot jp 2015 06 inceptionism going deeper into neural html http goo
在 Tensorflow 中运行 CNN 时训练和测试的奇怪值

我一直在尝试使用自己的数据来训练和评估卷积神经网络其中包含 200 个训练图像和 20 个测试图像我的完整脚本在这里在 Tensorflow 中使用我自己的数据运行卷积网络时出错 https stackoverflow com que
如何创建 Keras 层来执行 4D 卷积 (Conv4D)？

看起来tf nn convolution应该能够进行 4D 卷积但我无法成功创建 Keras 层来使用此函数我尝试过使用 KerasLambda层来包裹tf nn convolution功能但也许其他人有更好的主意我想利用数据的高维
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri
指纹奇异点检测

我正在尝试确定指纹的核心点和增量点我正在使用庞加莱指数方法但我无法成功检测到这一点而且我不明白为什么 First I divide the image in 15x15 blocks then I calculate the x an
归一化互相关的基础知识

我正在尝试使用范数校正2 归一化互相关 http en wikipedia org wiki Cross correlation Normalized cross correlation 来自 MATLAB 用于计算发育中胚胎中移动形状的速
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
ValueError：张量：（...）不是该图的元素

我正在使用 keras 的预训练模型在尝试获取预测时出现错误我在烧瓶服务器中有以下代码 from NeuralNetwork import app route uploadMultipleImages methods POST def

随机推荐

ContentCachingResponseWrapper 生成空响应

我正在尝试实现过滤器来记录请求和响应Spring MVC应用我使用以下代码 Component public class LoggingFilter extends OncePerRequestFilter private static
如何在 Three.js 中从三角面获取多边形？

我在网上查了一下是否有人遇到同样的问题我正在使用 Three js 我有一个 3DObject 其中可能包含孔面是三角形的假设我想从上面看到它我的目标是获得一个代表顶面周长的多边形这对我来说意味着不再有三角面而只有 1 个多边形
在 PHP 中，如何判断 pg_query() 是否是返回数据的查询？

那么一次成功的mysqli query 如果没有数据则返回 true 并且返回一个mysqli result对象如果有数据即查询是SELECT SHOW DESCRIBE or EXPLAIN 但随着成功的pg query 无论是否有任何
如何将样式应用于列表中的相邻元素

我可以只使用 CSS 来完成这个场景吗我有一个任意长度的元素的无序列表这些元素排列成一个由四个元素组成的网格当用户将鼠标悬停在某个元素上时一些附加内容将在该元素下方下拉并将其下方的行向下推 Content is here
如何将 CSS 翻译添加到现有翻译中？

我使用 CSS 翻译将 DIV 元素放置在屏幕上这工作得很好除了当稍后位移相同的元素时原始位移被丢弃使用 javascript 设置 CSS 起始位置 div style transform translate 800px 400p
监控我的应用程序在 Android 中占用的内存

我正在尝试优化我的应用程序消耗的内存量当我的应用程序加载时按住 home 键然后选择任务管理器我可以看到该应用程序占用了 17MB 但该值不会刷新我如何实时跟踪该值 DDMS 有这个选项吗请具体说明我已经搜索了很多但没有找到提
如何使用 start 和 endAngle 渲染 svg 圆

我使用 start 和 endAngle 渲染了 svg 圆效果很好但是当我渲染完整的圆 startAngle为70 endAngle为70 时输出有很大的不同 0 90 180 270除外我为这段代码做错了什么 function
如何从 Kubernetes Pod 连接到私有 IP

我正在尝试从 Pod 内连接到私有 IP 从 Pod 对该 IP 执行 Ping 操作返回无法访问但是我可以从主机系统 ping 该 IP 将流量从 pod 路由到目标私有 IP 的最佳方式是什么 Pod 不允许直接连接到 kubern
AVAudioPlayer 在调试模式下抛出断点

每次我加载应用程序时它都会停止就像我在此行设置了断点一样 self audioPlayer AVAudioPlayer alloc initWithData dataPersister loadData self fileName er
如何从 Java 系统设置中获取代理设置

我正在寻找如何在 Windows 下使用 Java 获取系统代理信息的方法但我只找到了一种方法但这对我不起作用 public static void main String args throws Throwable System se
红宝石数组内部结构

ruby 数组内部是如何实现的主要是在 CRuby 中但欢迎任何其他信息它们是像 C 向量一样可增长的数组还是基于列表的移位取消移位以及通过索引访问元素的复杂性是多少它们是可增长的数组在最后增长 shift is O 1 un
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
终止设备上的调试

我对设备上的调试有点困惑当我使用模拟器时在调试会话之后我只需关闭模拟器窗口但是在我的设备上调试时如何关闭会话只需断开 USB 电缆即可并且安装的 apk 由Eclipse安装应该手动删除您可以通过转到调试视角右键单击
当 readdir() 返回文件名时，stat() 错误“没有这样的文件或目录”

我无法识别 stat 引发的错误下面的程序读取目录中的所有文件并打印文件名 DIR dp struct dirent dirp struct stat sb if dp opendir argv 1 NULL perror can t o
WPF - MVVM - 组合框选定项

I have ViewModel 实施的INotifyPropertyChanged 在后台和类中Category它只有一个 type 属性string 我的 ComboBox SelectedItem 绑定到类别的实例当我更改实例的值时
如何更改导航视图中的分隔符颜色？

我正在尝试使用 NavigationView 来实现 NavigationDrawer 我通过在菜单中设置组 ID 添加了分隔符但是我看不到分隔符我想这是因为分隔符颜色与背景相同所以我想改变分隔符的颜色但我找不到办法改变它谁能帮我
如何迭代大型输入文件？

我正在尝试访问通过输入字段上传的文件内容的迭代器我可以通过 web sys 将 JS 文件传递到 Wasm 中但是我一生都无法弄清楚如何访问 Rust 中传递的文件的长度和名称之外的任何内容我想我可以将整个文件作为 ByteArra
Windows npm 中的 Glob 通配符

我试图让 npm 在脚本文件夹上构建 browserify 问题是我在 Windows 上执行folder js 似乎不起作用我尝试过全局安装 glob 但每当我运行构建命令时都会返回错误提示找不到模块 c www projec
如何从 Web 服务响应中读取 HTTP 响应标头？

如何从 C 中的 Web 服务响应中读取 HTTP 响应标头在深入研究 MSDN 之后我所需要做的就是覆盖GetWebResponse方法然后我可以访问响应头 public class MyWSProxy HttpWebClientP
执行多尺度训练（yolov2）

我想知道多尺度训练如何YOLOv2 https arxiv org pdf 1612 08242 pdf works 论文中指出原始YOLO使用的输入分辨率为448 448 通过添加锚框我们将分辨率更改为416 416 然而由于我们的

执行多尺度训练（yolov2）

执行多尺度训练（yolov2） 的相关文章

随机推荐

热门标签

执行多尺度训练（yolov2）的相关文章