使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响

2024-03-07

我试图使用 Tensorflow 的对象检测 API 来训练模型。我正在使用更快的 rcnn resnet101 的示例配置（https://github.com/tensorflow/models/blob/master/object_detection/samples/configs/faster_rcnn_resnet101_voc07.config https://github.com/tensorflow/models/blob/master/object_detection/samples/configs/faster_rcnn_resnet101_voc07.config).
以下代码是我不太明白的配置文件的一部分：

image_resizer {
  keep_aspect_ratio_resizer {
    min_dimension: 600
    max_dimension: 1024
  }
}

我的问题是：

的确切含义是什么min_dimension and max_dimension？这是否意味着输入图像的大小将调整为 600x1024 或 1024x600？
如果我有不同尺寸的图像，并且其中一些图像相对大于 600x1024（或 1024x600），我可以/应该增加min_dimension and max_dimension?

之所以有这样的疑问，是来自于这篇文章：TensorFlow 对象检测 API 奇怪的行为 https://stackoverflow.com/questions/45029977/tensorflow-object-detection-api-weird-behaviour

在这篇文章中，作者自己也给出了这个问题的答案：

然后我决定裁剪输入图像并将其作为输入提供。只是为了看看结果是否有所改善，确实如此！
事实证明，输入图像的尺寸远大于模型接受的 600 x 1024。因此，它将这些图像缩小到 600 x 1024，这意味着香烟盒正在丢失其细节:)

它使用的配置与我使用的相同。我不确定是否可以更改这些参数（如果它们是此特殊模型 fast_rcnn_resnet101 的默认设置或推荐设置）。

经过一些测试，我想我找到了答案。如果有什么不对的地方请指正。

在 .config 文件中：

image_resizer {
  keep_aspect_ratio_resizer {
    min_dimension: 600
    max_dimension: 1024
  }
}

根据'object_detection/builders/image_resizer_builder.py'的图像缩放器设置

if image_resizer_config.WhichOneof(
    'image_resizer_oneof') == 'keep_aspect_ratio_resizer':
  keep_aspect_ratio_config = image_resizer_config.keep_aspect_ratio_resizer
  if not (keep_aspect_ratio_config.min_dimension
          <= keep_aspect_ratio_config.max_dimension):
    raise ValueError('min_dimension > max_dimension')
  return functools.partial(
      preprocessor.resize_to_range,
      min_dimension=keep_aspect_ratio_config.min_dimension,
      max_dimension=keep_aspect_ratio_config.max_dimension)

然后它尝试使用“object_detection/core/preprocessor.py”的“resize_to_range”函数

  with tf.name_scope('ResizeToRange', values=[image, min_dimension]):
    image_shape = tf.shape(image)
    orig_height = tf.to_float(image_shape[0])
    orig_width = tf.to_float(image_shape[1])
    orig_min_dim = tf.minimum(orig_height, orig_width)

    # Calculates the larger of the possible sizes
    min_dimension = tf.constant(min_dimension, dtype=tf.float32)
    large_scale_factor = min_dimension / orig_min_dim
    # Scaling orig_(height|width) by large_scale_factor will make the smaller
    # dimension equal to min_dimension, save for floating point rounding errors.
    # For reasonably-sized images, taking the nearest integer will reliably
    # eliminate this error.
    large_height = tf.to_int32(tf.round(orig_height * large_scale_factor))
    large_width = tf.to_int32(tf.round(orig_width * large_scale_factor))
    large_size = tf.stack([large_height, large_width])

    if max_dimension:
      # Calculates the smaller of the possible sizes, use that if the larger
      # is too big.
      orig_max_dim = tf.maximum(orig_height, orig_width)
      max_dimension = tf.constant(max_dimension, dtype=tf.float32)
      small_scale_factor = max_dimension / orig_max_dim
      # Scaling orig_(height|width) by small_scale_factor will make the larger
      # dimension equal to max_dimension, save for floating point rounding
      # errors. For reasonably-sized images, taking the nearest integer will
      # reliably eliminate this error.
      small_height = tf.to_int32(tf.round(orig_height * small_scale_factor))
      small_width = tf.to_int32(tf.round(orig_width * small_scale_factor))
      small_size = tf.stack([small_height, small_width])

      new_size = tf.cond(
          tf.to_float(tf.reduce_max(large_size)) > max_dimension,
          lambda: small_size, lambda: large_size)
    else:
      new_size = large_size

    new_image = tf.image.resize_images(image, new_size,
                                       align_corners=align_corners)

从上面的代码中，我们可以知道是否有一张尺寸为800*1000的图像。最终输出图像的尺寸将为600*750。

也就是说，此图像调整器将始终根据“min_dimension”和“max_dimension”的设置调整输入图像的大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

objectdetection

使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响的相关文章

tf.print 什么时候才能真正按预期工作（即打印张量和变量的值）？

首先我使用的是TensorFlow 2 0 我只关心这个版本或更高版本而且我已经太关心这样一个只会产生头痛的软件了 The TensorFlow 文档 https www tensorflow org api docs python t
使用 CustomCallback() 类在训练时实现冻结层

我正在尝试在 TensorFlow 中训练自定义 CNN 模型我想以某种方式在训练仍在运行时冻结特定时期模型的某些层我已经实现了冻结层但我必须在某些时期训练模型然后在我想要冻结的特定层中将可训练属性更改为 False 然后编译模型
SciKit-Learn 的分解模块中未安装 LatentDirichletAllocation

我在 SciKit Learn 包中遇到了一些奇怪的问题 SciKit Learn 包内有分解模块其中应包含 LatentDirichletAllocation 函数请参阅此处的文档 https scikit learn org s
如何将急切执行中的模型转换为静态图并保存在 .pb 文件中？

想象一下我有模型 tf keras Model class ContextExtractor tf keras Model def init self super init self model self get model def cal
3D 卷积神经网络输入形状

我在使用 3D CNN 提供数据时遇到问题Keras http keras io和 Python 对 3D 形状进行分类我有一个文件夹其中包含一些 JSON 格式的模型我将这些模型读入 Numpy 数组模型为 25 25 25 表示
Tensorflow：np数组的next_batch函数

我的火车数据为 xTrain numpy asarray 100 1 5 6 yTrain numpy asarray 200 2 10 12 如何定义 next batch size 方法以从训练数据中获取随机元素的 size 个数您可
Windows 10 上的 Tensorflow 安装问题

我正在尝试在 Win 10 计算机上安装 Tensorflow 我成功安装了Python 3 7 然后尝试按照tensorflow org上的安装说明进行操作执行时 pip install tensorflow 我收到以下错误消息错误
使用两个图像的平方差作为张量流中的损失函数

我正在尝试使用两个图像之间的 SSD 作为我的网络的损失函数 h fc2 is my output layer y is my label image ssd tf reduce sum tf square y h fc2 train st
Keras 中的 Tensorflow 自定义损失函数 - 张量循环

我正在尝试在 Keras 中编写自定义损失函数如下所示 Keras 中的自定义损失函数 https stackoverflow com questions 43818584 custom loss function in keras 我的
应定义密集层输入的最后一个维度。没有找到。收到完整的输入形状：<未知>

我在将模型从一些本地虚拟数据切换到使用 TF 数据集时遇到问题抱歉模型代码太长我已尝试尽可能缩短它以下工作正常 import tensorflow as tf import tensorflow recommenders as tfr
Tensorflow批处理：将结果保留为字符串

这个简单的程序 import tensorflow as tf input string batch tf train batch tf constant input batch size 1 with tf Session as sess
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
Tensorflow：获取为零的数组行索引

对于张量 1 2 3 1 0 0 0 0 1 3 5 7 0 0 0 0 3 5 7 8 如何获取 0 行的索引 IE 列表 1 3 在 Tensorflow 中据我所知您无法像使用 NumPy 等更高级的库那样在一个命令中真正做到这一
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
如何在Pycharm中运行Tensorflow GPU？

我想在 Linux Mint 上的 Pycharm 中运行 Tensorflow GPU 我尝试了一些像这样的指南 https medium com p venkata kishore install anaconda tenserflow
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
在 keras 中使用自定义张量流操作

我在张量流中有一个脚本其中包含自定义张量流操作我想将代码移植到 keras 但我不确定如何在 keras 代码中调用自定义操作我想在 keras 中使用tensorflow 所以到目前为止我发现的教程描述了与我想要的相反的内容 htt
如何将one-hot向量转换为多标签？

我有一项多分类任务并且我得到了像这样的单热类型预测 0 1 1 0 1 0 1 0 1 我希望将这个单热向量转换为标签例如 1 2 1 0 2 我已经尝试过 tf argmax 但它不起作用那么我该如何处理呢使用列表理解 oheLi
ValueError：维度 (-1) 必须在 [0, 2) 范围内

我的python版本是3 5 2 我已经安装了keras和tensorflow 并尝试了官方的一些示例示例链接示例标题用于多类 softmax 分类的多层感知器 MLP https keras io getting started s
TensorFlow：有没有办法将冻结图转换为检查点模型？

可以将检查点模型转换为冻结图 ckpt 文件转换为 pb 文件但是是否有反向方法将 pb 文件再次转换为检查点文件我想它需要将常量转换回变量有没有办法将正确的常量识别为变量并将它们恢复回检查点模型目前支持将变量转换为常量 http

随机推荐

如何在控制台应用程序中引用 Windows 8 运行时（特别是 BLE API）？

我在 Windows 8 1 上的 Visual Studio Professional 13 中使用 C WDK http msdn microsoft com en us library windows hardware ff54708
Python 3.5 async/await 与真实代码示例

我读过大量关于 Python 3 5 async await 的文章和教程我不得不说我很困惑因为有些使用 get event loop 和 run until complete 有些使用 Ensure future 有些使用 async
jasmine-jquery loadFixtures 与 Jasmine 2.0 不起作用

我花了大约一天的时间调试这个我不知所措看起来 jasmine jquery 2 0 2 中有些东西不起作用我正在从 Jasmine 1 3 1 和 jasmine jquery 1 5 更新到最新版本根据我尝试加载装置的方式我遇到
如何将字符串列表转换为guid列表

我有以下代码行创建字符串列表 List
WriteFile 与 TransmitFile 对于传输后需要从服务器删除的大文件

我必须触发用户将大文件下载到网络浏览器在其中创建要在服务器上传输的文件然后立即将其删除我已经找到足够多的例子来表明我应该使用 Response TransmitFile 或 Response WriteFile 但听说两者都存在问题
带有授权的 HTTPS 请求无法通过 Safari 工作

Context 使用 Safari IOS 和 MacOS 通过 HTTPS 两者一起的带有授权标头的 XHR 请求不会到达服务器但它适用于 IE Chrome 和 Firefox 我使用 Letscrypt 生成的有效证书浏览器不会
为什么我们在 angularjs 中注入两次依赖项？

我是角度新手想知道为什么以及何时我们应该注入所有需要的依赖项两次例子 var analysisApp angular module analysisApp analysisApp controller analysisControlle
jQuery：完成拖动而不触发点击事件

我正在尝试设置以下页面如果单击该按钮您可以看到一个 div 如果单击该 div 您可以看到下一个 div 如果移动按钮则不会出现点击所需行为我遇到的问题是如果你移动 div 下一个 div 就会出现这不是我想要的拖动事件完
我是否在 PHP 的 `crypt()` 中发现了错误？

我想我可能发现了 PHP 中的一个错误crypt Windows 下的功能 However 我承认这可能是我的错 PHP 有数百万人使用有数千人在使用 PHP 我的代码被数十人使用并由我处理这个说法最好编码恐怖中的解释 http www
匹配器应该有_many 和自定义关系名称

如何使用测试此 ActiveRecord 关系shoulda匹配者 Models class User lt ActiveRecord Base has many articles end class Article lt ActiveRe
简单数据访问层

谁能建议一个简单的数据访问层 C NET 不热衷于使用微软应用程序数据访问块显得非常臃肿和矫枉过正也因为各种原因不想使用LINQ to SQL 出于各种原因我想在此基础上创建我们自己的内部 ORM 过去我总是已经构建了数据访问层所以
LINQ 性能 Count 与Where 和 Count

public class Group public string Name get set 测试 List
使用 jQuery data() 方法存储函数

jQuery data 文档 http api jquery com data 说如下 The data 方法允许我们将任何类型的数据附加到 DOM 元素我认为任何类型也指函数假设我有一个 id 为 foo 的 div 如下所示 d
Google Maps iOS SDK，获取用户的当前位置

For my iOS应用程序内置iOS7 我需要在应用程序加载时显示用户的当前位置我正在使用Google Maps iOS SDK 我正在关注这个谷歌地图 https developers google com maps documen
SSIS 可以支持加载每行具有不同列长度的文件吗？

目前我每天收到大约 75 万行的文件每行开头都有一个 3 个字符的标识符对于每个标识符列数可以更改但特定于标识符例如 SRH 将始终有 6 列 AAA 将始终有 10 列依此类推我希望能够通过 SSIS 将此文件自动生成 S
TinyMCE execCommand 返回未定义

我试图从我之前创建的特定文本区域中删除tinyMCE 但以下命令不断产生未定义错误使用firebug控制台检查 tinyMCE execCommand mceFocus false textarea plainText tinyMCE
最高的 firebase 版本代码也用于编译播放服务库

我在我的项目中使用某些 firebase 和 play 服务库将播放服务插件版本更新至 4 0 0 后由于 firebase 和 play 服务现在对每个库使用不同的版本编码策略其中任一库中的最高版本代码将被所有其他库替换这导致无法
为什么 HRESULT 0 表示成功？

我刚刚在处理 HRESULT 返回值时遇到了一些非常尴尬的事情似乎成功为 0 失败为 1 这背后的逻辑是什么我实际上尝试过if hr 并悲惨地失败了浪费了我生命的一个小时直到我发现实际的成功 retval 是 0 我想称想到这个的人
没有活跃的源代码控制提供商

我在 Ubuntu 上安装的 VS Code 编辑器表明它没有活动的源代码控制提供程序我正在使用 Ubuntu 并且正在运行 git version 表明它是v2 18 0 我的项目中有一个 git 文件夹我该如何解决这个问题另外两个
使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响

我试图使用 Tensorflow 的对象检测 API 来训练模型我正在使用更快的 rcnn resnet101 的示例配置 https github com tensorflow models blob master object det

使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响

使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响 的相关文章

随机推荐

热门标签

使用对象检测API的默认配置时，图像缩放器的不同尺寸有何影响的相关文章