如何在运行 Tensorflow 推理会话之前批处理多个视频帧

2024-04-21

我做了一个项目，基本上使用谷歌对象检测 API 和张量流。

我所做的就是使用预先训练的模型进行推理：这意味着实时对象检测，其中输入是网络摄像头的视频流或使用 OpenCV 的类似内容。

现在我得到了相当不错的性能结果，但我想进一步提高 FPS。

因为我的经验是，Tensorflow 在推理时使用了我的整个内存，但 GPU 使用率根本没有达到最大值（NVIDIA GTX 1050 笔记本电脑上约为 40%，NVIDIA Jetson Tx2 上约为 6%）。

所以我的想法是通过增加每个会话运行中输入的图像批量大小来增加 GPU 使用率。

所以我的问题是：在将输入视频流的多个帧提供给它们之前，如何将它们一起批处理sess.run()?

看看我的代码object_detetection.py在我的 github 仓库上：(https://github.com/GustavZ/realtime_object_detection https://github.com/GustavZ/realtime_object_detection).

如果您能提出一些提示或代码实现，我将非常感激！

import numpy as np
import os
import six.moves.urllib as urllib
import tarfile
import tensorflow as tf
import cv2


# Protobuf Compilation (once necessary)
os.system('protoc object_detection/protos/*.proto --python_out=.')

from object_detection.utils import label_map_util
from object_detection.utils import visualization_utils as vis_util
from stuff.helper import FPS2, WebcamVideoStream

# INPUT PARAMS
# Must be OpenCV readable
# 0 = Default Camera
video_input = 0
visualize = True
max_frames = 300 #only used if visualize==False
width = 640
height = 480
fps_interval = 3
bbox_thickness = 8

# Model preparation
# What model to download.
MODEL_NAME = 'ssd_mobilenet_v1_coco_2017_11_17'
MODEL_FILE = MODEL_NAME + '.tar.gz'
DOWNLOAD_BASE = 'http://download.tensorflow.org/models/object_detection/'
# Path to frozen detection graph. This is the actual model that is used for the object detection.
PATH_TO_CKPT = 'models/' + MODEL_NAME + '/frozen_inference_graph.pb'
# List of the strings that is used to add correct label for each box.
LABEL_MAP = 'mscoco_label_map.pbtxt'
PATH_TO_LABELS = 'object_detection/data/' + LABEL_MAP
NUM_CLASSES = 90

# Download Model    
if not os.path.isfile(PATH_TO_CKPT):
    print('Model not found. Downloading it now.')
    opener = urllib.request.URLopener()
    opener.retrieve(DOWNLOAD_BASE + MODEL_FILE, MODEL_FILE)
    tar_file = tarfile.open(MODEL_FILE)
    for file in tar_file.getmembers():
      file_name = os.path.basename(file.name)
      if 'frozen_inference_graph.pb' in file_name:
        tar_file.extract(file, os.getcwd())
    os.remove('../' + MODEL_FILE)
else:
    print('Model found. Proceed.')

# Load a (frozen) Tensorflow model into memory.
detection_graph = tf.Graph()
with detection_graph.as_default():
  od_graph_def = tf.GraphDef()
  with tf.gfile.GFile(PATH_TO_CKPT, 'rb') as fid:
    serialized_graph = fid.read()
    od_graph_def.ParseFromString(serialized_graph)
    tf.import_graph_def(od_graph_def, name='')

# Loading label map
label_map = label_map_util.load_labelmap(PATH_TO_LABELS)
categories = label_map_util.convert_label_map_to_categories(label_map, max_num_classes=NUM_CLASSES, use_display_name=True)
category_index = label_map_util.create_category_index(categories)

# Start Video Stream
video_stream = WebcamVideoStream(video_input,width,height).start()
cur_frames = 0
# Detection
with detection_graph.as_default():
  with tf.Session(graph=detection_graph) as sess:
    # Definite input and output Tensors for detection_graph
    image_tensor = detection_graph.get_tensor_by_name('image_tensor:0')
    # Each box represents a part of the image where a particular object was detected.
    detection_boxes = detection_graph.get_tensor_by_name('detection_boxes:0')
    # Each score represent how level of confidence for each of the objects.
    # Score is shown on the result image, together with the class label.
    detection_scores = detection_graph.get_tensor_by_name('detection_scores:0')
    detection_classes = detection_graph.get_tensor_by_name('detection_classes:0')
    num_detections = detection_graph.get_tensor_by_name('num_detections:0')
    # fps calculation
    fps = FPS2(fps_interval).start()
    print ("Press 'q' to Exit")
    while video_stream.isActive():
      image_np = video_stream.read()
      # Expand dimensions since the model expects images to have shape: [1, None, None, 3]
      image_np_expanded = np.expand_dims(image_np, axis=0)
      # Actual detection.
      (boxes, scores, classes, num) = sess.run(
          [detection_boxes, detection_scores, detection_classes, num_detections],
          feed_dict={image_tensor: image_np_expanded})
      # Visualization of the results of a detection.
      vis_util.visualize_boxes_and_labels_on_image_array(
          image_np,
          np.squeeze(boxes),
          np.squeeze(classes).astype(np.int32),
          np.squeeze(scores),
          category_index,
          use_normalized_coordinates=True,
          line_thickness=bbox_thickness)
      if visualize:
          cv2.imshow('object_detection', image_np)
          # Exit Option
          if cv2.waitKey(1) & 0xFF == ord('q'):
              break
      else:
          cur_frames += 1
          if cur_frames >= max_frames:
              break
      # fps calculation
      fps.update()

# End everything
fps.stop()
video_stream.stop()     
cv2.destroyAllWindows()
print('[INFO] elapsed time (total): {:.2f}'.format(fps.elapsed()))
print('[INFO] approx. FPS: {:.2f}'.format(fps.fps()))

嗯，我只是收集batch_size框架并喂养它们：

batch_size = 5
while video_stream.isActive():
  image_np_list = []
  for _ in range(batch_size):
      image_np_list.append(video_stream.read())
      fps.update()
  # Expand dimensions since the model expects images to have shape: [1, None, None, 3]
  image_np_expanded = np.asarray(image_np_list)
  # Actual detection.
  (boxes, scores, classes, num) = sess.run(
      [detection_boxes, detection_scores, detection_classes, num_detections],
      feed_dict={image_tensor: image_np_expanded})

  # Visualization of the results of a detection.
  for i in range(batch_size):
      vis_util.visualize_boxes_and_labels_on_image_array(
          image_np_expanded[i],
          boxes[i],
          classes[i].astype(np.int32),
          scores[i],
          category_index,
          use_normalized_coordinates=True,
          line_thickness=bbox_thickness)
          if visualize:
              cv2.imshow('object_detection', image_np_expanded[i])
              # Exit Option
              if cv2.waitKey(1) & 0xFF == ord('q'):
                  break

当然，如果您正在读取检测结果，则必须在此之后进行相关更改，因为它们现在将具有batch_size rows.

但要小心：在tensorflow 1.4之前（我认为），对象检测API仅支持批量大小为 1 https://github.com/tensorflow/models/issues/1816 in image_tensor，所以除非你升级你的张量流，否则这将不起作用。

另请注意，您生成的 FPS 将是平均值，但同一批次中的帧实际上比不同批次之间的时间更接近（因为您仍然需要等待sess.run()完成）。尽管两个连续帧之间的最大时间应该增加，但平均值仍应明显优于当前的 FPS。

如果您希望帧之间的间隔大致相同，我想您将需要更复杂的工具，例如多线程和队列：一个线程将从流中读取图像并将其存储在队列中，另一个线程将需要他们从队列中出来并打电话sess.run()异步处理它们；它还可以告诉第一个线程根据其自身的计算能力加快或减慢速度。这实施起来比较棘手。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在运行 Tensorflow 推理会话之前批处理多个视频帧的相关文章

屏幕截图中低分辨率文本的 OCR

我正在编写一个 OCR 应用程序来从屏幕截图图像中读取字符目前我只关注数字我的方法部分基于这篇博文 http blog damiles com 2008 11 basic ocr in opencv http blog damiles
opencv 视频上的颜色阈值

I am thresholding for a color range in an opencv video The goal is to seperate the B mode black and white information on
收据褪色部分可以恢复吗？

我有一些包含一些扫描收据的文件我需要使用 OCR 从中提取文本由于收据上打印的文字在一段时间后会褪色导致收据上的某些文字不清晰影响OCR结果褪色单词的一些示例有什么方法可以恢复褪色的部分以便提高 OCR 结果吗我在OpenC
如何解决 Python 'Pyzbar' 库的导入错误？

我刚刚开始熟悉 Pyzbar 库但是当使用decode方法我得到一个错误这是代码 import cv2 import numpy as np import pyzbar code image cv2 imread C Users Ace
CvMat 和 Imread 与 IpImage 和 CvLoadImage

使用 OpenCv 2 4 我有两个选项来加载图像 1 CvMat and Imread 2 IpImage and CvLoadImage 使用哪一个更好我尝试将两者混合并最终出现段错误 imread返回一个Mat not CvMat
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
查找彼此接近的对象边界

我正在研究一个计算机视觉问题其中问题的第一步是找到物体彼此靠近的位置例如在下图中我感兴趣的是找到灰色标记的区域 Input Output 我目前的方法是首先反转图像然后通过侵蚀进行形态梯度跟随然后删除一些不感兴趣的轮廓脚本如下
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
Keras 中的 Tensorflow 自定义损失函数 - 张量循环

我正在尝试在 Keras 中编写自定义损失函数如下所示 Keras 中的自定义损失函数 https stackoverflow com questions 43818584 custom loss function in keras 我的
应定义密集层输入的最后一个维度。没有找到。收到完整的输入形状：<未知>

我在将模型从一些本地虚拟数据切换到使用 TF 数据集时遇到问题抱歉模型代码太长我已尝试尽可能缩短它以下工作正常 import tensorflow as tf import tensorflow recommenders as tfr
相机标定（OpenCV 2.3）-如何使用畸变参数？

我有一组带有一些附加标记的刚体图像我在这些标记之一中定义了一个原点坐标系我想获得该坐标系与在相机原点定义的坐标系之间的旋转和平移我尝试了一段时间 POSIT 以下this http goo gl cUYYt 但从未获得可接受的结果直
Opencv matchTemplate 和 np.where()：仅保留唯一值

继带有马里奥硬币的 opencv 教程 https opencv python tutroals readthedocs io en latest py tutorials py imgproc py template matching p
如何在给定目标大小的情况下在 python 中调整图像大小，同时保留纵横比？

首先我觉得这是一个愚蠢的问题对此感到抱歉目前我发现计算最佳缩放因子目标像素数的最佳宽度和高度同时保留纵横比的最准确方法是迭代并选择最佳缩放因子但是必须有更好的方法来做到这一点一个例子 import cv2 numpy as
如何在 Windows 上的 Python 2.7 上安装 Tensorflow？

我尝试通过 pip 安装 TensorFlow pip install tensorflow 但是得到这个错误找不到满足tensorflow要求的版本来自版本这个问题有解决办法吗我还是想通过pip安装如果您只因为 Keras 而需
如何删除树莓派的相机预览

我在我的 raspberryPi 上安装了 SimpleCv 并安装了用于使用相机板的驱动程序 uv4l 驱动程序现在我想使用它当我在 simpleCV shell Camera 0 getImage save foo jpg 上键入时
OpenCV的拼接模块可以拼接平行运动相机拍摄的图像吗？

我想知道是否缝合 http docs opencv org modules stitching doc stitching html http docs opencv org modules stitching doc stitching
Keras 序列模型中的数据增强层

我正在尝试将数据增强作为一个层添加到模型中但我遇到了我认为是形状问题我也尝试在增强层中指定输入形状当我取出data augmentation模型中的图层运行良好 preprocessing RandomFlip horizontal
Python中最相似的人脸识别

如何使用Python和OpenCV来查找面部相似我已成功使用 OpenCV 和 Python 使用 Haar Cascades 从多张照片中提取人脸我现在有一个图像目录所有这些都是不同人的面孔我想做的是拍摄一张样本图像然后看看它最
使用 TensorFlow 2.1 的 Cloud TPU v3 Pod 的 TPUClusterResolver 出现错误

我正在尝试在带有 TensorFlow 2 1 的 Google Cloud Compute Engine VM 上使用我的抢占式 Cloud TPU v3 256 但它似乎无法正常工作TPUClusterResolver抛出一个Coul

随机推荐

Angular js - 幻灯片视图但不是主页 - ng-animate

我在用着ng动画滑动应用程序视图因此每个路线都会滑动自己的视图这是我的简单代码 html div class slide div css Animations slide left 0 slide ng enter transition
在 JavaScript 中从 Base64 字符串创建 BLOB

我在字符串中有 Base64 编码的二进制数据 const contentType image png const b64Data iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQV
从 webview 获取用户触摸的元素

大家好我正在尝试获取用户在 web 视图中触摸的 html 元素例如该场景是用户触摸 Web 视图中的某种按钮应用程序显示该按钮的 html 代码如下所示 a href index html a 我已经能够获取用户正在浏览的 ht
为什么我在显式调用构造函数时无法引用实例方法？

有谁知道为什么你可以参考static构造函数第一行中的方法使用this or super 但不是非静态方法考虑以下工作 public class TestWorking private A a null public TestWorkin
将 UTF-8 编码的转储加载到 MySQL 中

昨天我为这个问题苦苦思索了几个小时我在 MySQL 4 1 22 服务器上有一个数据库编码设置为 UTF 8 Unicode utf8 如 phpMyAdmin 报告该数据库中的表的默认字符集设置为latin2 但是使用它的 Web
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
如何对计算值进行排序？

我目前正在建立一个 NFL 选秀联盟网站我有一个用户模型一个游戏模型和一个连接表用于捕获每个用户的个人选择游戏模型具有结果属性其中 W 表示获胜 L 表示失败 P 表示推动平局我在构建排名页面时遇到问题目前我的用户模型中
将 cURL json 数组响应转换为关联数组

我有一个像这样的 cURL 请求 ch curl init data filter year StartTime urlencode eq 2013 and month StartTime urlencode eq 06 curl seto
Jenkins Slack 集成

我想使用 Jenkins 中的 Slack 插件将通知发送到 Slack 通道当我测试连接时 Jenkins 表示成功但我在 Slack 频道中没有收到任何通知是否存在任何已知问题如何让 Jenkins 向 Slack 发送通知我
操作栏图标大小

根据操作栏图标 https developer android com guide practices ui guidelines icon design action bar html size11mdpi 屏幕的操作栏图标应为 24 x
如何使用 Slick 3.0 编写可读的嵌套连接查询

此代码创建一个查询用于在 Web 后端检索用户的个人资料它创建一个查询将必要的信息组装到 DTO 这只是一个案例类中随后以 JSON 形式发回 def getProfile userId Long val q for u p a
从 powershell 脚本调用可执行文件（带参数）

我正在从 powershell 调用 zip 实用程序但很难直接获取其参数这是代码 if not test path C Program Files x86 7 Zip 7z exe throw C Program Files x86
创建嵌套 ul li 的 PHP 函数？

我正在尝试将一个小型 CMS 附加到我正在创建的网站不过我遇到了一个小问题 CMS 使用 PHP 函数插入菜单这些 PHP 函数创建 HTML 我希望使用的特定函数 treemenu 创建一个嵌套的 ul li 然后可将其用于下拉菜单
如何更改此 html 用户表单上的日期格式

我有将数据输入 mysql DB 的 html 表单但在日期的输入字段中它具有以下格式 mm dd yyyy 但我更喜欢在输入日期时使用这种格式 dd mm yyyy 任何机构都可以帮助更改格式吗这里是 HTML 表单 p Admiti
IDispatchEx 存在于哪里？

找不到包含 IDispatchEx 接口的库我想实现这个接口但是找不到有谁知道它在哪里吗谢谢保罗如果您想编写一个实现的托管类IDispatchEx http msdn microsoft com en us library sk
带有 Kafka 消费者的 Spring Boot 作业调度程序

我正在开发一个 POC 我想使用来自 Kafka 主题用户的消息尝试实现消费者应该从 Kafka 主题读取消息一旦 spring boot 调度程序在预定时间或 cron 时间触发那么我们应该开始从 kafka 主题中一一消费现有
如何更改 richfaces 组合框提出的建议？

我目前正在玩 richfaces 组合框你可以检查是我想知道是否有办法改变在组合框中提出建议的方式而不是仅建议以同一字母开头的单词而是建议具有以该字母或字母组合开头的其他单词的单词这是演示中的示例从当前的组合框中如果我输入 M
WKWebView 评估 Javascript 而不重新加载页面

目前我只能通过将 javascript 添加到 webview 的配置的 userContentController 并重新加载页面来弄清楚如何评估 javascript 如下所示 WKUserScript script WKUserScr
如果
中的操作字段有参数会发生什么？

如果我在 HTML 中执行以下操作是否会出现一个得到良好支持的常见行为
如何在运行 Tensorflow 推理会话之前批处理多个视频帧

我做了一个项目基本上使用谷歌对象检测 API 和张量流我所做的就是使用预先训练的模型进行推理这意味着实时对象检测其中输入是网络摄像头的视频流或使用 OpenCV 的类似内容现在我得到了相当不错的性能结果但我想进一步提高 FPS

如何在运行 Tensorflow 推理会话之前批处理多个视频帧

如何在运行 Tensorflow 推理会话之前批处理多个视频帧 的相关文章

随机推荐

热门标签

如何在运行 Tensorflow 推理会话之前批处理多个视频帧的相关文章