yolo 推理 nms

2023-11-10

测试代码

另外一个说明cv2绘制不了中文，但可以用其他包实现。

from pathlib import Path

import cv2
import torch

from models.common import DetectMultiBackend
from utils.dataloaders import LoadImages
from utils.general import Profile, increment_path, non_max_suppression, scale_boxes
from utils.plots import Annotator
from utils.torch_utils import select_device

device = 'cpu'
weights = 'D:\PycharmProjects\swallow\wights\yolov5s.pt'
device = select_device(device)
dnn = False
half = False
data = 'D:\PycharmProjects\swallow\config\coco128.yaml'

model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data, fp16=half)

source = 'D:\PycharmProjects\swallow\data\images'
imgsz = (640, 640)
stride = 32
pt = True
vid_stride = 1
bs = 1  # batch_size
conf_thres = 0.25  # confidence threshold
iou_thres = 0.45  # NMS IOU threshold
classes = [0, 1, 2, 3, 4]
agnostic_nms = False
max_det = 1000
dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt, vid_stride=vid_stride)
model.warmup(imgsz=(1 if pt or model.triton else bs, 3, *imgsz))  # warmup
seen, windows, dt = 0, [], (Profile(), Profile(), Profile())
for i, (path, im, im0s, vid_cap, s) in enumerate(dataset):
    with dt[0]:
        im = torch.from_numpy(im).to(model.device)
        im = im.half() if model.fp16 else im.float()  # uint8 to fp16/32
        im /= 255  # 0 - 255 to 0.0 - 1.0
        if len(im.shape) == 3:
            im = im[None]  # expand for batch dim
    with dt[1]:
        pred = model(im, augment=True, visualize=False)
        # NMS
    with dt[2]:
        pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)
    print(f'预测数据：{pred}')
    for i, det in enumerate(pred):  # per image
        p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)
        p = Path(p)  # to Path
        det[:, :4] = scale_boxes(im.shape[2:], det[:, :4], im0.shape).round()
        for d in det:
            cv2.rectangle(im0, (int(d[0]), int(d[1])), (int(d[2]), int(d[3])), (0, 0, 255), 2)
    cv2.imshow('name', im0)
    cv2.waitKey(0)

DetectMultiBackend：

支持各种模型推理：

# Usage:
#   PyTorch:              weights = *.pt
#   TorchScript:                    *.torchscript
#   ONNX Runtime:                   *.onnx
#   ONNX OpenCV DNN:                *.onnx --dnn
#   OpenVINO:                       *_openvino_model
#   CoreML:                         *.mlmodel
#   TensorRT:                       *.engine
#   TensorFlow SavedModel:          *_saved_model
#   TensorFlow GraphDef:            *.pb
#   TensorFlow Lite:                *.tflite
#   TensorFlow Edge TPU:            *_edgetpu.tflite
#   PaddlePaddle:                   *_paddle_model

1.首先根据文件后缀判断文件类型。

pt, jit, onnx, xml, engine, coreml, saved_model, pb, tflite, edgetpu, tfjs, paddle, triton = self._model_type(w)

2：初始化模型

        elif jit:  # TorchScript
            LOGGER.info(f'Loading {w} for TorchScript inference...')
            extra_files = {'config.txt': ''}  # model metadata
            model = torch.jit.load(w, _extra_files=extra_files, map_location=device)
            model.half() if fp16 else model.float()
            if extra_files['config.txt']:  # load metadata dict
                d = json.loads(extra_files['config.txt'],
                               object_hook=lambda d: {int(k) if k.isdigit() else k: v
                                                      for k, v in d.items()})
                stride, names = int(d['stride']), d['names']

3：forward调用模型

        elif self.jit:  # TorchScript
            y = self.model(im)

结合export.py 工具，可以导出不同的模型，运行不同形式的模型。

Detect:

训练时候的损失函数：

https://mp.csdn.net/mp_blog/creation/editor/128985650

                pxy = pxy.sigmoid() * 2 - 0.5
                pwh = (pwh.sigmoid() * 2) ** 2 * anchors[i]

推理还原代码：

self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

xy, wh, conf = x[i].sigmoid().split((2, 2, self.nc + 1), 4)
xy = (xy * 2 + self.grid[i]) * self.stride[i]  # xy
wh = (wh * 2) ** 2 * self.anchor_grid[i]  # wh
y = torch.cat((xy, wh, conf), 4)

解释：

yolo模型是基于特征金字塔。比如原始图片大小(640, 480)，那么他会按步长(8, 16, 32)下降得到新的三张特征图[(80, 60), *(40, 30), ,]。那么还原回去是不是也应该乘以步长，其实从损失函数可以看出，模型预测的只是一个偏移。所以还原回去，按照原定方式还原就行了。

模型输出：

z.append(y.view(bs, self.na * nx * ny, self.no))

本来应该是(1, 3, 80, 60, 85) 含义是：有一张图片，把它分成 (80, 60)的网格，每个网格有3个先验框。每个先验框预测 box(x, y, w ,h) 4 + 置信度 (1)+ 类别热编码(80)。

推理的时候我们只关心，预测的物体。所以view了一下。含义为：预测了几张图片，总共预测了多少物体（其中大部分是背景，因为存在3张特征图，预测量是非常恐怖的）

nms:

1: 根据置信度，过滤大量的背景或者不符合的预测值

xc = prediction[..., 4] > conf_thres  # candidates

    for xi, x in enumerate(prediction):  # image index, image inference
        x = x[xc[xi]]  # confidence

2:box坐标转换

box = xywh2xyxy(x[:, :4])

3: 计算得分，得到预测类别最高得分，过滤掉不符合的类别

类别的得分，是置信度 * 类别概率的综合分数。但是判别标准还是置信度阈值。

 x[:, 5:] *= x[:, 4:5]  # conf = obj_conf * cls_conf

 conf, j = x[:, 5:mi].max(1, keepdim=True)
 x = torch.cat((box, conf, j.float(), mask), 1)[conf.view(-1) > conf_thres]

4：根据置信度排序

x = x[x[:, 4].argsort(descending=True)]  # sort by confidence

5：计算nms

boxes, scores = x[:, :4] + c, x[:, 4]  # boxes (offset by class), scores
        i = torchvision.ops.nms(boxes, scores, iou_thres)  # NMS

参考资料

NMS(非极大值抑制)_zouxiaolv的博客-CSDN博客_非极大值抑制

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

yolo 推理 nms 的相关文章

告诉我怎么解决这个问题：输入：sudo ./yolov5 -s ../last.wts ../best.engine s 报错：sudo: ./yolov5：找不到命令...

这个问题的原因可能是你没有安装 yolov5 或者是你没有指定正确的安装路径要解决这个问题你需要检查 yolov5 是否已经正确安装并确保你在执行命令时使用了正确的路径如果 yolov5 还没有安装你需要按照 yolov5 的安装
YOLOv5 Focus C3 各模块详解及代码实现

目录 yolov5s yaml yolov5s yaml基本参数含义一些基本参数 BackBone Head Focus 一 Focus模块的作用 Focus的参数量 Yolov3和Yolov5的改进对比关于Focus的补充网络结构图
【目标检测】yolov5模型详解

文章目录一 Yolov5网络结构 1 1 Input 1 2 Backbone 1 2 1 Conv模块 1 2 2 C3模块 1 2 3 SPPF模块 1 3 Neck 1 4 Head 1 4 1 head 1 4 2 目标框回归 1
yolov8使用C++推理的流程及注意事项

1 下载yolov8项目源码GitHub ultralytics ultralytics NEW YOLOv8 in PyTorch gt ONNX gt OpenVINO gt CoreML gt TFLite 2 下载opencvRel
Cannot load file containing pickled data when allow_pickle=False

ValueError Cannot load file containing pickled data when allow pickle False 错误位置 utils dataloaders py 把 def load image s
利用Albumentations工具包进行图像的数据增强（以yolo数据标注格式为例）

最近在看数据增强方法时看到了这个有趣的工具包研究了下并以yolo数据标注格式为例写了一个示例脚本该工具最大的好处是会根据你使用的数据增强方法自动修改标注框信息 import albumentations as A import cv2
YOLOv8+BoT-SORT多目标跟踪(行人车辆计数与越界识别)

课程链接 https edu csdn net course detail 38919 BoT SORT是发表于2022年的先进的多目标跟踪算法它结合了运动和外观信息相机运动补偿和更准确的卡尔曼滤波状态向量并把这些改进集成到ByteT
Yolo v7的最简TensorFlow实现

Yolo v7去年推出之后取得了很好的性能作者也公布了基于Pytorch实现的源代码在我之前的几篇博客当中对代码进行了深入的解析了解了Yolo v7的技术细节和实现机制因为我一直是用的Tensorflow 因此也想尝试把代码移植
[YOLO专题-27]：YOLO V5 小目标检测遇到的问题与常见解决办法

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 YOLO专题 27 YOLO V5 小目标检测遇到的问题与常见解决办法文火冰糖王文兵的博客 CSDN博客目录第1章前言第2章
YOLO3 -- 介绍

YOLO介绍 YOLO官网 YOLO You Only Look Once 是目标检测模型目标检测是计算机视觉中比较简单的任务用来在一张图片中找到某些特定的物体目标检测不仅要求我们识别这些物体的种类同时要求我们标出这些物体的位置 Y
机器学习课程总结3--基本卷积神经网络+评价指标+目标检测与Yolo网络

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录一基本卷积神经网络 1 AlexNet 2 VGG 16 3 残差网络二常用数据集与评价指标 1 数据集 2 评价指标三目标检测 YOLO 1 1 目标检测问
目标检测YOLO实战应用案例100讲-自动驾驶复杂场景下目标检测（续）

目录 3 2 YOLOv5框架的分析 3 3改进算法的基本思想 3 4改进聚类算法 3 5重构损失函数模型和NMS算法 lt
ASF-YOLO:一种基于注意尺度序列融合的细胞实例分割YOLO模型

摘要我们提出了一种基于注意力尺度序列融合的You Only Look Once YOLO 框架 ASF YOLO 该框架结合了空间和尺度特征用于准确快速的细胞实例分割在YOLO分割框架的基础上我们采用尺度序列特征融合 SSFF 模块
yolo网络整理-网络结构原理与anchor

YOLOv5 是Glenn Jocher等人操刀研发 Ultralytics公司的开源项目项目地址可点击 2020年6月发布以来 Ultralytics公司一直在对项目进行维护与更新目前repo的star数目突破44k YOLOv5的功
yolov5障碍物识别-雪糕筒识别（代码+教程）

简介这是一个检测交通锥并识别颜色的项目我使用 yolov5 来训练和检测视锥细胞此外我使用 k 均值来确定主色以对锥体颜色进行分类目前支持的颜色为红色黄色绿色和蓝色其他颜色被归类为未知数据集和注释我使用了一个自收集的
如何在 flutter 应用程序中集成 yolo-v3 自定义对象检测器？

我开发了 flutter 应用程序并yolov3自定义对象检测器两个模块都是独立的现在我想将这些模块合并到一个项目中但无法弄清楚如何在我的 flutter 应用程序中使用自定义对象检测器的训练权重有人可以帮我完成这个集成吗不知道是
将冻结模型“.pb”文件转换为“.tflite”文件所需的参数 input_arrays 和 output_arrays 是什么？

我需要转换我的 pb张量流模型和我的 cpkt文件到一个tflite模型以使其在移动设备中工作有没有什么直接的方法可以找出如何找到我应该用于 input arrays 和 output arrays 的参数 import tensorfl
为什么ssd和yolo没有roi池化层？

我们知道目标检测框架像faster rcnn and mask rcnn has an roi pooling layer or roi align layer 但是为什么ssd和yolo框架没有这样的层呢首先我们要明白这样做的目的是什么
执行多尺度训练（yolov2）

我想知道多尺度训练如何YOLOv2 https arxiv org pdf 1612 08242 pdf works 论文中指出原始YOLO使用的输入分辨率为448 448 通过添加锚框我们将分辨率更改为416 416 然而由于我们的
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri

随机推荐

多维时序

多维时序 MATLAB实现CNN BiLSTM Attention多变量时间序列预测目录多维时序 MATLAB实现CNN BiLSTM Attention多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料预测效果基
Python图像相似度2种方法和嵌入空间度量学习

图像相似度方法 1 在本文中我们将介绍如何使用图像相似性量度库来比较图像根据库的文档我们可以使用八种不同的评估指标来计算图像之间的相似度幸运的是所有可怕的数学运算已为我们实现我们可以立即开始测量图像相似度我们只需要调用所选评
Lightroom无法在卷计算机上,lightroom无法正常启动怎么办？解决lightroom无法启动方法...

lightroom在图片的后期处理中占有相当重要的地位很多用户反映他们的lightroom打不开了有的是安装完成就无法使用有一部分是之前能使用突然打不开这其中又分为有警告框和无警告框影响了工作进度想了很多办法都未能解决那么li
编译SSH代码时，报错configure:error:*** working libcrypto not found,check config.log的原因分析及解决方案

在将ssh移植到龙芯1B核心板的过程中当编译openssh 8 0p1工具时出现了 configure error working libcrypto not found check config log 的报错根据提示在opens
目前为止最全的微信小程序项目实例

wx gesture lock 微信小程序的手势密码 WXCustomSwitch 微信小程序自定义 Switch 组件模板 WeixinAppBdNovel 微信小程序demo 百度小说搜索 shitoujiandaobu 小程序石头剪
BeanUtils.copyProperties，忽略目标对象中不为空的字段

方法 copyProperties Object source Object target String ignoreProperties 要求复制对象时目标对象中不为空的数据使用 BeanUtils copyProperties s
jsp页面中JSTL/EL标签引用java后台静态static字段的方法总结

为什么使用该功能项目中的每个页面都包含产品名称 Logo 版本等信息我希望修改一处其它所有的全部跟着变有同学会说那就都引用一个页面就Ok了但是我希望这些信息都是可以通过后台代码修改的修改后保存到数据库和一个静态类中其实后台直
[499]openstack swift 的UI客户端

了解一下cloudyberry提供的openstack swift客户端分为收费版和免费版主要试用了一下免费版做的还是蛮精致的很大程度上方便了我们上传下载浏览swift上的文件非常好用在这里推荐一下 cloudyberry下
华为OD机试 - 斗地主之顺子（Java）

题目描述在斗地主扑克牌游戏中扑克牌由小到大的顺序为 3 4 5 6 7 8 9 10 J Q K A 2 玩家可以出的扑克牌阵型有单张对子顺子飞机炸弹等其中顺子的出牌规则为由至少5张由小到大连续递增的扑克牌组成且不能包含
每日一道面试题之介绍一下4+1视图模型！

4 1视图模型是一种用于软件系统设计和开发的模型它由4个逻辑视图和一个场景视图组成每个视图都关注系统的不同方面为的就是尽可能实现一个全面的系统设计逻辑视图描述了软件系统的功能和业务逻辑它包括了系统的结构和组件之间的关系以及它们
二叉树的中序遍历(C语言)

我们从两个方向讲解二叉树的中序遍历递归迭代一递归思想从根节点开始向其的左孩子遍历一直访问每个节点的左孩子当其走到NULL时返回返回时记录每个节点的数值然后访问该节点的右孩子如果为NULL直接返回上一层如果不为NULL
Twins: Revisiting the Design of Spatial Attention inVision Transformers解读

文章 https arxiv org abs 2104 13840 代码 GitHub Meituan AutoML Twins Two simple and effective designs of vision transformer
Protobuf Java （2）

接上一篇文章 Protobuf Java 1 接下来写一个demo 使用protobuf 读写消息目录 1 写消息 2 读一个消息 3 扩展Protocol Buffer 1 写消息现在让我们尝试使用协议缓冲区类您希望地址簿应用程序能
CentOS7主机名的查看和修改

CentOS7主机名的查看和修改在CentOS7中有三种定义的主机名静态的 Static hostname 静态主机名也称为内核主机名是系统在启动时从 etc hostname自动初始化的主机名瞬态的 Tansient host
Ping 命令

PING Packet Internet Groper 因特网包探索器 Ping命令是Windows系列自带的一个可执行命令利用它可以检查网络是否能够连通并且能够帮助我们分析判定网络故障 ping的发送和接收同一个子网中的源主机对目的
html ui组件,UI组件

Bootstrap 天然响应式 12分栏 cnpm install bootstrap 安装相关包在index html中引入文件后才可以用如下 ElementUI 24分栏 elementUI使用安装 element ui cnpm
Django 启动报错 mysqlclient 1.4.0 or newer is required； you have 0.9.3

报错原因 MySQLclient 目前只支持到 Python3 4 这里使用了更高版本的 python 那么需要我们在Django 配置文件目录下也就是setting py 同级目录下配置指定版本的mysqlclient pymysq
Flowable工作流引擎的使用2(BPMN结构及节点介绍)

Flowable工作流引擎的使用 2BPMN结构介绍上一篇讲到了flowable如何使用用了一个简单的demo 演示了一下流程的创建发起审核查询等功能内容不多但是引申出很多的概念 BPMN deployId processId
数据分析笔记—数据仓库篇

数据仓库数据仓库 Data Warehouse 可简写为DW或DWH 数仓等它仅适用于查询和分析通常涉及大量的历史数据数据仓库中的数据一般来自应用日志文件数据埋点和事务应用实际发生的业务记录的数据等广泛来源一个数据仓库通常
yolo 推理 nms

测试代码另外一个说明cv2绘制不了中文但可以用其他包实现 from pathlib import Path import cv2 import torch from models common import DetectMultiBac