【YOLOv3 decode】YOLOv3中解码理解decode_box

2023-05-16

文章目录

1 解码是什么意思
2 代码解读
3 生成网格中心代码详解
4 按照网格格式生成先验框的宽高代码详解
5 感谢链接

1 解码是什么意思

在利用YOLOv3网络结构提取到out0、out1、out2之后，不同尺度下每个网格点上均有先验框，网络训练过程会对先验框的参数进行调整，继而得到预测框，从不同尺度下预测框还原到原图输入图像上，同时包括该框内目标预测的结果情况(预测框位置、类别概率、置信度分数)，这个过程称之为解码。

2 代码解读

注释主要以VOC数据集，YOLOv3 net最后一层输出进行解读。

import torch
import numpy as np

class DecodeBox():
    def __init__(self, anchors, num_classes, input_shape, anchors_mask = [[6,7,8], [3,4,5], [0,1,2]]):
        super(DecodeBox, self).__init__()
        self.anchors        = anchors
        self.num_classes    = num_classes       # int   20
        self.bbox_attrs     = 5 + num_classes   # int   25
        self.input_shape    = input_shape       # (416, 416) 元组
        #-----------------------------------------------------------#
        #   13x13的特征层对应的anchor是[116,90],[156,198],[373,326]
        #   26x26的特征层对应的anchor是[30,61],[62,45],[59,119]
        #   52x52的特征层对应的anchor是[10,13],[16,30],[33,23]
        #-----------------------------------------------------------#
        self.anchors_mask   = anchors_mask

    # ----------------------------------------------#
    #   得到out0、out1、out2不同尺度下每个网格点上的的预测情况(预测框位置、类别概率、置信度分数)
    # ----------------------------------------------#
    def decode_box(self, inputs):   # input一共有三组数据，out0，out1，out2
        outputs = []
        for i, input in enumerate(inputs):      # 一次只能对一个特征层的输出进行解码操作
            # -----------------------------------------------#
            #   输入的input一共有三个，他们的shape分别是    针对voc数据集
            #   batch_size, 75, 13, 13          batch_size, channels, weight, height
            #   batch_size, 75, 26, 26
            #   batch_size, 75, 52, 52
            # -----------------------------------------------#
            batch_size      = input.size(0)
            input_height    = input.size(2)
            input_width     = input.size(3)

            # -----------------------------------------------#
            #   输入为416x416时
            #   stride_h = stride_w = 32、16、8
            #   一个特征点对应原来图上多少个像素点
            # -----------------------------------------------#
            stride_h = self.input_shape[0] / input_height       # 输出特征图和resize之后的原图上对应步长，映射回去的操作
            stride_w = self.input_shape[1] / input_width
            #-------------------------------------------------#
            #   把先验框的尺寸调整成特征层的大小形式，用来对应两者宽和高
            #   此时获得的scaled_anchors大小是相对于特征层的，anchors是大数据kmeans聚类经验所得
            #   out0越小，stride越大，用来检测大目标
            #-------------------------------------------------#
            scaled_anchors = [(anchor_width / stride_w, anchor_height / stride_h) for anchor_width, anchor_height in self.anchors[self.anchors_mask[i]]]

            #-----------------------------------------------#
            #   输入的input一共有三个，他们的shape分别是
            #   batch_size, 3, 13, 13, 25
            #   batch_size, 3, 26, 26, 25
            #   batch_size, 3, 52, 52, 25
            #   batch_size,3*(5+num_classes),13,13 -> batch_size,3,5+num_classes,13,13 -> batch_size, 3, 13, 13, 25
            #   此处参考链接：https://blog.csdn.net/weixin_45377629/article/details/124028098
            #-----------------------------------------------#
            prediction = input.view(batch_size, len(self.anchors_mask[i]),
                                    self.bbox_attrs, input_height, input_width).permute(0, 1, 3, 4, 2).contiguous()

            #-----------------------------------------------#
            #   先验框的中心位置的调整参数
            #   x shape: torch.size([batch_size,3,13,13])
            #   y shape: torch.size([batch_size,3,13,13]) 
            #-----------------------------------------------#
            x = torch.sigmoid(prediction[..., 0])  # sigmoid可以把输出值固定到0~1之间
            y = torch.sigmoid(prediction[..., 1])   # 先验框中心点的调整只能在其右下角的网格里面
            #-----------------------------------------------#
            #   先验框的宽高调整参数
            #-----------------------------------------------#
            w = prediction[..., 2]
            h = prediction[..., 3]
            #-----------------------------------------------#
            #   获得置信度，是否有物体，有物体的概率是多少
            #-----------------------------------------------#
            conf        = torch.sigmoid(prediction[..., 4])
            #-----------------------------------------------#
            #   种类置信度，属于某类别的概率是多少
            #-----------------------------------------------#
            pred_cls    = torch.sigmoid(prediction[..., 5:])

            FloatTensor = torch.cuda.FloatTensor if x.is_cuda else torch.FloatTensor
            LongTensor  = torch.cuda.LongTensor if x.is_cuda else torch.LongTensor

            #----------------------------------------------------------#
            #   生成网格，先验框中心=网格左上角
            #   grid_x shape：torch.size([batch_size,3,13,13])
            #   grid_y shape：torch.size([batch_size,3,13,13])
            #   关于该行代码解读，详细参考本文第3节
            #----------------------------------------------------------#
            grid_x = torch.linspace(0, input_width - 1, input_width).repeat(input_height, 1).repeat(
                batch_size * len(self.anchors_mask[i]), 1, 1).view(x.shape).type(FloatTensor)
            grid_y = torch.linspace(0, input_height - 1, input_height).repeat(input_width, 1).t().repeat(
                batch_size * len(self.anchors_mask[i]), 1, 1).view(y.shape).type(FloatTensor)

            #----------------------------------------------------------#
            #   按照网格格式生成先验框的宽高
            #   batch_size,3,13,13
            #   关于该行代码解读，详细参考本文第4节
            #----------------------------------------------------------#
            anchor_w = FloatTensor(scaled_anchors).index_select(1, LongTensor([0]))
            anchor_h = FloatTensor(scaled_anchors).index_select(1, LongTensor([1]))
            anchor_w = anchor_w.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(w.shape)
            anchor_h = anchor_h.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(h.shape)

            #----------------------------------------------------------#
            #   利用预测结果对先验框进行调整
            #   首先调整先验框的中心，从先验框中心向右下角偏移
            #   再调整先验框的宽高。
            #----------------------------------------------------------#
            pred_boxes          = FloatTensor(prediction[..., :4].shape)
            pred_boxes[..., 0]  = x.data + grid_x
            pred_boxes[..., 1]  = y.data + grid_y
            pred_boxes[..., 2]  = torch.exp(w.data) * anchor_w
            pred_boxes[..., 3]  = torch.exp(h.data) * anchor_h

            #----------------------------------------------------------#
            #   将输出结果归一化成小数的形式
            #----------------------------------------------------------#
            _scale = torch.Tensor([input_width, input_height, input_width, input_height]).type(FloatTensor)
            output = torch.cat((pred_boxes.view(batch_size, -1, 4) / _scale,
                                conf.view(batch_size, -1, 1), pred_cls.view(batch_size, -1, self.num_classes)), -1)
            outputs.append(output.data)
        return outputs      # 得到out0、out1、out2不同尺度下每个网格点上的的预测情况(预测框位置、类别概率、置信度分数)

if __name__ == '__main__':
    anchors = [10.0, 13.0, 16.0, 30.0, 33.0, 23.0, 30.0, 61.0, 62.0, 45.0, 59.0, 119.0, 116.0, 90.0, 156.0, 198.0, 373.0, 326.0]
    # anchors: ndarray：(9, 2)
    anchors = np.array(anchors).reshape(-1,2)
    num_classes = 20    # voc类别个数
    anchors_mask = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]
    input_shape = [416,416]
    bbox_util = DecodeBox(anchors, num_classes, (input_shape[0], input_shape[1]), anchors_mask)

    # ---------------------------------------------------------#
    #   将图像输入网络当中进行预测！
    # ---------------------------------------------------------#
    net = YoloBody(anchors_mask, num_classes)       # 此地YoloBody可见https://www.jianshu.com/p/27f3b967646c
    outputs = net(images)                           # 此地images表示输入图片，outputs为三个输出out0, out1, out2
    outputs = bbox_util.decode_box(outputs)         # 得到out0、out1、out2不同尺度下每个网格点上的预测情况(预测框位置、类别概率、置信度分数)

3 生成网格中心代码详解

先验框中心=网格左上角，下面这行代码到底如何理解呢？

grid_x = torch.linspace(0, input_width - 1, input_width).repeat(input_height, 1).repeat(
                batch_size * len(self.anchors_mask[i]), 1, 1).view(x.shape).type(FloatTensor)

以宽为5，高为5， batch_size为1为例，详细解读见下方代码及输出。

import torch

if __name__ == "__main__":
    input_width = 5
    input_height = 5
    batch_size = 1
    anchors_mask = [[6,7,8], [3,4,5], [0,1,2]]
    
    a = torch.linspace(0, input_width - 1, input_width)     # torch.linspace左闭右闭
    print(a)    # 输出一个张量列表
    """
    tensor([0., 1., 2., 3., 4.])
    """
    
    b = a.repeat(input_height, 1)
    print(b)
    """
    tensor([[0., 1., 2., 3., 4.],
            [0., 1., 2., 3., 4.],
            [0., 1., 2., 3., 4.],
            [0., 1., 2., 3., 4.],
            [0., 1., 2., 3., 4.]])
    """
    c = b.repeat(batch_size * 3, 1, 1)         # len(anchors_mask[i]) = 3
    print(c)
    """
    tensor([[[0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.]],

        [[0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.]],

        [[0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.],
         [0., 1., 2., 3., 4.]]])
    """
    d = c.view(batch_size, 3, input_height, input_width)         # 对已知的进行reshape
    print(d)
    """
    tensor([[[[0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.]],

         [[0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.]],

         [[0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.],
          [0., 1., 2., 3., 4.]]]])
    """
    e = d.type(FloatTensor)     # 数据类型

4 按照网格格式生成先验框的宽高代码详解

按照网格格式生成先验框的宽高，其代码如下：

#----------------------------------------------------------#
#   按照网格格式生成先验框的宽高
#   batch_size,3,13,13
#----------------------------------------------------------#
anchor_w = FloatTensor(scaled_anchors).index_select(1, LongTensor([0]))
anchor_h = FloatTensor(scaled_anchors).index_select(1, LongTensor([1]))
anchor_w = anchor_w.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(w.shape)
anchor_h = anchor_h.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(h.shape)

对于上面这四行代码，我们以最小特征层为例，详细理解：

import torch

if __name__ == "__main__":
    #-----------------------------------------------------------------------------#
    #   把先验框的尺寸调整成特征层的大小形式，用来对应两者宽和高
    #   此时获得的scaled_anchors大小是相对于特征层的，anchors是大数据kmeans聚类经验所得
    #   out0越小，stride越大，用来检测大目标
    #   此以最小特征层为例，batch_size, 75, 13, 13
    #-----------------------------------------------------------------------------#
    scaled_anchors = [(3.625,2.8125), (4.875,6.1875), (11.65625, 10.1875)]

    x_is_cuda = False   # x.is_cuda = False，表示没用cuda
    FloatTensor = torch.cuda.FloatTensor if x_is_cuda else torch.FloatTensor
    LongTensor  = torch.cuda.LongTensor if x_is_cuda else torch.LongTensor

    # ------------------------------#
    #   解读第 1 行anchor_w
    # ------------------------------#
    a = LongTensor([0])
    print(a)    # tensor([0])

    b = FloatTensor(scaled_anchors)
    print(b)    # 保留的小数点位数变了
    """
    tensor([[ 3.6250,  2.8125],
        [ 4.8750,  6.1875],
        [11.6562, 10.1875]])
    """
    # ----------------------------------------------------------#
    #   tensor.index_select(dim, index)
    #       dim  ：表示要查找的维度，对于二维，0代表行,1代表列
    #       index：表示要索引的序列,是一个tensor对象
    #   a = tensor([0])，表示要索引的为宽
    #   a = tensor([1])，表示要索引的为高
    # ----------------------------------------------------------#
    anchor_w = b.index_select(1, a)
    print(anchor_w)     # anchor_w shape: torch.size([3,1])
    """
    tensor([[ 3.6250],
        [ 4.8750],
        [11.6562]])
    """
    
    # ------------------------------#
    #   解读第 2 行anchor_h
    #       类似上面
    # ------------------------------#
    anchor_h = b.index_select(1, LongTensor([1]))
    """
    tensor([[ 2.8125],
        [ 6.1875],
        [10.1875]])
    """
    
    # ----------------------------------------------------#
    #   解读第 3 行anchor_w
    #       w.shape 和 h.shape: torch.size([1,3,13,13])
    # ----------------------------------------------------#
    batch_size = 1      # 以batch_size=1为例
    input_height = 13   # 最小特征层输出，宽高均为13
    input_width = 13
    
    # ------------------------------------#
    #   tensor.repeat(dim1,dim2,...)
    #   复制多个tensor
    # ------------------------------------#
    c = anchor_w.repeat(batch_size, 1)
    print(c)
    """
    tensor([[ 3.6250],
        [ 4.8750],
        [11.6562]])
    若batch_size = 2, c 的结果：
    tensor([[ 3.6250],
        [ 4.8750],
        [11.6562],
        [ 3.6250],
        [ 4.8750],
        [11.6562]])
    毕竟有几张图片，先验框的宽，参数个数就应该有几倍，每张图片都有
    """
    d = c.repeat(1, 1, input_height * input_width)
    print(d.shape)          # torch.Size([1, 3, 169])
	
	# ---------------------------------------------------#
	#	每个像素点，都有三个先验框，每个先验框，都有宽
	#	有点各用各的，的感觉
	# ---------------------------------------------------#
    anchor_w = d.view(1,3,13,13)
    print(anchor_w.shape)   # torch.Size([1, 3, 13, 13])，先验框的宽就都生成了，高类似

5 感谢链接

https://www.bilibili.com/video/BV1Hp4y1y788?p=6&spm_id_from=pageDriver

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLOv3

Decode

Box

中解码理解

【YOLOv3 decode】YOLOv3中解码理解decode_box 的相关文章

如何在 Flutter 中解码 JSON？

如何在 Flutter 中解码 JSON 问题很简单但答案却不简单至少对我来说是这样我有一个使用大量 JSON 字符串的项目基本上应用程序和服务器之间的整个通信都是通过 JSON 进行的我一直在使用JSON decode jso
Swift - 将字典 [String:Any] 编码和解码到 plist 中

我试图将字典存储在我的 Marker 类中但它抛出一个错误指出它不可编码或可解码我可以看到错误是由 String Any 引起的但我该如何解决它 var buttonActions String String String Any
WebSphere Portal 解码 URL

如何解码 WebSphere Portal url 例如此网址 wps portal ut p c5 dY7LdoIwAAW hS9ICEnEZSBaKBSKkUfZcAKtKRYMKo 2X197XHtnObO4oAQ3TnJulRxbf
UnicodeDecodeError，无效的连续字节

为什么以下项目失败为什么 latin 1 编解码器能够成功 o a test of xe9 char I want this to remain a string as this is what I am receiving v o de
在c#中读取原始图像文件

如何在未安装编解码器的情况下解码打开 CR2 或 NEF 和 ARW 等原始图像文件例如 lightroom 打开原始文件我的代码如下所示 if fe CR2 fe NEF fe ARW BitmapDecoder bmpDec Bi
我正确使用 utf8::is_utf8 吗？

这工作正常吗有些错误消息已经被解码有些需要解码才能得到正确的输出 usr bin env perl use warnings use strict use utf8 use open qw utf8 std use Encode qw
自动解码 TRESTResponse 中的 GZIP？

似乎不可能为 TRESTClient 分配压缩器或拦截如果我将 TRESTRequest AcceptEncoding 设置为 gzip deflate 我会收到来自支持 gzip 的服务器的 gzip 编码响应然而在 TIdHTTP
Tkinter：如何创建选择框

I need to create a choice box where i can click on arrow and it give me list of choices And if i click on one of them it
检查设备是否可以使用 Cordova 解码视频

我在用着VR view https developers google com vr concepts vrview在我的 Ionic Cordova 应用程序中 VR view 的文档指出某些较旧的设备无法解码大于 1080p 1920
wav <> mp3 for flash(as3)

我想知道 MP3 解码编码我希望使用 AS3 在 Flash 中实现这一点我确信这将是一个正确的痛苦我不知道从哪里开始有人可以提供任何指示吗参考资料很久以后非常感谢大家的意见看来我还有很长的路要走理论上您也可以将其作为
如何在android中将字节数组（.h264格式）解码为视频？

在我的应用程序中我必须将字节数组即 h264 格式解码为视频和来自直播的字节数组代码如下 static final int VIDEO BUF SIZE 100000 static final int FRAME INFO SIZE
InputStreamReader缓冲问题

不幸的是我正在从一个具有两种字符编码类型的文件中读取数据有一个标题和一个正文标头始终采用 ASCII 格式并定义正文编码所用的字符集标头不是固定长度必须通过解析器运行以确定其内容长度该文件也可能非常大因此我需要避免将整个内
UnicodeEncodeError：“ascii”编解码器无法对位置 0-5 中的字符进行编码：序号不在范围（128）[重复]

这个问题在这里已经有答案了我只是想解码类似 uXXXX uXXXX uXXXX 的字符串但我收到一个错误 python Python 2 7 6 default Sep 9 2014 15 04 36 GCC 4 2 1 Compati
pythonplotlygraph_objects框标记的属性outliercolor不起作用（可能是错误）

我想我在类plotly graph objects box Marker中发现了一个错误因为属性outliercolor不起作用我按照参考文献https plotly github io plotly py docs generated
Android - 使用 apktool 编辑后运行 APK 文件出现错误：[INSTALL_PARSE_FAILED_NO_CERTIFICATES]

我有一个 APK 文件名 Splash apk 首先我使用 apktool 对其进行解码 apk d Splash apk 然后我编辑清单 XML 最后我将项目导出到 APK 文件名 EditedSpash apk apk b Splash
在 Raspberry Pi 中解码视频而不使用 OpenMAX？

我正在寻找在 Raspberry Pi 上解码视频的示例directly 不使用 OpenMAX 这解释了多媒体软件的不同层还有一个此处未显示的附加层即 MMAL https github com raspberrypi userlan
如何解码包含无效字节的字节对象，Python3

在python2中我可以整天生成以字符串格式表示的这些十六进制字节 x00 xaa xff gt gt gt 00 decode hex aa decode hex ff decode hex gt gt gt x00 xaa xff 同
如何使用 FFmpeg 在 C++ 中将 AVFrame 保存为图像

在我的项目中我想保存 Hevc 文件中的一帧我在源代码中使用 FFmpeg 来解码 Hevc 文件并获取 AVFrame 和 AVCodecContext 我需要的是将框架保存为图片全彩我尝试将其保存为 pgm 文件因此图片只是灰
在 Swift 中解码 JSON 中的 base64_encode 图像

我有一个 mysql 数据库其中包含一些图像我从 php 文件接收数据 php result key image based64 encode resultArray key image 现在有了 Json 文件我得到如下内容 Jso
IllegalArgumentException Base64到图像解码android

我想将 Base64 格式的 Web 服务中的图像解码为位图并在我的 Android 应用程序中使用它这是我的方法 public Bitmap getCaptcha throws IOException List

随机推荐

springIOC使用xml装配JavaBean对象

在一个maven工程下 xff0c 在pom xml中导入spring依赖和相关的配置 lt xml version 61 34 1 0 34 encoding 61 34 UTF 8 34 gt lt project xmlns 61 3
spring整合MyBatis代码

Spring 整合 MyBatis 就是把Spring和MyBatis应用到同一个项目中 xff1b 其中MyBatis提供数据库相关的操作 xff0c 完成对象数据和关系数据的转换 xff1b Spring完成项目的管理 xff0c 通过
Servlet基础知识

web应用程序的组成 xff1a 网页 xff1a 浏览器需要显示的内容 Web浏览器 xff1a 1 向Web服务器发出请求 2 解析网页 xff0c 渲染显示给用户 Web服务器 xff1a 1 提供Web服务 2 存放Web应用程序
兆位和兆字节之间有什么区别？

majcot Shutterstock 马约科特快门 Despite the fact that they re similar words with similar abbreviations megabits Mb and megab
SSM(Spring + SpringMVC + MyBatis)环境搭建

1 导入依赖 lt Spring上下文容器 gt lt dependency gt lt groupId gt org springframework lt groupId gt lt artifactId gt spring contex
系统安全复习

DOS DOS xff1a 拒绝服务攻击 xff0c 向目标主机某端口发送超过处理能力的数据包 xff0c 耗尽目标主机资源 xff0c 使其无定法响应正常的服务请求 xff0c 使目标系统停止响应甚至奔溃 DDOS DDOS xff1a
物联网四层架构

1 感知层 2 网络层 3 应用层 4 公共技术
VS2019 出现“fopen‘: This function or variable may be unsafe. Consider using fopen_s instead”错误

在项目 gt 属性 gt 预处理器增加语句 CRT SECURE NO WARNINGS 若仍报错 xff0c 在程序开头增加语句 define CRT SECURE NO WARNINGS
重置网络后，网络适配器出现黄色标号，错误代码56

警告 xff1a 不要重置网络 xff0c 无效且闹心早上打开电脑 xff0c 突然发现无法连接网络 xff0c 只有飞行模式可用 xff0c 网络适配器标感叹号尝试卸载网络适配器再恢复 xff0c 重置网络 xff0c 驱动精灵 xf
cmd批量文件重命名

rename span class token operator span span class token punctuation span span class token operator span asflh span class
【AS】Android Studio虚拟机无法加载app

虚拟机无法加载app xff0c 但是在真机上没有问题可能是虚拟机的API版本和app不匹配重新换一个版本的虚拟机就可以了记录一次
【AS】Can‘t determine type for tag ‘＜macro name=“m3_comp_bottom_app_bar_container_color“＞?attr/colorSu

不知道怎么回事 xff0c Android Studio一运行就报错我的compileSDKVersion是32 Can span class token string 39 t determine type for tag 39 spa
[Android] 通过Room操作SQLite数据库

谷歌推荐使用Room操作数据库 xff0c Room在 SQLite 上提供了一个抽象层 xff0c 在充分利用 SQLite强大功能的同时 xff0c 能够流畅地访问数据库 Room的三个主要组件 xff1a 数据库类 xff0c 用于保
[Android] Dialog篇

一 AlertDialog 简单Dialog xff1a Dialog dialog span class token operator 61 span new AlertDialog Builder span class token pu
谷歌pixel刷机_如何在Google Pixel上禁用（或启用）应用建议

谷歌pixel刷机 Android 11 introduced a feature for Google Pixel phones called App Suggestions The launcher will suggest diffe
[Android] 菜单加水平分割线

选项菜单加水平分隔线 menu的item加group分组设置setGroupDividerEnabled为true span class token operator lt span menu xmlns android span clas
快速安装Pytorch和Torchvision

文章目录 1 Linux下激活自己的虚拟环境并查看Python版本2 查看需要安装的Pytorch和Torchvision版本3 直接命令行安装3 1 如果不报错的话3 2 ERROR Could not install packages
【Darknet-53】YOLOv3 backbone Darknet-53 详解

文章目录 1 模型计算量与参数量2 Darknet 53网络3 感谢链接 1 模型计算量与参数量模型计算量与参数量的计算方式主要有两种 xff0c 一种是使用thop库 xff0c 一种是使用torchsummaryX 使用pip ins
【DeeplabV3+】DeeplabV3+网络结构详解

文章目录 1 常规卷积与空洞卷积的对比1 1 空洞卷积简介1 2 空洞卷积的优点 2 DeeplabV3 43 模型简介3 DeeplabV3 43 网络代码4 mobilenetv2网络代码5 感谢链接聊DeeplabV3 43 网络前
【YOLOv3 decode】YOLOv3中解码理解decode_box

文章目录 1 解码是什么意思2 代码解读3 生成网格中心代码详解4 按照网格格式生成先验框的宽高代码详解5 感谢链接 1 解码是什么意思在利用YOLOv3网络结构提取到out0 out1 out2之后 xff0c 不同尺度下每个网格点