yolov7 paper阅读笔记

2023-11-08

不同于现有的主流方法，yolov7的主要改进点在优化训练过程，
包括优化modules 和优化方法，这些会加强traing cost从而提高object detect的accuracy, 但是不会提高inference cost（时间开销）,

这个改进方法和优化方法叫做trainable bag-of-freebies。

最近，模型的re-parameterization和动态label assignment在模型训练和object detection中都是重要话题。

yolov7因此Propose了planned re-parameterized model
根据动态label assignment存在的问题：怎么给多个output layers branches分配动态的targets，yolov7提出了coarse-to-fine lead guided label assignment.
compound scaling,
可减掉40%的参数和50%的计算量。

model re-parameterization
相当于组合了多个计算的modules into one at inference stage.
分为module-level 和 model-level.
model level的有2种常用的方法：
1.用不同training data训练同一模型，得到多个weight, 求这些weight的平均
2.把不同迭代次数的weight求平均
但设计好的一些re-parameterization方案并不适用于所有的网络结构，因此，yolov7重新设计了一个re-parameterization和相关的应用策略。

model scaling
根据计算设备的不同scale up or down一个模型
可scale的因素有：图像size, layer数量，channel数量，特征金字塔层数
这个方向network architecture search(NAS)可以自动搜索合适的缩放因子，缺点是计算量很大
目前这个方向的方法都是在研究各个单独的缩放因素（假设各因素独立），而不是整体研究。
yolov7提出一个混合因素的缩放方案。

结构设计
目前很多设计实效性方案的考虑多是参数的数量，计算量等，
本文考虑的是梯度路径，参考CSPVoVNet和ELAN的结构，
因为ELAN中提出如何设计efficient network: 控制最短和最长的梯度路径，deeper net就可以learn和收敛更快。
然后yolov7在ELAN的基础上提出了Extended-ELAN(E-ELAN), 结构如下（真够复杂的）：
在这里插入图片描述
在大规模的ELAN中，梯度长度和stacking number of computation blocks已经达到了一种稳定的状态，
如果继续增加computational blocks, 这种稳定的状态会遭到破坏，
proposed E-ELAN使用expand, shuffle, merge机制，在不破坏原有梯度path的基础上增强学习能力。

用group convolution来扩展channel和computation blocks的基数。
computational layer中所有的计算block共用相同的group parameter和channel multiplier。
得到的feature map会shuffle到g个组，然后连接起来，
每个group的channel数和原始结构的channel数是一样的。

model scaling for concatenation-based models
model scaling的目的在于满足不同的推断速度需要（计算量的不同）
级联模型只scale一个因素的话，会影响in-degree和out-degree, 见图，
所以，提出了同时scale几个factor, 比如图3的scale depth的时候，还要考虑到它对输出有什么变化，要同时scale width。
这样会保持模型最初的设计，保持最优的结构。

在这里插入图片描述
planned re-parameterized convolution
re-parameterization直接用在不同的网络，可能效果不好。
经过测试，发现RepConv不能用在ResNet结构中，如果用RepConv结构，就不用identity connection,
下面是测试的一些结构

deep supervision 与 head
deep supervision经常用在训练很深的网络，主要通过在网络中间层增加附加的head以辅助训练。
本文中，把和最终output相关的较lead head, 辅助训练的叫auxiliary head
在这里插入图片描述

label assignment
以前的训练是直接把output和ground truth的label直接结合起来
而最近通过output的分布等信息，和ground truth综合考虑，通过某种方法产生soft label，
比如YOLO就是通过把预测的边框和ground truth的IOU作为soft label。

目前存在的问题是还没有文献指出如何分配soft label给auxiliary head和lead head,
已有的方法是分别分配的，而yolov7是用lead head的预测值同时分配给auxiliary head和lead head
理由是认为lead head有更强的学习能力，学习出来的soft label更能表现data和target的关联性。
在这里插入图片描述
coarse to fine label
产生两种soft label, 即coarse label 和 fine label
fine label和lead head产生的soft label一样
coarse label就是把正样本的条件放松一些，让更多的grid被认为是positive target,
理由是aux head没有lead head那么强的学习能力，因此让更多的positive信息给它，集中在优化recall的方式。
最后的output会从高recall结果里选择高precision的。

但是要注意coarse label必须和fine label是接近的，
为了抑制不好的coarse positive，yolov7在decoder中加了一些限制，动态调整coarse label和fine label的比重，保证fine label的优化上边界始终比coarse label要高。

some tricks in training
conv-bn-activition中的BN， CNN与BN直接连接
把卷积层的feature map和YOLOR的implicit knowledge结合：把implicit knowledge在推断时提前计算，作为一个向量，这个向量可以和bias, 卷积层的weight相结合（加/乘）
EMA model，作为最后的inference model

不同的版本
yolov7-tiny(edge GPU), yolov7(normal GPU), yolov7-W6(cloud GPU)
yolov7-E6(proposed E-ELAN)
其中激活函数：
yolov7-tiny: ReLU, 其它：SiLU

baseline:
前一版本的YOLO和YOLOR

与前几版yolo的实验对比
在这里插入图片描述
Ablation study
scale:
综合scale width 和 depth 与单独scale这俩的对比实验：

re-parameterized model:
验证级联和residual-based model,
选择3-stacked ELAN 和 CSPDarknet验证，
验证ELAN时，把3x3卷积放到不同的位置

验证dark block时，由于原来的block没有3x3卷积，因此重新设计了一个block进行验证
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

yolov7 paper阅读笔记的相关文章

在 Tensorflow 中检索 LSTM 序列的最后一个值

我有不同长度的序列想在 Tensorflow 中使用 LSTM 进行分类对于分类我只需要每个序列最后一个时间步长的 LSTM 输出 max length 10 n dims 2 layer units 5 input tf place
带有 Tensorflow 后端的 Keras 的 K.function 方法是否适用于网络层？

我最近开始使用 Keras 构建神经网络我构建了一个简单的 CNN 来对 MNIST 数据集进行分类在学习我使用的模型之前K set image dim ordering th 为了绘制卷积层权重现在我正在尝试用以下方法可视化卷积层输
如何将 L1 正则化准确添加到张量流误差函数中

嘿我是张量流的新手即使经过很多努力也无法添加 L1 正则化项到误差项 x tf placeholder float None n input Weights and biases to hidden layer ae Wh1 tf Va
在caffe prototxt 文件中。 TRAIN 和 TEST 阶段做什么？

我是咖啡新手感谢你们 in https github com BVLC caffe blob master src caffe proto caffe proto https github com BVLC caffe blob mast
如何在prototxt文件中写注释？

我找不到如何写评论prototxt files 有没有办法在 prototxt 文件中添加注释如何 Thanks 您可以通过添加评论 char 之后的行中的所有内容都是注释 layer name aLayerWithComments I
使用tensorflow-gpu获得可重现的结果

使用 Tensorflow 处理项目但是我似乎无法重现我的结果我尝试过设置图形级别种子 numpy 随机种子甚至操作级别种子然而它仍然无法重现在 Google 搜索中大多数人都将罪魁祸首归咎于 reduce sum 函数因为
Tensorflow：如何查看张量板中的检查点？

假设我有内容检查点 checkpoint model ckpt 240000 data 00000 of 00001 model ckpt 240000 index model ckpt 240000 meta 是否可以在张量板中查看检查点
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
如何实现固定长度的空间金字塔池化层？

我想实现所介绍的空间金字塔池层在本文中 https arxiv org pdf 1406 4729v4 pdf 正如论文设置关键点是定义 max pooling 层的变体内核大小和步幅大小即 kernel size ceil a n s
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
在 python 上使用 TensorRT .engine 文件进行推理

我使用 Nvidia 的迁移学习工具包 TLT 进行训练然后使用 tlt converter 将 etlt 模型转换为 engine 文件我想使用这个 engine 文件在 python 中进行推理但由于我使用 TLT 进行训练因此
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
在 model.fit() 期间记录 Keras 中每个时期的计算时间

我想比较不同模型之间的计算时间在拟合期间每个时期的计算时间被打印到控制台 Epoch 5 5 160000 160000 10s 我正在寻找一种方法来存储这些时间其方式与模型指标类似模型指标保存在每个时期并可通过历史对象获取尝试以
Google Inceptionism：按类别获取图像

在著名的 Google Inceptionism 文章中 http googleresearch blogspot jp 2015 06 inceptionism going deeper into neural html http goo
检查输入时出错：预期 conv2d_1_input 有 4 个维度，但得到形状为 (800, 1000) 的数组

我正在尝试使用 CNN 进行情感分析我的代码我的数据具有 1000 1000 形状当我将数据传递给 convolution2D 时它会抛出一个错误我无法解决我尝试了以下解决方案但仍然面临问题在构建 CNN 时我收到 Kera
如何加载 caffe 模型并转换为 numpy 数组？

我有一个 caffemodel 文件其中包含 ethereon 的 caffe tensorflow 转换实用程序不支持的层我想生成我的咖啡模型的 numpy 表示我的问题是如何将 caffemodel 文件我还有 prototx
Google Colab：为什么 CPU 比 TPU 快？

我正在使用 Google colabTPU训练一个简单的Keras模型删除分布式strategy并在CPU比TPU 这怎么可能 import timeit import os import tensorflow as tf from sk
Tensorflow：提要字典错误：您必须为占位符张量提供值

我有一个错误我无法找出原因这是代码 with tf Graph as default global step tf Variable 0 trainable False images tf placeholder tf float32
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
输入维度/分辨率会影响卷积神经网络的性能吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在构建一个图像分类器其中有 66 个类和大约 50000 个图像我的电脑内存为 12 GB 我的内存不足以训练图像我的问题是

随机推荐

Java将Word转换成PDF

最近项目需要做在线预览文档功能要求对word文档后台转为pdf 遇到了很多问题因此记录一下网上有很多将Word转换成PDF的方式这里我试了几种比较简单的方式 POI aspose spire和documents4j 1 POI PO
Mac OS : 源码安装nginx （不需homebrew）

下载 nginx http nginx org download nginx 1 19 10 tar gz 解压到 usr local 下载 pcre https ftp pcre org pub pcre pcre 8 44 tar gz
数据属性的类型

数据属性的类型原文 https blog csdn net qq 33457248 article details 79594782 数据集由数据对象组成一个数据对象代表一个实体数据对象又称样本实例数据点或对象属性 attrib
数据结构——链表练习题

题目一思路双指针当listA和listB其中一个位空时两个列表就不存在相交返回NULL 当listA和listB都不为空链表时指针phead1和phead2同时分别遍历listA和listB 遍历完后再去分别遍历listB和l
c++运算符优先级归纳

C 一共有 18个优先级运算中按优先级进行性计算当优先级相同时根据结合性规则来决定结合性 1 从左到右 L R 操作数和操作符结合的顺序大部分是从左到右结合性的例如单独的算术运算符 2 从右到左 R L 最典型的是赋值运算符当
lecture 8：OLS回归模型

先学习这个资料 OLS自编算法不调用函数重要的英文参考资料 Using Python for Introductory Econometrics kevinsheppard讲授Python做计量相关分析 1 相关系数的计算公式 r x
Java核心技术卷Ι 1~2）Java 的基本程序设计结构、类和对象

文章目录一 Java 的基本程序设计结构 1 强制类型转换 2 检测字符串是否相等二类和对象一 Java 的基本程序设计结构 1 强制类型转换 double x 9 99987 int i int x System out prin
跟着代码随想录练算法——二叉树（JS）（下）

跟着代码随想录练算法二叉树 106 从中序与后序遍历序列构造二叉树 https leetcode cn problems construct binary tree from inorder and postorder traversal
HttpClient进行timeout设置及存活机制设置

package com example demo config import lombok Data import org springframework boot context properties ConfigurationPrope
docker学习记录--使用Xshell连接docker上的Centos镜像

1 下载docker https download docker com win stable Docker 20Desktop 20Installer exe 2 安装选择默认 3 配置以下国内镜像 registry mirrors ht
POJ 2456 疯牛(二分+贪心)

疯牛时间限制 1000 ms 内存限制 65535 KB 难度 4 描述农夫 John 建造了一座很长的畜栏它包括N 2 lt N lt 100 000 个隔间这些小隔间依次编号为x1 xN 0 lt xi lt 1 000 000
过拟合产生的原因和解决方案

最近在研究室内定位的问题总是过拟合之前研究问题太过草率这次计划将问题彻底的研究明白过拟合简单来说就是在训练集表现好在测试集验证集表现差从表现来看可以理解成模型复杂也好还是你的数据有问题也好总之最后模型学习到了你现在数据
vue 数组按时间排序
一文理解Kafka如何保证消息顺序性

要想实现消息有序需要从Producer和Consumer两方面来考虑如果对Kafka不了解的话可以先看这篇博客一文快速了解Kafka 针对消息有序的业务需求还分为全局有序和局部有序全局有序一个Topic下的所有消息都需要按照生
用spss做mk检验_SPSS中对问卷数据进行探索因子分析的详细操作与结果解读

一什么是探索因子分析探索因子分析主要用于对问卷数据进行统计分析通常我们在做问卷分析的时候如果我们设计的题项没有明确的维度划分而我们又需要了解这些题项的维度这时我们就需要对这题项进行探索因子分析通过在SPSS中进行探索因子分析
Docker世界 -- 基础篇(入门)

一 Docker概述 1 1 Docker 为什么会出现一款产品从开发到上线从操作系统到运行环境在到应用配置作为开发运维之间的协作我们需要关心很多东西这也是很多互联网公司都不得不面对的问题特别是各种版本的迭代之后不同版本
Python 3 安装 redis 客户端

1 去GIThub 上下载 redis py 2 然后进入源码目录执行 sudo python3 setup py install 就可以了这里踩了一个坑就是我按照GITHub上介绍的方式 sudo python setup py i
区块链矿工如何以七个步骤处理挖掘工作并进行交易

你有没有想过区块链的挖掘过程如何进行的或者你的交易如何得到确认并添加到了区块链好吧我也是如此由于我找不到任何明确的逐步解释这个过程文章我决定深入研究并自己编写指南以下是区块链交易如何通过七个步骤从你的钱包处理到区块链中 imag
git 第一次push error: failed to push some refs to

第一次将本地文件push到远程时报错 error failed to push some refs to 远程地址原因可能是github仓库中的README md文件不在本地代码目录中或要先pull 遇到错误要善用git的提示报错信息后
yolov7 paper阅读笔记

不同于现有的主流方法 yolov7的主要改进点在优化训练过程包括优化modules 和优化方法这些会加强traing cost从而提高object detect的accuracy 但是不会提高inference cost 时间开销这

yolov7 paper阅读笔记

yolov7 paper阅读笔记 的相关文章

随机推荐

热门标签

yolov7 paper阅读笔记的相关文章