RepVGG: Making VGG-style ConvNets Great Again

2023-05-16

文章地址：《RepVGG: Making VGG-style ConvNets Great Again》

代码地址：https://github.com/megvii-model/RepVGG

文章发表于CVPR2021，文章提出一种将训练态和推断态网络结构解耦的方法。文章认为目前复杂的网络结构能够获取更高的精度，但是存在很明显的缺点：

多分支结构可能会降低推断速度以及更占用显存。例如resnet的残差结构在多个分支的地方需要复制一份tensor用于分支之间的计算，如下图所示
depthwise conv或者shufflenet中的channel shuffle操作对实际落地的支持可能不太好等

对应的只有简单的由 3 × 3 3\times 3 3×3卷积和relu激活组成的网络，有如下几点优势：

许多多分支的网络虽然在FLOPs上小于VGG，但是推断时并没有更快（例如VGG-16的FLOPs是EfficientNet-B3的8.4倍，但在1080Ti上运行，VGG-16还要快1.6倍）
多分支网络更耗显存，因为每个分支都需要有一份tensor用于计算直到分支通过加（addition）或者串联（concatenation）的方式合并
多分支网络更不灵活，例如resnet必须由resnet block组成，而resnet block中最后一个卷积必须与输入保持一致，否则shortcut结构就不能工作了。更不灵活的是，在对网络进行通道剪枝时，多分支的网络剪枝起来很麻烦而且不合理（因为block内，通道数会互相影响）

为了取长补短，文字提出一种重参(re-parameterization)的方式，将训练态的网结构与推断态的网络结构解耦。即训练时利用多分支的网络结构，推断只有普通的 3 × 3 3\times 3 3×3和relu激活组成的网络。

一、重参的原理

重参的原理就是通过代数的方式将多分支合并为一个分支。

更具体的，我们可以将 1 × 1 1\times 1 1×1的卷积看成是 3 × 3 3\times 3 3×3大小卷积的特例，identity和BN分支可以看成是 1 × 1 1\times 1 1×1卷积的特例。这句话可以用下图表示：

上图A是将重参前的结构演变为 3 × 3 3\times 3 3×3卷积的流程图，流程分为如下几步：

将 3 × 3 3\times 3 3×3的卷积和bn层合并成 3 × 3 3\times 3 3×3卷积
将 1 × 1 1\times 1 1×1的卷积转换为 3 × 3 3\times 3 3×3的卷积，然后与bn合并成 3 × 3 3\times 3 3×3的卷积
将BN转换为 3 × 3 3\times 3 3×3的卷积
将转换后的三个 3 × 3 3\times 3 3×3的并联的卷积合并为最终的 3 × 3 3\times 3 3×3的卷积

这里在合并前就是训练态的结构，合并后就是推断态的网络结构。

上图B是具体的参数转换流程，为了方便理解这里加以说明一下。上图假设当前网络块的输入 C 1 C_1 C1和输出通道 C 2 C_2 C2都为2。图中对于一个卷积来说，水平方向为输入的通道数，竖直方向为输出通道数。

对于 1 × 1 1\times 1 1×1的卷积来说，将其转换为 3 × 3 3\times 3 3×3的卷积，就是将 1 × 1 1\times 1 1×1的卷积核进行周围补0，补成 3 × 3 3\times 3 3×3的大小即可
对于BN层或者shortcut结构来说，将其转换为 3 × 3 3\times 3 3×3的卷积，就是对应通道数除当前输出通道的中心为对应的值，其它值都为0。例如identity结构，当前中心值为1，其它值都为0，这样与输入相乘后，仍然为输入的值。

具体用公式表示如下(对公式不感兴趣的可以不看，上图已经很清晰了，这里是想说明代数方式如何将网络进行化简合并的)：

先定义一些符号， 3 × 3 3\times 3 3×3大小输入通道为 C 1 C_1 C1输出通道为 C 2 C_2 C2的卷积参数表示为 W ( 3 ) ∈ R C 2 × C 1 × 3 × 3 W^{(3)}\in R^{C_2 \times C_1 \times 3\times 3} W(3)∈RC2×C1×3×3，对应输入输出通道数的 1 × 1 1\times 1 1×1卷积参数表示为 W ( 1 ) ∈ R C 2 × C 1 W^{(1)}\in R^{C_2 \times C_1} W(1)∈RC2×C1。跟在 3 × 3 3\times 3 3×3大小卷积后的BN层参数为 μ ( 3 ) , θ ( 3 ) , γ ( 3 ) , β ( 3 ) \mu^{(3)}, \theta^{(3)}, \gamma^{(3)}, \beta^{(3)} μ(3),θ(3),γ(3),β(3),跟在 1 × 1 1\times 1 1×1大小卷积后的BN层参数为 μ ( 1 ) , θ ( 1 ) , γ ( 1 ) , β ( 1 ) \mu^{(1)}, \theta^{(1)}, \gamma^{(1)}, \beta^{(1)} μ(1),θ(1),γ(1),β(1)，identity分支中的BN层参数为 μ ( 0 ) , θ ( 0 ) , γ ( 0 ) , β ( 0 ) \mu^{(0)}, \theta^{(0)}, \gamma^{(0)}, \beta^{(0)} μ(0),θ(0),γ(0),β(0)。这里假设 C 1 = C 2 , H 1 = H 2 , W 1 = W 2 C_1=C_2, H_1=H_2, W_1=W_2 C1=C2,H1=H2,W1=W2，符号 ∗ * ∗表示卷积。那么对于输入 M ( 1 ) ∈ R N × C 1 × H 1 × W 1 M^{(1)}\in R^{N \times C_{1} \times H_{1} \times W_1} M(1)∈RN×C1×H1×W1和输出 M ( 2 ) ∈ R N × C 2 × H 2 × W 2 M^{(2)}\in R^{N\times C_2 \times H_2 \times W_2} M(2)∈RN×C2×H2×W2存在如下关系：

M ( 2 ) = b n ( M ( 1 ) ∗ W ( 3 ) , μ ( 3 ) , θ ( 3 ) , γ ( 3 ) , β ( 3 ) ) + b n ( M ( 1 ) ∗ W ( 1 ) , μ ( 1 ) , θ ( 1 ) , γ ( 1 ) , β ( 1 ) ) + b n ( M ( 1 ) , μ ( 0 ) , θ ( 0 ) , γ ( 0 ) , β ( 0 ) ) M^{(2)}=bn(M^{(1)} * W^{(3)}, \mu^{(3)}, \theta^{(3)}, \gamma^{(3)}, \beta^{(3)}) \\ +bn(M^{(1)} * W^{(1)}, \mu^{(1)}, \theta^{(1)}, \gamma^{(1)}, \beta^{(1)}) \\ + bn(M^{(1)}, \mu^{(0)}, \theta^{(0)}, \gamma^{(0)}, \beta^{(0)}) M(2)=bn(M(1)∗W(3),μ(3),θ(3),γ(3),β(3))+bn(M(1)∗W(1),μ(1),θ(1),γ(1),β(1))+bn(M(1),μ(0),θ(0),γ(0),β(0))

其中推断态的BN可以写成下式：
b n ( M , μ , θ , γ , β ) : , i , : , : = ( M : , i , : , : − μ i ) θ i γ i + β i bn(M, \mu, \theta, \gamma, \beta)_{:, i, :, :}=(M_{:, i, :, :}-\mu_i)\frac{\theta_i}{\gamma_i}+\beta_i bn(M,μ,θ,γ,β):,i,:,:=(M:,i,:,:−μi)γiθi+βi

上式中体现了bn的操作索引是在C维度进行的，详细可参考GN-Group Normalization

上式可以化简为：

b n ( M ∗ W , μ , θ , γ , β ) ∗ : , i , : , : = ( M ∗ W ′ ) ∗ : , i , : , : + b ‘ i bn(M* W, \mu, \theta, \gamma, \beta)*{:, i, :, :}=(M* W')*{:, i, :, :}+b‘_{i} bn(M∗W,μ,θ,γ,β)∗:,i,:,:=(M∗W′)∗:,i,:,:+b‘i

其中 W ′ ∗ i , : , : , : = θ i γ i W ∗ i , : , : , : W'*{i, :, :, :}=\frac{\theta_i}{\gamma_i}W*{i, :, :, :} W′∗i,:,:,:=γiθiW∗i,:,:,:, b i ′ = − μ i γ i θ i + β i b'_i=-\frac{\mu_i \gamma_i}{\theta_i}+\beta_i bi′=−θiμiγi+βi

到这里重参的原理基本就介绍完了，具体实验请查看原文。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

RepVGG: Making VGG-style ConvNets Great Again 的相关文章

Doxygen code style

64 file LifeActivity java 64 brief Android lifecycle test lt pre gt lt b gt company lt b gt http www microsoft com lt pr
人工智能学习：CIFAR-10数据分类识别-VGG网络（5）

这里尝试采用VGG网络对CIFAR 10数据集进行分类识别 1 导入需要的模块 span class token keyword import span numpy span class token keyword as span np s
arco design使用vite-plugin-style-import按需加载menu-item 报错 css未找到

根据官网arco design教程手动导入的方式按需加载组件解决方案 xff1a 将官网示例改成如下 xff0c exclude数组是没有css的组件名称如果不清楚组件名称可以在resolveStyle函数中console log打印
3D机器学习（12）：AlexNet、VGG、GoogNet、Resnet、Densenet、nn.Module、数据增强

从2010年开始 xff0c 深度学习开始进入人们视野 xff0c 2012年的Alexnet是第一个真真意义上的深度网络 xff0c 尽管只有8层 xff0c 但其错误率只有16 4 xff0c 2015年微软亚洲研究院的何凯明同学的Re
VGG数据预处理

参考文献 Very Deep Convolutional Networks for Large Scale Image Recognition 本文的目的目标检测语义分割等领域都会涉及到预训练模型 xff0c 一般是在ImageNet上
RepVGG: Making VGG-style ConvNets Great Again

文章地址 xff1a RepVGG Making VGG style ConvNets Great Again 代码地址 xff1a https github com megvii model RepVGG 文章发表于CVPR2021 xf
Opencv C++ Tutorial for making your own Haar Classifier

Opencv C 43 43 Tutorial for making your own Haar Classifier This Opencv C 43 43 Article is about how to make your own Ha
标注工具——VGG Image Annotator (VIA)

VGG Image Annotator VIA VGG Image Annotator VIA 是一款开源的图像标注工具 xff0c 由Visual Geometry Group开发地址 xff1a http www robots ox
【CV】RepVGG：通过结构重参数化实现训练和推理解耦的类 VGG 架构

论文名称 xff1a RepVGG Making VGG style ConvNets Great Again 论文下载 xff1a https arxiv org abs 1704 04861 论文年份 xff1a 2021 论文被引 x
cygwin运行常见问题（cygwin warning:MS-DOS style path detected: ）

cygwin 1 7 release 一月 5th 2010 at 11 27 日新月異很久沒寫軟體相關的東西 xff0c 不過年前 2009年12月正式釋出的cygwin 1 7值得一提 cygwin是win32底下最完整的一套pos
webpack: 4 loader汇总(style-loader等)

所有的loader必须匹配规则 xff0c 否则不生效配置文件中 xff0c module中rules的use执行顺序是从后往前执行 url loader 用于将文件转换为base64 URI的webpack加载程序 options li
聊聊Vue3 style中新增了哪些特性（汇总）

Vue3对style样式进行了升级 xff0c 下面本篇文章给大家汇总分享一下Vue3 style的新特性 xff0c 希望对大家有所帮助 xff01 Vue3 0后推出的setup函数 xff0c 像写JS一样开发Vue组件 xff0c
经典卷积神经网络(CNN)图像分类算法详解

本文原创转载请引用 https blog csdn net dan teng article details 87192430 CNN图像分类网络一点废话 CNN网络主要特点是使用卷积层这其实是模拟了人的视觉神经单个神经元只能对某种
VUE3 学习笔记（七）动态样式 class 实现

目录一绑定 HTML class 1 绑定对象 2 绑定数组 3 在组件上使用二绑定内联样式 1 绑定对象 2 绑定数组 3 自动前缀 4 样式多值数据绑定的一个常见需求场景是操纵元素的 CSS class 列表和内联样式因为
cuda

CUDA Error unspecified launch failure workstation workstation HP Z840 Workstation mjf darknet darknet detector train cfg
学习TensorFlow，调用预训练好的网络（Alex, VGG, ResNet etc）

视觉问题引入深度神经网络后针对端对端的训练和预测网络可以看是特征的表达和任务的决策问题分类回归等当我们自己的训练数据量过小时往往借助牛人已经预训练好的网络进行特征的提取然后在后面加上自己特定任务的网络进行调优目前 ILSVR
在styled-components的样式声明中做px到rem的自动转换

原文地址最近在尝试使用styled components来做React下的样式开发这样可以利用js语言的灵活来增强css的能力在用styled components处理px到rem的转换时有点问题了 styled component
CV01-语义分割笔记和两个模型VGG & ResNet的笔记

目录一语义分割二 VGG模型 2 1 VGG特征提取部分 2 2 VGG图像分类部分三 ResNet模型 3 1 为什么是ResNet 3 2 1 1卷积调整channel维度大小 3 3 ResNet里的BottleNeck 3
vue（3）调整 App.vue 文件和router路由

调整 App vue 文件我们先把默认项目里面没用的东西先删除掉把代码调整为下面的样子
修改CheckBox选择框、设置选择框颜色

使用组件自带的属性 android buttonTint 可直接设置选择框的颜色修改选择框选中与未选中时的状态需设置选择器 selector XML

随机推荐

Image captioning评价方法之BLEU (bilingual evaluation understudy)

文章地址 xff1a BLEU a Method for Automatic Evaluation of Machine Translation 代码地址非官方 xff1a https github com tylin coco capt
Image captioning评价方法之Meteor

项目地址 xff1a http www cs cmu edu alavie METEOR 代码地址 xff08 非官方实现 xff0c 实现的是项目地址中的1 5版本 xff09 xff1a https github com tylin c
Image captioning评价方法之ROUGE-L

文章地址 xff1a ROUGE A Package for Automatic Evaluation of Summaries 代码地址非官方 xff1a https github com tylin coco caption 文章由U
Image captioning评价方法之CIDEr

文章地址 xff1a CIDEr Consensus based Image Description Evaluation 代码地址 xff08 非官方 xff0c 且代码实现的是CIDEr D xff09 xff1a https gith
Image captioning评价方法之SPICE

项目地址 xff1a https panderson me spice 上述的项目地址包含了论文地址和代码地址该方法是由The Australian National University和Macquarie University联合发表
R3DS Wrap基本使用方法

中文的R3DS Wrap软件的教程较少 xff0c 最近刚好实操了一遍 xff0c 特此记录下来为了描述方便 xff0c 下面将R3DS Wrap简称Wrap 软件官网 xff1a https www russian3dscanner c
docker使用入门简介

一什么是docker xff1f https www docker com resources what container 使用docker时有两个重要概念 xff0c 一个是镜像 xff08 images xff09 xff0c 一个
SpringBoot整合Quartz 实现分布式定时任务调度

一 Quartz 集群架构 Quartz 是 Java 领域最著名的开源任务调度工具在上篇文章中 xff0c 我们详细的介绍了 Quartz 的单体应用实践 xff0c 如果只在单体环境中应用 xff0c Quartz 未必是最好的选择
《Attention Is All You Need》算法详解

该篇文章右谷歌大脑团队在17年提出 xff0c 目的是解决对于NLP中使用RNN不能并行计算 xff08 详情参考译理解LSTM xff08 通俗易懂版 xff09 xff09 xff0c 从而导致算法效率低的问题该篇文章中的模型就是
主流的视频动作类算法任务介绍

动作识别 action recognition xff1a 是对每个输入视频进行分类 xff0c 识别出视频中人物做出的动作即输入视频序列 xff0c 得到视频对应的类别时序动作检测 temporal action detection
视频时序动作识别（video action recognition）介绍

一视频时序动作识别算法分类根据网络的工作方式 xff0c 可以将视频时序动作识别算法大致分为四大类 xff1a 采用2D卷积的方法采用3D卷积的方法双流法引入VLAD的方法 1 1 采用2D卷积的方法 TSM Temporal Shif
视频时序动作检测（temporal action detection）介绍

一视频时序动作检测算法本文中动作检测算法也包含了时序动作提名 xff08 Temporal Action Proposal Generation xff09 时序动作提名与检测的类别不一样的地方是 xff0c 检测一般指定位出动作的边界
《Channel-wise Knowledge Distillation for Dense Prediction》论文详解

原文地址 xff1a Channel wise Knowledge Distillation for Dense Prediction 代码地址 xff1a https git io Distille xff08 由原文提供 xff0c 好
时序动作分割(temporal action segmentation)任务介绍

时序动作分割任务输入是一个未经裁剪的视频 xff0c 输出是视频中每一帧的动作类别所以该任务可以理解为对每一帧视频进行打标签处理 xff08 类同于图片分割是给每个像素打标签 xff09 一算法介绍 MS TCN MS TCN 43
时空动作检测 (spatio-temporal action detection)

时空动作检测 spatio temporal action detection xff1a 输入一段视频 xff0c 不仅需要识别视频中动作出现的区间和对应的类别 xff0c 还要在空间范围内用一个包围框 bounding box 标记出人
ActionVLAD算法详解

文章地址 xff1a https rohitgirdhar github io ActionVLAD 代码地址 xff1a https github com rohitgirdhar ActionVLAD 该文章由CMU Adobe 法国国
COCO物体检测评测方法简介

本文从ap计算到map计算 xff0c 最后到coco 0 5 0 95 0 05 map的计算 xff0c 一步一步拆解物体检测指标map的计算方式一 ap计算方法一个数据集有多个类别 xff0c 对于该数据库有5个gt xff0c
《ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection》论文详解

论文地址 xff1a ContourNet Taking a Further Step toward Accurate Arbitrary shaped Scene Text Detection github地址 xff1a https g
Docker服务重启后让容器自动启动 | restart参数

问题 xff1a 服务器断电之后 xff0c docker服务挂掉了 xff0c 需要重启docker xff0c 但是我们重启docker后 xff0c 容器也就停止了 xff0c 不会跟随docker启动而启动那么如果想在docker
RepVGG: Making VGG-style ConvNets Great Again

文章地址 xff1a RepVGG Making VGG style ConvNets Great Again 代码地址 xff1a https github com megvii model RepVGG 文章发表于CVPR2021 xf

RepVGG: Making VGG-style ConvNets Great Again

一、重参的原理

RepVGG: Making VGG-style ConvNets Great Again 的相关文章

随机推荐

热门标签