神经网络训练中batch的作用（从更高角度理解）

2023-11-18

1.什么是batch

batch，翻译成汉语为批（一批一批的批）。在神经网络模型训练时，比如有1000个样本，把这些样本分为10批，就是10个batch。每个批（batch）的大小为100，就是batch size=100。
每次模型训练，更新权重时，就拿一个batch的样本来更新权重。

2.神经网络训练中batch的作用（从更高角度理解）

从更高的角度讲，”为什么神经网络训练时有batch？“，需要先讲一些预备知识。

当我们求损失loss用于梯度下降，更行权重时，有几种方式。一种是全部的样本用来求loss,这种方式称为批量梯度下降(BGD)；一种是随机的选取一个样本，求loss，进而求梯度，这种方式称为随机梯度下降(SGD)；BGD和SGB的这种，产生了第三种梯度下降的方法：小批量梯度下降(MBGD)。

当我们使用BGD方法来更新权重时，面临一个问题：
我们知道，梯度下降法是求得某个点，使得loss最小。通过往梯度减小的方向更新权重值，可以使得loss减小。如下图所示：
在这里插入图片描述

绿色箭头所示，为梯度减小的方向。沿此方向更新权重，使得loss减小。

但这种方法面临一个很尖锐的问题。当梯度为0时，无论怎么更新权重，loss都不再改变，从而无法找到最优点。如下图所示，当位于红圈标出的区域时，梯度为0，此时梯度下降法就失效了，无法找到最优点。
在这里插入图片描述
但引入随机梯度下降SGD方法时，就能很大程度避免这个问题。

原因时：批量梯度下降时，全部的样本用于求loss。而随机梯度下降是，随机选取一个样本求loss进而求梯度。这种方式就很大程度上规避了梯度为0的情况。即使某次训练更新权重时，梯度为0，下次也不一定为0。而批量梯度下降则不然，本次更新权重时，梯度为0，下次还是0。梯度下降法就失效了。

但批量梯度下降和随机梯度下降有各自的优缺点：

1.使用批量梯度下降时，虽然模型的性能低，但耗费时间时间也低。（由于其求梯度，更新权重时，可以并行计算，因此是求所有样本损失的累加和）

2.使用随机梯度下降时，虽然模型的性能高，但耗费的时间也高。（由于其求梯度，更新权重时，可以并行计算。某步更新权重，要依赖上一步权重）

关于这一块，大家可以参考：批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

因此就提出了一种折中的方法：小批量梯度下降(MBGD)
下图，为三个方法，一次训练时，使用样本量的示意图。
左边红色的大框，指的是批量梯度下降把全部的样本由于一次更新权重的训练。
左边红色的多个小框，表示随机梯度下降随机选取一个样本用于一次更新权重的训练。
蓝色的框，表示把样本分为几批（batch）,每次用一批的样本来进行一次更新权重的训练。
在这里插入图片描述

3.补充知识

对卷积神经网络中术语的理解：Epoch、Batch Size和batchsize

所谓
Epoch：1个epoch等于使用训练集中的全部样本训练一次，通俗的讲几次epoch就是整个数据集被轮几次

Batch Size：全部数据是分批来训练的，批的大小称为Batch Size

iteration：1个iteration等于使用batchsize个样本训练一次，也就是说训练一批的样本，称为一次迭代

比如训练集有500个样本，batchsize = 10 ，那么训练完整个样本集：iteration=50，epoch=1.

batch: 深度学习每一次参数的更新所需要损失函数并不是由一个数据获得的，而是由一组数据加权得到的，这一组数据的数量就是batchsize。

batchsize最大是样本总数N，此时就是Full batch learning；最小是1，即每次只训练一个样本，这就是在线学习（Online Learning）。当我们分批学习时，每次使用过全部训练数据完成一次Forword运算以及一次BP运算，成为完成了一次epoch。

参考：

1.批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

神经网络训练中batch的作用（从更高角度理解）的相关文章

经典卷积神经网络——resnet

resnet 前言一 resnet 二 resnet网络结构三 resnet18 1 导包 2 残差模块 2 通道数翻倍残差模块 3 rensnet18模块 4 数据测试 5 损失函数优化器 6 加载数据集数据增强 7 训练数据 8
毕业设计-基于深度学习的命名实体识别研究

目录目录前言课题背景和意义实现技术思路一命名实体识别简单概述二基于深度学习的命名实体识别方法实现结果最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精
毕业设计-基于深度学习的垃圾分类识别方法

目录前言课题背景和意义实现技术思路一目标检测算法对比研究二垃圾数据集的制作实现效果图样例最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个
静默执行bat文件

让bat隐藏运行需要用vbs文件才能实现方式一使用vbs文件新建一个文本文档后缀改为 vbs 可以这样写 set ws WScript CreateObject WScript Shell ws Run d yy bat 0 其中d
卷积神经网络详解

卷积神经网络 Convolutional Neural Networks CNN 是应用最多研究最广的一种神经网络卷积神经网络以下简称CNN 主要用于图片分类自动标注以及产品推荐系统中以CNN实现图片分类为例图像经过多个卷积层
神经网络-Unet网络

文章目录前言 1 seq2seq 编码后解码 2 网络结构 3 特征融合 4 前言 Unet用来做小目标语义分割优点网络结构非常简单大纲目录 2016年特别火在细胞领域做分割特别好 1 seq2seq 编码后解码 2 网络结构几
【转载】CNN模型复杂度（FLOPs、MAC）、参数量与运行速度

备忘作者写错了 1次乘加运算等于2次浮点运算但在数值上正好反过来即1 FLOPs 2 MACs 例如对于卷积运算的计算是其MACs 参数m 输出尺寸 n 而FLOPs 2 MACs Nvidia团队论文里面写的是对的 2倍 CNN模
卷积神经网络中图像池化操作全解析

一池化的过程卷积层是对图像的一个邻域进行卷积得到图像的邻域特征亚采样层池化层就是使用pooling技术将小邻域内的特征点整合得到新的特征在完成卷积特征提取之后对于每一个隐藏单元它都提取到 r a 1 c b 1 个特征把它
yolov5识别cf火线敌人（FPS类的AI瞄准）详细教程一

一前言因为自己的研究方向也是深度学习方向而且平时闲的时候还喜欢玩会cf火线等枪战游戏就想着找一个大模型做一个对游戏敌人的识别的功能一切实现之后就想把自己的心得写出来我打算分俩个教程分别细述整个学习以及操作的过程教程一主要包括了
keras卷积神经网络入门-笑脸检测

keras卷积神经网络入门笑脸检测 Keras简介 1 库函数导入 2 查看数据集 3 构建模型 4 训练模型 5 预测自己的图片 Keras简介 Keras以其强大的封装结构让我们不必过多的考虑神经网络间的计算极大简化了tensor
李宏毅 - 卷积神经网络（CNN）

李宏毅卷积神经网络 CNN 卷积神经网络主要用于图像分类一张图片通过我们的卷积神经网络也就是Model计算出概率值通过Cross entropy 交叉熵归一化到0和1 概率最大的显示为1 其余显示为0 那么一张图片是怎么输入到Mod
卷积尺寸计算公式（速查备用）

torch代码计算 def paras cnn k s p i 64 x torch ones 1 1 i i conv torch nn Conv2d 1 1 kernel size k stride s padding p convt
windows批处理：if else的踩坑点及排版优化

参考 https www jianshu com p f0bde7d355a4 总结见参考文章
机器学习原来这么有趣 Part3: 深度学习与卷积神经网络

最近看了Adam Geitgey的机器学习系列文章寻思着闲着也是闲着干脆翻译以下顺便学习下英语啥的哈哈哈第一次做这种事有不到位的地方欢迎指教噢前言你是否已经厌倦了在查阅了无数有关深度学习的文章之后仍然不能参透其中深意的无力感
论文阅读笔记之——《Multi-level Wavelet-CNN for Image Restoration》及基于pytorch的复现

本博文是MWCNN的阅读笔记论文的链接 https arxiv org pdf 1805 07071 pdf 代码 https github com lpj0 MWCNN 仅仅是matlab代码通过参考代码对该网络在pytorch框架
基于卷积神经网络的人脸表情识别综述

基于卷积神经网络的人脸表情识别摘要在日常的沟通与交流过程中运用面部表情可以促使沟通交流变得更加顺畅因此对于人类而言进行面部表情的解读也是进行相关沟通交流内容获取的重要程序随着科学技术的不断发展人工智能在日常人类交流沟通中运用
CNN中特征融合的一些策略

Introduction 特征融合的方法很多如果数学化地表示大体可以分为以下几种 X Y textbf X textbf Y X Y X
【深度学习】经典的卷积神经网络模型介绍（LeNet、AlexNet、VGGNet、GoogLeNet、ResNet和MobileNet）

经典的卷积神经网络模型介绍卷积神经网络简介一 LeNet 1 INPUT层输入层 2 C1层卷积层 3 S2层池化层下采样层 4 C3层卷积层 5 S4层池化层下采样层 6 C5层卷积层 7 F6层全连接层二 Ale
CUDA的下载安装

大家好下面将进行CUDA的下载安装下载安装的详细步骤描述如下 1 CUDA下载 https download csdn net download qq 41104871 87462747 2 CUDA安装 1 首先需要解压缩下载好的C
深度学习笔记3——AlexNet

1 背景介绍在2012年的ImageNet竞赛中 AlexNet获得了top 5测试的15 3 error rate 获得第二名的方法error rate 是 26 2 AlexNet有60 million个参数和65000个神经元五

随机推荐

python实现常用数据结构

本文基于Python实现以下几种常用的数据结构栈队列优先队列二叉树单链表双向链表栈基于List实现 class Stack 栈 def init self self arr self size 0 def push self
windows 10自带命令查看文件的哈希值

windows的powershell自带了查看文件哈希值的命令 Get FileHash 文件名 Algorithm MD5 SHA1 SHA256 案例查看文件的MD5值查看文件的SHA1值查看文件的SHA256值
springboot调整请求头大小_SpringBoot http post请求数据大小设置操作

背景使用http post请求方式的接口使用request getParameter XXX 的方法获取参数的值当数据量超过几百k的时候接口接收不到数据或者接收为null RequestMapping value rcv metho
GitHub Flavored Markdown 规范

Markdown是一种轻量级标记语言它以纯文本形式编写文档易读看起来舒服易写语法简单易更改并最终以HTML格式发布由于markdown没有明确指定语法随着编译器不一样实现方式有很大差异 GitHub Flavored M
SocketOutputStream和SocketChannel write方法的区别和底层实现

Java直接内存原理提到了SocketChannel write的实现原理通过IOUtil write将java堆内存拷贝到了直接内存然后再把地址传给了I O函数那么 BIO 是怎么实现往socket里面写数据的呢 BIO Socke
Java多线程知识点总结（思维导图+源码笔记）

转自 https blog csdn net yelvgou9995 article details 107408709 多线程大家在初学的时候对这个知识点应该有不少的疑惑的我认为主要原因有两个多线程在初学的时候不太好学并且一般写项
Sitecore站点更新License

一简介 Sitecore 是一个基于ASP NET 技术的 CMS 系统它不仅具有传统 Web CMS 的所有功能还集成了 Marketing 营销当然这个功能价格不菲的功能可以提供一个一站式的在线营销解决方案对于 NET
深入理解数据结构——哈夫曼树

include
[589]IDM下载器

Internet Download Manager 简称 IDM 是一种将下载速度提高5倍的工具可以恢复和安排下载由于连接丢失网络问题计算机关机或意外停电等原因全面的错误恢复和恢复功能将重新启动中断或中断的下载简单的图形用户界面
最快实现一个自己的扫地机

作者良知犹存转载授权以及围观欢迎关注微信公众号羽林君或者添加作者个人微信 become me 扫地机介绍扫地机器人行业本质是技术驱动型行业产品围绕导航系统的升级成为行业发展的主旋律按功能划分扫地机器人分为四大系统即导航系
【视频解读】AutoGluon背后的技术

1 资料来源 AutoGluon背后的技术哔哩哔哩 bilibili 也是一种Automl框架在尽量不需要人的帮助下对输入进行特征提取选取适合的机器学习模型对它进行训练大部分基于超参数搜索技术从数十或者数百个参数中选取一个合适的
判断List、Map集合是否为空的方法

在Java中判断集合是否为空有几种方法以下是其中的一些 1 使用List isEmpty 方法例如 List
openGL之API学习（六十三）GL_RASTERIZER_DISCARD

glEnable GL RASTERIZER DISCARD 使用GL RASTERIZER DISCARD标志作为参数调用glEnable 函数告诉渲染管线在transform feedback可选阶段之后和到达光栅器前抛弃所有的图元
与计算机信息技术有关的课题,信息技术课题研究报告.doc

PAGE PAGE 1 信息技术环境下教学模式和教学方法的创新研究课题研究报告摘要本课题由中央电教馆与有关专家在充分论证的基础上于2006年12月被批准为中央电化教育馆全国教育技术十一五专项课题在中央电教馆组织下课题研究得到
机器学习在交通标志检测与精细分类中的应用

导读数据对于地图来说十分重要没有数据就没有地图服务用户在使用地图服务时不太会想到数据就像冰山一样用户可见只是最直接最显性的产品功能部分而支撑显性部分所需要的根基往往更庞大地图数据最先是从专业采集来的采集工具就是车自行
python学习笔记2

if语法 if True print 条件成执的代码1 print 条件成执的代码2 下的代码没有缩进到if语句块所以和if条件关 print 我是论条件是否成都要执的代码 if else if 条件条件成执的代码
linux查看用户登录时间以及命令历史

1 查看当前登录用户信息 who命令 who缺省输出包括用户名终端类型登陆日期以及远程主机 who var log wtmp 可以查看自从wtmp文件创建以来的每一次登陆情况 1 b 查看系统最近一次启动时间 2 H 打印每列的标题 u
转载-STM32片上FLASH内存映射、页面大小、寄存器映射

原文地址 http blog chinaunix net uid 20617446 id 3847242 html 本文以STM32F103RBT6为例介绍了片上Flash Embedded Flash 若干问题包括Flash大小内存映
LAMP框架的架构与环境配置

1 LAMP架构的相关知识 1 1 LAMP架构的概述 LAMP架构是目前成熟的企业网站应用模式之一指的是协同工作的一整套系统和相关软件能够提供动态Web站点服务及其应用开发环境 LAMP是一个缩写词具体包括Linux操作系统 Apa
神经网络训练中batch的作用（从更高角度理解）

1 什么是batch batch 翻译成汉语为批一批一批的批在神经网络模型训练时比如有1000个样本把这些样本分为10批就是10个batch 每个批 batch 的大小为100 就是batch size 100 每次模型训练更新

神经网络训练中batch的作用（从更高角度理解）

神经网络训练中batch的作用（从更高角度理解） 的相关文章

随机推荐

热门标签

神经网络训练中batch的作用（从更高角度理解）的相关文章