训练时的Batchsize和Epoch之间的区别是什么?

2023-05-16

阅读这篇文章后,你会知道:

·   随机梯度下降是一种迭代学习算法,它使用训练数据集来更新模型。

·   批量大小是梯度下降的超参数,在模型的内部参数更新之前控制训练样本的数量。

·   Epoch数是梯度下降的超参数,其控制通过训练数据集的完整传递的数量。

这篇文章分为五个部分:

1.    随机梯度下降

2.    什么是Sample?

3.    什么是Batch?

4.    什么是Epoch?

5.    Batch和Epoch有什么区别?

随机梯度下降

随机梯度下降(Stochastic Gradient Descent,简称SGD)是一种用于训练机器学习算法的优化算法,最值得注意的是深度学习中使用的人工神经网络。该算法的工作是找到一组内部模型参数,这些参数在某些性能测量中表现良好,例如对数损失或均方误差。

优化是一种搜索过程,您可以将此搜索视为学习。优化算法称为“ 梯度下降 ”,其中“ 梯度 ”是指误差梯度或误差斜率的计算,“下降”是指沿着该斜率向下移动到某个最小误差水平。该算法是迭代的。这意味着搜索过程发生在多个不连续的步骤上,每个步骤都希望略微改进模型参数。

每一步都需要使用模型和当前的一组内部参数对一些样本进行预测,将预测与实际预期结果进行比较,计算误差,并使用误差更新内部模型参数。该更新过程对于不同的算法是不同的,但是在人工神经网络的情况下,使用反向传播更新算法。

在我们深入研究批次和时代之前,让我们来看看样本的含义。

 

什么是Sample?

Sample是单行数据。它包含输入到算法中的输入和用于与预测进行比较并计算错误的输出。

训练数据集由许多行数据组成,例如许多Sample。Sample也可以称为实例,观察,输入向量或特征向量。

现在我们知道Sample是什么,让我们定义一个batch。

什么是Batch?

Batch大小是一个超参数,用于定义在更新内部模型参数之前要处理的样本数。将批处理视为循环迭代一个或多个样本并进行预测。在批处理结束时,将预测与预期输出变量进行比较,并计算误差。从该错误中,更新算法用于改进模型,例如沿误差梯度向下移动。训练数据集可以分为一个或多个Batch。当所有训练样本用于创建一个Batch时,学习算法称为批量梯度下降。当批量是一个样本的大小时,学习算法称为随机梯度下降。当批量大小超过一个样本且小于训练数据集的大小时,学习算法称为小批量梯度下降。

·    批量梯度下降。批量大小=训练集的大小

·        随机梯度下降。批量大小= 1

·       小批量梯度下降。1 <批量大小<训练集的大小

在小批量梯度下降的情况下,流行的批量大小包括32,64和128个样本。您可能会在文献和教程中看到这些值在模型中使用。

 

什么是Epoch?

Epoch数是一个超参数,它定义了学习算法在整个训练数据集中的工作次数。一个Epoch意味着训练数据集中的每个样本都有机会更新内部模型参数。Epoch由一个或多个Batch组成。例如,如上所述,具有一批的Epoch称为批量梯度下降学习算法。您可以将for循环放在每个需要遍历训练数据集的epoch上,在这个for循环中是另一个嵌套的for循环,它遍历每批样本,其中一个批次具有指定的“批量大小”样本数。

epochs 数量传统上很大,通常是数百或数千,允许学习算法运行直到模型的误差被充分地最小化了。您可能会看到文献和教程设置为10,100,500,1000和更大的时期数量的示例。通常创建线图,其显示沿x轴的时间以及模型在y轴上的误差或技能。这些图有时被称为学习曲线。这些图可以帮助诊断模型是否已经过度学习,学习不足或者是否适合训练数据集。

 

Batch和Epoch有什么区别?

Batch大小是在更新模型之前处理的多个样本。Epoch数是通过训练数据集的完整传递次数。批处理的大小必须大于或等于1且小于或等于训练数据集中的样本数。可以将epoch设置为1和无穷大之间的整数值。您可以根据需要运行算法,甚至可以使用除固定数量的epoch之外的其他条件来停止算法,例如模型错误随时间的变化(或缺少变化)。它们都是整数值,并且它们都是学习算法的超参数,例如学习过程的参数,而不是学习过程找到的内部模型参数。您必须为学习算法指定batch大小和epoch数。如何配置这些参数没有固定的规则。您必须尝试不同的值,看看哪种方法最适合您的问题。

 

工作实例

最后,让我们用一个小例子来说明这一点。

假设您有一个包含200个样本(数据行)的数据集,并且您选择的Batch大小为5和1,000个Epoch。

这意味着数据集将分为40个Batch,每个Batch有5个样本。每批五个样品后,模型权重将更新。

这也意味着一个epoch将涉及40个Batch或40个模型更新。

有1000个Epoch,模型将暴露或传递整个数据集1,000次。在整个培训过程中,总共有40,000Batch。

在这里batchsize为5,若将batchsize设为10,则相应的训练时间也会加倍。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

训练时的Batchsize和Epoch之间的区别是什么? 的相关文章

随机推荐

  • MOT学习笔记 — 行人检测及行人跟踪数据集总结

    1 行人红外数据集总结 xff08 1 xff09 OSU Thermal Pedestrian Database 下载链接 xff1a http vcipl okstate org pbvs bench Data 01 download
  • 使用k-近邻算法识别手写数字

    本文摘自 机器学习实战 案例 xff0c 对其进行了代码更新与注释 实战介绍 使用k 近邻分类器构造手写识别系统 xff0c 为了简单起见 xff0c 系统只识别0 9 xff0c 需要识别的数字已经使用图形处理软件 xff0c 处理成具有
  • ubuntu16.04下安装并使用小觅双目MYNT EYE 1.x SDK

    1 下载MYNT EYE 1 x SDK压缩包 首先 xff0c 点击进入github官网 xff0c 在右上角的搜索栏中输入mynt xff0c 进入如下界面 xff1a 点击第四个slightech MYNT EYE SDK进入 xff
  • UART通用异步收发传输器

    UART 全称Universal Asynchronous Receiver Transmitter xff0c 通用异步收发传输器 xff0c 是一种串行异步收发协议 又称为串口 xff09 功能是将并行的数据转变为串行的数据发送或者将接
  • C语言如何实现输入特定字符串(单词)作为终止符

    本文章以一个例题来进行讲解 xff08 新手第一次写 xff0c 目的仅是分享自己写代码中想到的一些方法和技巧 xff0c 仍存在很多不足 xff0c 希望能对大家有用 xff09 题目要求 xff1a 有一篇文章 xff0c 共有多行文字
  • kubernetes 教程 笔记

    K8s 安装kub ectl 下载kubectl curl LO 34 https dl k8s io release curl L s https dl k8s io release stable txt bin linux amd64
  • ros uwb2world坐标转换python示例

    ros uwb2world坐标转换python示例 span class token comment coding 61 utf 8 span span class token comment usr bin env python span
  • ARUCO marker的解释

    markers for ARUCO 一种汉明 海明 码的格子图 如图 百度百科解释汉明码规则概要 使用奇偶校验 具有一位纠错能力 校验位在2的次幂位置1 2 4 8 16 32 具体参看 https baike baidu com item
  • 使用ros_control ros_controllers 的牛刀真实驱动舵机手臂的源码

    现场 rqt graph 在一个陌生的框架下写代码 xff0c 免不了有很多疑问与槽点 不了解框架结构 xff0c 千头万续 xff0c 无从下手 xff0c 说不清 xff0c 理还乱 资料少没有文档 xff0c 要读懂程序猿的心 xff
  • 经典的pid公式,好脑子不如烂笔头。

    这个算法涉及昨天 xff0c 今天 xff0c 明天 思路就是以史为鉴 xff0c 预测明天 xff0c 改革当前
  • c++对8位灰度图进行二值化处理

    对灰度图进行位二值化 xff0c 输入图像像素部分的宽度和高度以及存储灰度像素值 得一维数组 xff0c 对灰度值进行直方图统计 xff0c 通过OSTU大律法公式 xff0c 确定自动灰度 图的阈值 xff0c 进而进行二值化处理 xff
  • vue 数组常用方法(总结)

    vue 数组常用方法 操作原数组push item pop shift unshift item n splice startIndex endIndex sort reverse 返回新数组slice startIndex endInde
  • 【亲测可用】kali linux 2020.1 设置为中文方法

    目录 0x00 提示0x01 更换更新源0x02 默认语言选择0x03 安装中文字体0x04 重启 xff0c 完成0x05 参考文章 kali 2020 1可用 进入我们的正题 xff0c 修改为中文的步骤 0x00 提示 由于kali
  • QT的TCP应用-传输图片

    1 server h span class token macro property span class token directive hash span span class token directive keyword ifnde
  • gazebo教程---使用roslaunch来启动gazebo,加载models

    1 使用roslaunch加载一个世界模型 roslaunch gazebo ros willowgarage world span class token punctuation span launch 运行效果如图 xff1a 下面看一
  • gazebo教程---ros_control

    一 ros control和Gazebo的数据流向 在Gazebo中模拟机器人的控制器是可以通过使用ros control和一个简单的Gazebo插件适配器来完成 下面是仿真 xff0c 硬件 xff0c 控制器和传动之间关系的概览 xff
  • CentOS Stream 安装 Docker

    版本LinuxCentOS Stream release 8 xff08 需要 CentOS 7 及以上 xff09 Docker20 10 17 卸载旧版本 旧版本的 Docker 被称为 docker 或 docker engine 如
  • CMakeLists.txt和.h头文件

    CMakeLists txt格式 xff08 随学习进度不断更新 xff09 声明要求的cmake最低版本 cmake minimum required VERSION 2 8 声明一个cmake工程 project HelloSLAM 添
  • 网络程序设计 面向TCP/IP编程总结

    第一章 网络编程基础知识 网络由节点和连线构成 现实用应用中的网络由硬件设备 xff08 路由器 交换机 网线 xff09 43 应用软件组成 计算机网路技术发展的第一个里程碑以报文或分组交换技术的出现为标志 数据交换的三种主要形式 xff
  • 训练时的Batchsize和Epoch之间的区别是什么?

    阅读这篇文章后 xff0c 你会知道 xff1a 随机梯度下降是一种迭代学习算法 xff0c 它使用训练数据集来更新模型 批量大小是梯度下降的超参数 xff0c 在模型的内部参数更新之前控制训练样本的数量 Epoch数是梯度下降的超参数 x