浅谈对梯度下降法的理解

2023-11-10

浅谈梯度下降法

如果读者对方向导数和梯度的定义不太了解，请先阅读上篇文章《方向导数与梯度》。

前些时间接触了机器学习，发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法。梯度下降算法过程如下：

1）随机初始值；

2）迭代，直至收敛。表示在处的负梯度方向，表示学习率。

在这里，简单谈一下自己对梯度下降法的理解。

首先，要明确梯度是一个向量，是一个n元函数f关于n个变量的偏导数，比如三元函数f的梯度为(f_x,f_y,f_z)，二元函数f的梯度为(f_x,f_y），一元函数f的梯度为f_x_。然后要明白梯度的方向是函数f增长最快的方向，梯度的反方向是f降低最快的方向。

我们以一元函数为例，介绍一下梯度下降法。

设f(x) = (x-1)²+1/2，

上图给出了函数f的图像和初始值x₀，我们希望求得函数f的最小值，因为沿负梯度方向移动一小步后，f值降低，故只需x₀沿着负梯度方向移动一小步即可。

而f在点x₀的导数大于0，从而f在点x₀的梯度方向为正，即梯度方向为f’(x₀)，故由梯度下降法可知，下一个迭代值，也就是说x₀向左移动一小步到了x₁，同理在x₁点的导数同样大于零，下一次迭代x₁向左移动一小步到达x₂，一直进行下去，只要每次移动的步数不是很大，我们就可以得到收敛1的解x。

上述证实了我们对分析（蓝色倾斜字体）的验证。

同样，如果处置选在了最小值的左边，即如图所示：

由于f’(x₀)<0，所以梯度方向为负，负梯度方向为正，故需将x₀沿负梯度方向移动一小步，即向右移动一小步，这样使得f值更小一些。或用梯度下降法迭代公式，依次我们可以得到如图所示的x₁,x₂,...,x_k,...，直到收敛至最小值。

对于二元函数，我们也可以通过实例验证梯度下降法的合理性：

在每次得到一个点(x_k,y_k)时，我们需要计算(f_x(x_k),f_y(y_k))，这个方向表示梯度f增长最快的方向，-(f_x(x_k),f_y(y_k))表示梯度下降最快的方向，故只需将(x_k,y_k)沿着-(f_x(x_k),f_y(y_k))这个方向移动一小步，就可以减少f的值，直至收敛到最小值，如上图所示。

谈几点梯度下降法需要注意的地方，也是自己对梯度下降法的理解：

1）梯度下降不一定可以收敛到最小值。

梯度下降法是收敛到局部最小值，不一定可以收敛到全局最小值。

比如：

我们初始值选择了如图的x₀，由于f在点x₀的导数大于0，梯度方向向右，负梯度方向向左，从而x₀向左移动，逐渐收敛到了局部最小值，而不能收敛到全局最小值。

2）学习率的大小要适中。

学习率太小，每次移动步长太小，收敛太慢，这个比较容易理解。

学习率太大，每次移动步长大，可能导致不收敛，这里用一个图来表示一下：

由于距离最小值点越远，导数越大，从而导致步长越来越大，不会收敛。

3）不一定选择负梯度方向，只要是值下降的方向即可。

在每一次迭代选择方向时，我们只要选择与梯度方向夹角小于90度的向量的反方向就可，不一定要选择负梯度方向。但由于，满足这样条件的向量不太容易求出，我们就选择了与梯度方向0度的向量的反方向（负梯度方向），而且这个方向函数值减少的更快，更快的收敛，故是个不错的选择。

4）求最大值的梯度上升法。

f的梯度方向是f的值增长最快的方向。我们每次沿负梯度方向移动一小步可以逐步收敛到局部最大值，因此我们每次沿梯度方向也可以得到函数f的局部最大值。迭代公式为：

，

这里表示在处的梯度方向，与梯度下降法的含义不同。

本文由作者结合自己对梯度的理解写出，希望对大家有所帮助，敬请阅读、指正。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

浅谈对梯度下降法的理解的相关文章

最速下降法python_Python-梯度下降法（最速下降法）求解多元函数

import matplotlib pyplot as plt from mpl toolkits mplot3d import Axes3D import numpy as np def Fun x y 原函数 return x y 43
【数学知识】质数与质因子

一质数 1 概念质数又称素数一个大于1的自然数 xff0c 除了1和它自身外 xff0c 不能被其他自然数整除的数叫做质数 xff0c 否则称为合数规定1既不是质数也不是合数质数的个数是无穷的 2 例题 xff1a AcWing 3
数学知识---数论（质数和约数）

文章目录 1 质数1 1质数的判定试除法1 2分解质因数试除法 1 3筛质数2 约数2 1试除法求约数2 2约数个数2 3约数之和2 4最大公约数欧几里得算法 xff08 辗转相除法 xff09 1 质数质数是针对所有大于1的自然数
多益网络校招笔试题

马上要参加多益的笔试了所以在网上找了一下多益的笔试题原文我感觉我想出了一个更简单的方法时间复杂度O 1 如果有问题希望大家及时指正题目如下给定一个数x x gt 5 找到该数与3 4之间的关系关系如下 x 3 n 4 m 然后
2023-9-11 高斯消元解异或线性方程组

题目链接高斯消元解异或线性方程组 include
FFT将时域信号变换到频域里面的一些重要知识点记录

一 FFT是离散傅立叶变换采样得到的数字信号就可以做FFT变换了 N个采样点经过FFT之后就可以得到N个点的FFT结果为了方便进行FFT运算通常N取2的整数次方假设采样频率为Fs 信号频率F 采样点数为N 那么FFT之后结果就
Acwing 893. 集合-Nim游戏

Mex运算设S表示一个非负整数集合定义mex S 为求出不属于集合S的最小非负整数的运算即 mex S min x x属于自然数且x不属于S SG函数在有向图游戏中对于每个节点x 设从x出发共有k条有向边分别到达节点y1 y2
直线拟合的三种方法

近日考虑直线拟合相关的知识大概有所了解所以打算进行一些总结直线拟合常用的三种方法一最小二乘法进行直线拟合二梯度下降法进行直线拟合三高斯牛顿列马算法进行直线拟合一使用最多的就是最小二乘法这里我也对最小二乘法进行了一
梯度下降法及其Python实现

梯度下降法 gradient descent 又名最速下降法 steepest descent 是求解无约束最优化问题最常用的方法它是一种迭代方法每一步主要的操作是求解目标函数的梯度向量将当前位置的负梯度方向作为搜索方向因为在该方向
SVD分解的并行实现

在之前的文章中我对SVD进行了大致的了解它在互联网高端领域中有广泛的应用至于它的一些详细应用以后再进一步学习现在主要的问题是如何有效地实现SVD分解接下来我会先用两种方法来实现SVD分解即基于双边Jacobi旋转的SVD和基
2023-9-8 求组合数(一)

题目链接求组合数 I include
矩阵内积运算

设有矩阵A a1 a2 a3 a4 和矩阵 B b1 b2 b3 b4 那么矩阵A与B的内积为内积 a1 x b1 a2 x b2 a3 x b3 a4 x b4
Acwing-870. 约数个数

N的任何一个约数都是d的形式而且d每一项的指数都不同所以N的约数与 1 k的取法是一致的 N的每一个约数都对应了 1 k的一种取法不同的取法对应不同的约数由算数基本定理每一个数的因式分解是唯一的只要因式分解不一样那么这两个数就
组合数学-鸽巢原理

中国剩余定理证明笔记
Acwing 892. 台阶-Nim游戏

此时我们需要将奇数台阶看做一个经典的Nim游戏如果先手时奇数台阶上的值的异或值为0 则先手必败反之必胜证明先手时如果奇数台阶异或非0 根据经典Nim游戏先手总有一种方式使奇数台阶异或为0 于是先手留了奇数台阶异或为0的状态给后手
对比梯度下降和正规方程解性能

现在用导数的方式模拟线性回归中的梯度下降法首先再来回顾一下梯度下降法的基础梯度下降法不是一个机器学习算法而是一个搜索算法梯度下降法用在监督学习中梯度下降法的过程对比模型输出值和样本值的差异不断调整本省权重直到最后模型输出值和样
4261. 孤独的照片

数据范围为500 000 所以应该控制在O nlogn 或O n 我们发现要枚举的子串它其中有一个字母只出现一次所以我们可以去枚举只出现一次的字母是哪个假设在第i个位置的字母为G 我们要枚举包含这个字母的且只包含一个G的且长度大于
Acwing-27. 数值的整数次方

由于本题的指数是int范围可能很大所以需要用快速幂 Acwing 875 快速幂中有详细介绍快速幂点击链接即可传送求解 https blog csdn net weixin 43844521 article details 127
Acwing-4366. 上课睡觉

假设最终答案为每堆石子均为cnt个 cnt一定可以整除sum 石子的总数我们可以依次枚举答案 sum小于等于10 6 所以cnt的数量等于sum约数的个数 10 6范围内约数最多的数为720720 它的约数个数有240个 int范围内
Acwing 890. 能被整除的数

注 S 表示集合S中的元素个数对于 S1 U S2 U S3 U U Sn 中的任意一个元素x 证明在等式右侧只被计算一次上述证明中假设x属于k个集合推出x会被计算的次数注 Si是指1 n中i的倍数的个数使用容斥原理的时间复杂度是

随机推荐

计算机网络安全防范的论文,计算机网络安全防范策略毕业论文.doc

计算机网络安全防范策略毕业论文 PAGE PAGE PAGE I 摘要信息技术的使用给人们的生活工作带来了数不尽的便捷和好处然而计算机信息技术也和其他技术一样是一把双刃剑当大部分人们使用信息技术提高工作效率为社会创造更多财富的同
oracle数据库下创建用户

一使用sqlplus 创建用户 1 登陆到sqlplus 2 键入 create user user name identified by password user name 要用户名 password 对应的密码 3 键入 Grant
v-loading

使用v loading在接口为请求到数据之前显示加载中直到请求到数据后消失
OpenLayers - Vector绘制地图省市区（十）

简介本文讲解经常在开发中出现的功能绘制地图省市区主要使用Vector图层通过绘制多边行的方法绘制出省市区的多边行把该图层添加到地图图层上就实现了绘制省市区图形 Vector 矢量图层在客户端呈现的矢量数据构成一个矢量图层需要
c++中的虚特性（虚基类、虚函数、纯虚函数）

1 虚基类 1 1 虚基类作用为了解决多继承时的命名冲突和冗余数据问题使得派生类中只保留一份间接基类的成员其本质是是让某个类做出声明承诺愿意共享它的基类其中这个被共享的基类就称为虚基类 Virtual Base Class 换个
三种经典图像滤波方法介绍——双边滤波(Bilateral filter)、导向滤波(Guided Fliter)、滚动导向滤波(RollingGuidedFilter)

文章目录一前言二双边滤波 Bilateral filter 2 1 双边滤波的理论介绍及公式推导 2 2 双边滤波的matlab程序实现三导向滤波 Guided Fliter 3 1 导向滤波的理论介绍及公式推导 3 2 导向滤
linux安装mysql菜鸟教程_新手搭建linux服务器——mysql环境安装

mysql环境安装 Linux下使用yum安装MySQL 以及启动登录和远程访问MySQL数据库 1 yum y update 更新yum包 2 重启服务器 reboot 3 检查有木有安装php v 4 rpm qa gerp mysq
java90到100随机数生成器_java实现随机数生成器

本文实例为大家分享了java实现随机数生成器的具体代码供大家参考具体内容如下自己编的随机数生成器比较简陋功能也单一当作练手 application java package src public class applicatio
简单上手Raspberry Pi Pico（Ubuntu+MicroPython）

关于raspberry pi pico的信息我就不多介绍了直接给几个关键词吧售价4 微控制器 MicroPython C C 树莓派基金会自研RP2040芯片两本官方推荐的书 MicroPython版 Get started with
计算机内核态和用户态,用户态和内核态的区别是什么

用户态和内核态的区别是内核态运行操作系统程序操作硬件用户态运行用户程序当程序运行在3级特权级上时可以称之为运行在用户态当程序运行在0级特权级上时称之为运行在内核态本文操作环境 windows10系统 thinkpad t49
修复Qt程序长时间运行控件停止刷新

问题描述我的Qt程序有一个时间显示的功能由于需要保持长期运行这个时间控件就需要长期持续刷新但是当程序运行一段时间后这个控件就似乎累了一样不再继续刷新了为了解决这个问题我尝试过很多方法包括每隔一段时间获取时间sette
linux下安装mysql5.7.17及简单配置&&HIVE安装和使用

1 mysql5 7 17安装在 usr local mysql目录里面也可以安装在其他地方安装包最好与Linux系统一样 eg 32位的就是 mysql 5 7 17 linux glibc2 5 i686 tar gz 官网可下载
基于Android+OpenCV+CNN+Keras的智能手语数字实时翻译——深度学习算法应用(含Python、ipynb工程源码)+数据集（一）

目录前言总体设计系统整体结构图系统流程图运行环境 Python环境 TensorFlow环境 Keras环境 Android环境 1 安装AndroidStudio 2 导入TensorFlow的jar包和so库 3 导入Open
【cfeng work】什么是SaaS？ SaaS详细介绍

WorkProj 内容管理 SaaS SaaS的优势 SaaS的注意项 SaaS产品核心组件 cfeng结合work理解SaaS 本文introduce SaaS的相关内容昨天cfeng已经介绍过云原生了其实就是应用在设计上就要围绕Cl
来可电子CAN转232/485设备在使用时可能遇到的问题和解决方案

使用场景上位机软件通过232串口发送数据经过CAN转232设备转换成CAN数据发送到仪表中仪表接收到指定的数据后返回特定的CAN数据串口调试工具数据收发测试 CAN转232设备在使用中的接线使用过程中可能遇到的问题 1 串口按照规
JDBC概述

JDBC JDBC Java Database Connectivity java数据库连接 java语言中用于连接各种数据库的应用程序编程接口为了解决使java 编写的程序不再依赖于具体的数据库 JDBC操作不同数据库仅仅只是连接方式
逆天啦！国产自研多环境开发软件 CEC-IDE 问世，“卡脖子”问题完美解决？

来自 JavaGuide 震撼到了厉害继国产自研浏览器国产自研操作系统国产自研手机系统后的全新力作国产自研 IDE 它就是 CEC IDE 一款由数字广东公司与麒麟软件联合打造的是国内首个适配国产操作系统自主创新的一款安全专
李沐论文精读系列一： ResNet、Transformer、GAN、BERT

文章目录一 ResNet 1 0 摘要论文导读 1 1 导论 1 1 1 为什么提出残差结构 1 1 2 实验验证 1 2 相关工作 1 3 实验部分 1 3 1 不同配置的ResNet结构 1 3 2 残差结构效果对比 1 3 3 残
Discuz论坛创始人/超级管理员密码忘记解决办法！

1 首先要明白一个基础知识网站的管理员 admin 和创始人 UCenterAdministrator 不是一回事一般人都误把admin当成UCenterAdministrator 而那些懂的人在给人们讲如何找回密码比方使用tools
浅谈对梯度下降法的理解

浅谈梯度下降法如果读者对方向导数和梯度的定义不太了解请先阅读上篇文章方向导数与梯度前些时间接触了机器学习发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法梯度下降算法过程如下 1 随机初始值 2 迭代直至收敛表

浅谈对梯度下降法的理解

浅谈对梯度下降法的理解 的相关文章

随机推荐

热门标签

浅谈对梯度下降法的理解的相关文章