计算梯度的三种方法：数值法，解析法，反向传播法

2023-11-07

一个简单的函数：

Python:

f(x,y,z)=(x+y)z

# coding=gbk

"""
function : f(x,y,z) = (x+y)z
"""
# first method   解析法
def grad1(x,y,z):
    dx = z
    dy = z
    dz = (x+y)
    return (dx,dy,dz)
# second method  数值法
def grad2(x,y,z,epi): 
    # dx
    fx1 = (x+epi+y)*z
    fx2 = (x-epi+y)*z
    dx = (fx1-fx2)/(2*epi)
    # dy
    fy1 = (x+y+epi)*z
    fy2 = (x+y-epi)*z
    dy = (fy1-fy2)/(2*epi)
    # dz
    fz1 = (x+y)*(z+epi)
    fz2 = (x+y)*(z-epi)
    dz = (fz1-fz2)/(2*epi)
    return (dx,dy,dz)
# third method 反向传播法
def grad3(x,y,z): 
    # forward
    p = x+y;
    f = p*z;    
    # backward
    dp = z
    dz = p
    dx = 1 * dp
    dy = 1 * dp
    return (dx,dy,dz)

print ("<df/dx,df/dy,df/dz>: %.2f %.2f %.2f"%(grad1(1,2,3)))       
print ("<df/dx,df/dy,df/dz>: %.2f %.2f %.2f"%(grad2(1,2,3,1e-5)))
print ("<df/dx,df/dy,df/dz>: %.2f %.2f %.2f"%(grad3(1,2,3)))

结果：

<df/dx,df/dy,df/dz>: 3.00 3.00 3.00
<df/dx,df/dy,df/dz>: 3.00 3.00 3.00
<df/dx,df/dy,df/dz>: 3.00 3.00 3.00

复杂一点的函数

以Sigmoid 为例：

f(w,x)=11+e−(w0x0+w1x1+w2)

上面的Sigmoid 函数是输入二维的情况。 x=[x0x1]T
, w=[w0,w1]T , w2=b

显然函数是一个复合函数，是简单函数： f(x)=1x,f(x)=ex,f(x)=ax,f(x)=c+x 复合而成。

因此，我们可以写成：波兰表达式树的形式。

这里我们只关心关于 w 的梯度，我们将函数写为：

f(w)=11+e−(w0x0+w1x1+w2)

Matlab:


clc;
%% 下面向量书写的格式不采用统一规范形式。例如全部采用列向量的形式等。
w = [2,-3,-3];
x = [-1,-2];
% 一般形式的反向传播
[dw0,dw1,dw2] = grad1(w(1),w(2),w(3),x(1),x(2));
fprintf('%.8f,%.8f,%.8f \n',dw0,dw1,dw2);
% 数值法
[dw0,dw1,dw2] = grad2(w(1),w(2),w(3),x(1),x(2),1e-5);
fprintf('%.8f,%.8f,%.8f \n',dw0,dw1,dw2);
% 技巧形式的反向传播
dw = grad3(w,x);
fprintf('%.8f,%.8f,%.8f \n',dw(1),dw(2),dw(3));
% 解析法
dw = grad4(w,x);
fprintf('%.8f,%.8f,%.8f \n',dw(1),dw(2),dw(3));

% 一般形式的反向传播
function  [dw0,dw1,dw2] = grad1(w0,w1,w2,x0,x1)

% forward
p0 = -1*(w0*x0+w1*x1+w2);
p1 = exp(p0);
p2 = 1+p1;
p3 = 1/p2;
% backward
dp2 = (-1)*(p2^(-2));
dp1 = 1*dp2;
dp0 = dp1*exp(p0);

dw0 = dp0*(-x0);
dw1 = dp0*(-x1);
dw2 = dp0 *(-1);
end
% 数值法
function  [dw0,dw1,dw2] = grad2(w0,w1,w2,x0,x1,epi)
% dw0
f1w0 = 1.0/(1+exp(-1*((w0+epi)*x0+w1*x1+w2)));
f2w0 = 1.0/(1+exp(-1*((w0-epi)*x0+w1*x1+w2)));
dw0 = (f1w0 - f2w0)/(2*epi);
% dw1
f1w1 = 1.0/(1+exp(-1*(w0*x0+(w1+epi)*x1+w2)));
f2w1 = 1.0/(1+exp(-1*(w0*x0+(w1-epi)*x1+w2)));
dw1 = (f1w1 - f2w1)/(2*epi);
% dw2
f1w2 = 1.0/(1+exp(-1*(w0*x0+w1*x1+(w2+epi))));
f2w2 = 1.0/(1+exp(-1*(w0*x0+w1*x1+(w2-epi))));
dw2 = (f1w2 - f2w2)/(2*epi);
end
% 技巧形式的反向传播
% 利用sigmoid 函数的技巧：  sigma(x)' = (1-sigma(x))*sigma(x)
function  dw = grad3(w,x)
% forward
dot = w(1)*x(1) + w(2)*x(2) + w(3);
f = 1.0/(1+exp(-dot));
% backward
ddot = (1-f)*f;
dx = [w(1)*ddot,w(2)*ddot]; % 不输出
dw = [x(1)*ddot,x(2)*ddot,1.0*ddot];
end
% 解析法
%  f(w)' = 1/(1+e^())  * e^() * (-x0)
function  dw = grad4(w,x)
x = [x 1];
dw = (-1)*(1+exp(- w*x'))^(-2)*exp(- w*x').*(-x);
end

结果：

-0.19661193,-0.39322387,0.19661193 
-0.19661193,-0.39322387,0.19661193 
-0.19661193,-0.39322387,0.19661193 
-0.19661193,-0.39322387,0.19661193

更复杂一些的函数

如下函数：

f(x,y)=x+σ(y)σ(x)+(x+y)2

其中

σ(x)=11+e−x

上述公式写出解析形式的表达式，似乎吃力。

略… 请参考[参考文献].

参考文献：

https://zhuanlan.zhihu.com/p/21407711?refer=intelligentunit [CS231n课程笔记翻译：反向传播笔记]
http://cs231n.github.io/optimization-2/ [CS231n backpropagation]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

凸优化

深度学习Deep Learning

计算梯度的三种方法：数值法，解析法，反向传播法的相关文章

ChatGPT“保姆级教程”——手把手教你1分钟快速制作思维导图(Markmap/Xmind+Markdown)

目录前言使用ChatGPT生成markdown格式主题 Markmap Markdown 使用Markmap生成思维导图 Xmind Markdown 使用Xmind生成思维导图建议其它资料下载前言思维导图是一种强大的工具它可
hdu 1003 最大连续子序列和及起始位置 && hdu 1087 最大上升子序列和

hdu 1003 题意求最大连续子序列和及起始位置对于动态规划问题要找出其子问题考虑到dp的无后效性 dp i 表示以i为结尾的最大值当dp i 1 gt 0时以i 1为值对以i为结尾的值有贡献否则起始位置变为自己动态地更新最
[从零开始学DeepFaceLab-6]: 使用-命令行八大操作步骤-第3步：从目标视频中提取图片

目录总体流程步骤3 从目标视频中提取图片 3 0 目标视频文件和大小的选择 3 1 命令 3 cut video drop video on me bat 可选
三大主流软件负载均衡器对比(LVS、Nginx、HAproxy)

资料来自网络做了部分的补充说明 LVS 1 抗负载能力强性能高能达到F5的60 对内存和CPU资源消耗比较低 2 工作在网络4层通过VRRP协议仅作代理之用具体的流量是由linux内核来处理因此没有流量的产生 3 稳定可靠性
vue生命周期 —— 模板编译

Vue 的 template 是如何编译成真正的 HTML 并做到双向绑定等等特殊功能的呢在这张图中我们可以看到 Vue 的模板编译是在 mount 的过程中进行的在 mount 的时候执行了 compile 这个方法来将 templ
Linux 根目录满了 linux根目录扩容方法详解！！!

CentOS 7根目录扩容方法最近公司测试服务器根目录满了便有同事网上找了教程进行扩容但是由于找的教程不够严谨导致扩容失败还丢失了一部分文件所以这里详细说明一下方法方法流程说明 1 查看系统存储空间看一下 home做在卷已用
【angular】项目实践-表格显示

介绍前端中经常用到的组件就是表格了下面简单介绍下表格的显示 HTML文件 div class container style margin bottom 10px width 95 div class row div div
SpringBoot -- 使用logback记录日志

Logback介绍 Logback是由log4j创始人设计的另一个开源日志组件官方网站 http logback qos ch Logback的内核重写了在一些关键执行路径上性能提升10倍以上而且logback不仅性能提升了初始化内
vue v-for循环中如何给部分元素添加事件和样式

vue中给循环元素统一添加事件和样式很简单下面看下单独给某个循环出来的元素添加事件和样式如何实现 demo vue
IPsec ×××基本实验

IPsec 基本实验一实验拓扑二实验原理 IKE概述用IPsec保护一个IP包之前必须先建立一个安全联盟 SA SA可以手动创建或者动态建立 Internet密钥交换 IKE 用于动态建立SA IKE的精髓通过一系列数据的交换
windows 服务器部署java项目

第一步下载软件只下载我这里需要的软件如有不同请自行百度链接 https pan baidu com s 1pAWffZZvKW2B9tj3YEuHeA pwd rps4 提取码 rps4 第二步配置软件环境变量配置并安装jdk

随机推荐

Jmeter系列-测试计划详细介绍（3）

测试计划的作用测试计划描述了 Jmeter 在执行时一系列的步骤一个完整的测试计划包含了一个或多个线程组逻辑控制器采样器监听器定时器断言和配置元素 Jmeter原件和组件的介绍基本元件的介绍多个类似功能组件的容器类
浅谈Unity资源异步加载和Coroutine的使用

为了节省内存游戏的一些资源往往需要在运行时 runtime 动态加载如果资源本身加载比较耗时采用同步方法会产生卡顿现象对此的解决方法通常采用多线程或者使用引擎本身自带的异步加载方法在Unity开发中由于一些方法如Resourc
微信小程序 audio 音频组件

完整微信小程序 Java后端技术贴目录清单页面必看音频 1 6 0版本开始该组件不再维护建议使用能力更强的 wx createInnerAudioContext 接口属性类型默认值必填说明最低版本 id string
知识图谱——Python操作Neo4j导入CSV文件建立图谱

首先Neo4j是图数据库最重要的就是结点和边的关系每两个结点和边都可以看成三元组主谓宾的关系当然结点也是可以添加属性的但是首先要有结点在添加属性本片文章就是用简单的方式一次性给大家讲解清楚简单起见我们用西游记师徒四人为例子
HC-SR505红外感应模块驱动（STM32）

一前期准备单片机 STM32F103ZET6 开发环境 MDK5 14 库函数标准库V3 5 HC SR505红外感应模块淘宝有售二实验效果三驱动原理这个模块比较简单当有人靠近时候其IO输出3 3V STM32可以直接采
Scrapy知识系列：使用CrawlerProcess从外部运行多个spider时，运行脚本需要与scrapy.cfg在同级目录

说明如题否则settings pipelines middlewares都没有办法直接使用修改起来非常麻烦
JAVAWEB学习笔记-前端基础

文章目录 HTML篇 HTML简介 HTML元素开始编写 CSS篇认识css CSS 规则集解释 css的初步使用在HTML里使用CSS 外部样式表内部样式表内联样式规则速记属性 CSS工作原理 HTML篇 HTML简介参
postgres wal2json插件jsonb字段数据丢失问题解决

使用pg wal2json debezium进行数据同步时发现偶尔会有jsonb字段数据丢失的问题进行测试时发现 1 发生数据丢失的jsonb字段长度都比较大超过toast阈值使用toast表存储 2 针对发生jsonb字段丢失的数
llvm libLLVMCore源码分析 04 - Use Class

源码路径 llvm include llvm IR Use h llvm include llvm IR Value h llvm include llvm IR User h llvm Use class 在之前的系列文章中我们讲到Us
npm，cnpm，yarn，tyarn 区别

做前端的应该都用过标题提到的包管理器简单说一下这4个包管理器的区别 npm 这应该是最常用的在某些情况会出现丢包而且由于某种原因会下载很慢通常会配置国内镜像我已经很少用npm了主要用它下载 cnpm 或 yarn cnpm 这个
为什么您的WordPress网站会容易被黑客攻击

首先不仅是WordPress 互联网上所有具有内容管理系统 CMS 的网站都容易受到黑客攻击 WordPress网站成为通用目标的原因是因为WordPress是世界上最受欢迎的网站CMS 它为全球超过33 的网站提供支持这种巨大的流行度
【Spring Boot 源码学习】@SpringBootApplication 注解

Spring Boot 源码学习系列 SpringBootApplication 注解引言主要内容 1 创建 Spring Boot 项目 2 Spring Boot 入口类 3 SpringBootApplication 介绍总结
结构体中定义函数指针

结构体指针变量的定义定义结构体变量的一般形式如下形式先定义结构体类型再定义变量 struct 结构体标识符成员变量列表 struct 结构体标识符指针变量名变量初始化 struct 结构体标识符变量名初始化值1 初始化值2
【MYSQL】排序时如何将0排到最后，并让其他值按正序展示？

背景展示排名时需要1 2 3 4 5 这样展示但是有些没有排名得数据字段默认值时0 这时直接用ASC就会出现问题实现效果实现方式使用MySQL的ORDER BY语句来实现以下是一个示例的SQL查询语句 SELECT FROM ta
划拳 C语言

划拳是古老中国酒文化的一个有趣的组成部分酒桌上两人划拳的方法为每人口中喊出一个数字同时用手比划出一个数字如果谁比划出的数字正好等于两人喊出的数字之和谁就赢了输家罚一杯酒两人同赢或两人同输则继续下一轮直到唯一的赢家出现下面给
IDEA导入maven依赖失败解决方法

由于网络问题 maven依赖经常会导入失败一般的jar包是从中央仓库或阿里云仓库进行拉取网络加载慢超时等原因导致相关依赖jar包导入不全下面就我在实际的项目导入操作中遇到的问题及解决方法进行总结梳理希望可以帮助到大家方法一更换仓
数据结构-单链表交换相邻两个元素-java

1 递归法时间复杂度O n 递归的时间复杂度一般看层数这个层数是n层每层执行一次操作所以是O n 原理把后半部分看成已经反转好的数据 public ListNode reverseAdjoinList ListNode head
运放的PID电路

PID就是比例 proportion 积分 integral 导数 derivative 在工程实际中应用最为广泛的调节器控制规律为比例积分微分控制简称PID控制又称PID调节运放的积分电路运放的微分电路微分电路的输出端和
【Python机器学习】KNN进行水果分类和分类器实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信 KNN算法简介 KNN K Nearest Neighbor 算法是机器学习算法中最基础最简单的算法之一它既能用于分类也能用于回归 KNN通过测量不同特征值之间的距离来进行分类 KNN算
计算梯度的三种方法：数值法，解析法，反向传播法

计算梯度的三种方法数值法解析法反向传播法一个简单的函数 Python f x y z x y z begin equation begin aligned f x y z x y z end aligned end equation

计算梯度的三种方法： 数值法，解析法，反向传播法

一个简单的函数：

复杂一点的函数

更复杂一些的函数

计算梯度的三种方法： 数值法，解析法，反向传播法 的相关文章

随机推荐

热门标签

计算梯度的三种方法：数值法，解析法，反向传播法

计算梯度的三种方法：数值法，解析法，反向传播法的相关文章