深度学习之AdaGrad算法

2023-11-02

AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率，从而避免统一的维度难以适应所有维度的问题。

特点：

小批量随机梯度按元素累加变量，出现在学习率的分母项中。（若目标函数有关自变量的偏导数一直都较大，那么学习率下降较快；反之亦然。）
若迭代早期下降过快 + 当前解仍然不佳，可能导致很难找到有效解。

一、算法初解

实现AdaGrad算法，使⽤的学习率为0.4。输出的⾃变量的迭代轨迹较平滑。但由
于累加效果使学习率不断衰减，⾃变量在迭代后期的移动幅度较⼩。

%matplotlib inline
import math
import torch
import sys 
sys.path.append("..")
import d2lzh_pytorch as d2l 

def adagrad_2d(x1, x2, s1, s2):
    g1, g2, eps = 0.2 * x1, 4 * x2, 1e-6 
    s1 += g1 ** 2 
    s2 += g2 ** 2 
    x1 -= eta /math.sqrt(s1 + eps) * g1
    x2 -= eta / math.sqrt(s2 + eps) * g2
    return x1, x2, s1, s2

def f_2d(x1, x2):
    return 0.1 * x1 **2 + 2 *x2 ** 2 

eta = 0.4 
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

运行结果：

将学习率增⼤到2。可以看到⾃变量更为迅速地逼近了最优解

eta = 2 
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

运行结果：

二、从零开始实现

同动量法⼀样，AdaGrad算法需要对每个⾃变量维护同它⼀样形状的状态变量。下面根据AdaGrad算
法中的公式实现该算法。

# 从零开始实现
%matplotlib inline
import math
import torch
import sys 
sys.path.append("..")
import d2lzh_pytorch as d2l 

features, labels = d2l.get_data_ch7()

def init_adagrad_states():
    s_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    s_b = torch.zeros(1, dtype=torch.float32)
    return (s_w, s_b)

def adagrad(params, states, hyperparams):
    eps = 1e-6
    for p, s in zip(params, states):
        s.data += (p.grad.data**2)
        p.data -= hyperparams['lr'] * p.grad.data / torch.sqrt(s + eps)
        
d2l.train_ch7(adagrad, init_adagrad_states(), {'lr' : 0.1},features,labels)

运行结果：

三、出现的运行错误

错误代码OSError: ../../data/airfoil_self_noise.dat not found.找不到文件：

在这个网站下载"airfoil_self_noise.dat"，将其放入这个路径中“ ../../data/airfoil_self_noise.dat”。即可运行成功。

参考链接：https://zh.d2l.ai/chapter_optimization/adagrad.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习之AdaGrad算法的相关文章

Unity之Matrix4x4 矩阵

Matrix4x4 矩阵 Struct A standard 4x4 transformation matrix 一个标准的4x4变换矩阵 A transformation matrix can perform arbitrary line
Qt中关于定时器timerEvent和QTimer

1 Qt 定时器类 QTimer 在进行窗口程序的处理过程中经常要周期性的执行某些操作或者制作一些动画效果使用定时器类 QTimer 就可以解决使用只需创建一个 QTimer 类对象然后调用其 start 函数开启定时器此后
C#实现多语言切换（通过Resource语言包文件实现）

点我下载多语言切换项目最全源码 1 先说说Resources语言包文件是怎么来的通过Visual Studio 命令提示工具将txt文件转换成resources文件具体操作 a 打开Visual Studio 命令提示工具然后输入你
EXT2.2 grid行不能复制信息的解决方法

在ext all js的后面加入如下js if Ext grid GridView prototype templates Ext grid GridView prototype templates Ext grid GridView pr
当下用途最广的计算机语言,目前为止国际上最主流的计算机编程语言是什么？...

看主流的观察角度如果是这些语言编写的软件的用户数量最多那么肯定是C和C 了因为我们的操作系统例如WINDOWS IOS LINUX 和核心应用程序例如OFFICE IE CHROME 以及绝大多数的游戏几乎全都是C和C 以及少量
除了中国好声音，星空华文冲刺港股IPO还有其他王牌吗？

回顾国内的综艺节目发展史中国好声音曾是里程碑式的存在曾一度稳坐各大省级卫视综艺节目收视率的头把交椅更是民间歌手们心中殿堂级的存在但它背后的制作公司星空华文似乎却江河日下 5月13日星空华文再次发起IPO 这一回选择登陆的是港交
JSP中，AJAX使用POST方式提交中文乱码问题解决

本人原创欢迎转载转载请保留本人信息作者 wallimn 电邮 wallimn sohu com 博客 http blog csdn net wallimn 时间 2006 11 15 本人原创欢迎转载转载请保留本人信息今天终于解
Python编程:从入门到实践（基础知识）

第一章起步计算机执行源程序的两种方式编译一次性执行源代码生成目标代码解释随时需要执行源代码源代码采用某种编程语言编写的计算机程序目标代码计算机可执行 101010 编程语言分为两类静态语言使用编译执行的编程语言 C
java.library.path属性在代码中设置不生效问题

http www blogjava net gembin archive 2008 10 29 237377 html from http daimojingdeyu blogbus com logs 28617218 html 可是在使用
如何用wps制作地图分布图_如何用Power BI制作自己的可视化地图

作者 AgnesJ 在之前的文章中介绍过Power BI的形状地图使用形状地图我们可以导入自己想要的任何地图只要找到对应的TopoJson格式地图文件就可以但是当我们需要分析某一个销售区域或服务范围时如何获取或者创建自己的Json
让div撑满整个屏幕的方法（css）

在body只有一个div的时候可以通过这样的方式让div撑满整个屏幕 1 给div设置定位复习一下 css中position有五种属性 static 默认值没有定位 absolute 绝对定位相对于父级元素进行定位 relative
aop统一日志输出controller出入参及部分参数

输出使用的jackson 其中获取iputil放在另一篇文章 gt gt gt gt IpUtil获取ip author cy c date 2022 5 19 16 28 统一日志处理 Component Aspect public cl
JTS:04 读取数据库数据

版本 org locationtech jts jts core 1 19 0 链接 github 数据库创建数据库方式 postgresql 使用postgis插件 kartoza postgis 15 3 3 使用docker容器创
C++中#pragma once与#ifndef的区别

为了避免同一个文件被include 多次可以使用两种方式 1 方式一 ifndef SOMEFILE H define SOMEFILE H 声明语句 endif 2 方式二 pragma once 声明语句两者的区别 ifndef方式
Struts2识别与漏洞利用

Struts2框架识别 1 通过网页后缀来进行判断如 do或者 action Struts2漏洞验证 Struts2 045漏洞介绍安恒信息安全研究院WEBIN实验室高级安全研究员nike zheng发现著名J2EE框架 Struts2
3.【Python】分类算法—Softmax Regression

3 Python 分类算法 Softmax Regression 文章目录 3 Python 分类算法 Softmax Regression 前言一 Softmax Regression模型 1 Softmax Regression模型
2023华为od机试真题B卷Python【矩阵里的非一元素】

题目假设存在一个m n的二维数组其成员取值范围为0 1和2 1具有同化特性它具体的同花步骤是每经过1秒如果其上下左右值为0 那么修改为1 而值为2的元素不会有任何变化初始时将数组的 0 0 元素修改为1 经过足够长的时间后需
应用于SSVEP脑电信号识别的CCA算法

应用于SSVEP脑电信号识别的CCA算法 1 SSVEP信号 2 应用于SSVEP信号的CCA算法 1 SSVEP信号 SSVEP是指当受到一个固定频率的视觉刺激的时候人的大脑视觉皮层会产生一个连续的与刺激频率有关刺激频率的基频或倍频处
phpstudy站点404访问遭到拒绝首页可以访问接口不能访问

问题描述新站站点可以使用关机再开不能使用新建站点不能访问接口可以访问首页接口404 直接入正题入口文件夹里有一个文件 htaccess 这个文件打开如果没有内容问题就出现在这
清华汪玉创始公司浮出水面，要做大模型一体机，仍是“深鉴式”师生组合拳...

衡宇发自凹非寺量子位公众号 QbitAI 清华大学电子工程系系主任汪玉再一次躬行实践产学结合具体领域与大模型紧密相关量子位获悉汪玉担任创始人身份的新公司无问芯穹主要做大模型推理用一体机以及工具链软件公司旨在解决大模型

随机推荐

J-Tech Talk ｜编写Dockerfile的最佳实践

J Tech Talk 由 Jina AI 社区为大家带来的技术分享工程师们将深入细节地讲解具体的问题分享 Jina AI 在开发过程中所积累的经验不论是个人开发者还是企业上云已经成为基本的需求使用 Dockerfile 构建 D
debug assertion failed 的一种解决方法

在使用C 编写程序时使用到了如同以下的程序 scene addItem originalPixmap 出现debug assertion failed错误查找原因发现代码并没有问题罪魁祸首是变量 scene 的声明在 origin
Centos搭建k8s

在CentOS 7上搭建Kubernetes集群 kubeadm官方文档 https blog 51cto com zhangxueliang 4952945 前置步骤所有结点 CentOS 7 9 物理机或虚拟机三台 CPU 内核数量大
MATLAB常用函数汇总

一基本函数函数作用举栗子 clear 清除工作区中的所有变量 clc 清除命令行中的所有代码 help 函数名或 doc 函数名查找函数帮助 syms 定义符号变量 syms x y sym f 定义符号表达式 sym x y
TVM的安装过程

最近在看深度学习编译器相关的工作其中FlexTensor给我留下了比较深刻的印象加上这项工作是开源的所以想看看这份工作的源码首先是怎么把工程跑起来 FlexTensor倚仗TVM做代码生成所以首先得安装TVM 首先给出官方网站的安
人生四大喜事是什么？

一辈子或长或短总是要经历很多事情古人很聪明把人生简单明了化归结了最重要的四大喜事和四大悲事四大喜事久旱逢甘雨他乡遇故知洞房花烛夜金榜题名时四大悲事幼年丧母少年丧父中年丧妻老年丧子人生四大喜事久旱逢甘雨他乡
覆盖的面积【HDU-1255】【扫描线】

题目链接超级好的一道题的说虽然看了别人的思路才有了的的想法我好弱啊题目求的是覆盖两次以上的区间的面积大小那么我们要怎么做一样的 Covercnt gt 2 就得到答案不不行因为若是我们之前放进去一个小区间然后再放一个包含
留言赠书｜因果推断与机器学习，终于有本书能讲明白啦！

随着大数据时代的来临机器学习技术突飞猛进并且在人类社会中扮演越来越重要的角色例如你可能已经习惯了每天使用谷歌百度 Bing等搜索引擎查找信息或者在电商网站和视频网站的推荐系统以及利用谷歌百度等网站提供的机器翻译学习外语这些
weak和assign的区别-正确使用weak、assign

一区别 1 修饰变量类型的区别 weak 只可以修饰对象如果修饰基本数据类型编译器会报错 Property with weak attribute must be of object type assign 可修饰对象和基本数据类型
11、若依分布式事务

数据库事务的基本概念 ACID 原子性 Atomicity 操作这些指令时要么全部执行成功要么全部不执行只要其中一个指令执行失败所有的指令都执行失败数据进行回滚回到执行指令前的数据状态要么执行要么不执行一致性 Consis
C# Lambda Expression概念浅析

C Lambda Expressions是什么呢我们在处理数据库数据删除的操作的时候会碰到它那么具体的C Lambda Expressions是什么以及含义和使用是什么情况呢那么下面我来看看具体的内容 1 关于C Lambda Exp
有趣的图形算法（竞赛热点）

用于总结当时的经典题型题目记得大一刷题有这样一道题默认三角形 n 2 是形如下列形状的 n 3时是这样的输入一个整数n 1 lt n lt 9 输出符合题意的图形解析当时老纠结了最后才明白需要用递归总结代码 include
vue项目首屏加载优化

vue项目首屏加载优化 1 存在的问题 2 什么是首屏加载 2 1 首屏加载时间的计算 3 加载慢的原因 4 解决的办法 4 1 路由懒加载 4 1 1 什么是路由懒加载 4 1 2 为什么需要懒加载呢 4 1 3 路由懒加载的原理 4 1
“终于我从字节离职了...“一个年薪40W的测试工程师的自白...

我递上了我的辞职信不是因为公司给的不多也不是因为公司待我不好但是我觉得我每天看中我憔悴的面容每天晚上拖着疲惫的身体躺在床上我都不知道人生的意义是赚钱吗是为了更好的生活吗但是我认为我想要的生活不是每天从早忙到晚不是每天面对
Canvas入门实战之实现一个图形验证码

本文主要介绍用canvas实现图形验证码的一些思路以及如何用javascript面向对象的方式更友好的实现canvas的功能关于canvas的一些基本使用方法和API我整理了一个思维导图大家感兴趣的可以参考学习你将收获闭包的使用 c
多模态关键任务与应用综述（从表示到融合，从协同学习到关键技术梳理）

冗余性和互补性是多模态各种特性存在的基础 1 双线性池化特征融合即输入两个模态的特征向量输出融合后的向量最常用的方法是拼接按位乘按位加有些作者认为这些简单的操作效果不如外积叉乘得tensor 不足以建模两个模态间的复杂关
STC89C52单片机中指针的运用与实际案例演示

目录小端分配的方式 C语言中的功能数据宽度传递参数传递返回值直接访问物理地址下的数据访问硬件指定内存下的数据如设备ID号等将复杂格式的数据转换为字节方便通信与存储指针 Pointer 是C语言的一个重要知识点其使用灵
Elastic Search 安装部署最全教程（Docker）

一部署单点ES 1 首先创建网络因为我们还需要部署kibana容器因此需要让es和kibana容器互联这里先创建一个网络 docker network create es net 2 加载镜像 docker pull elastic
全网最详linux命令学习，教你快速入门。适合小白学习的几大命令，对文件的操作命令

目录一文件内容浏览查看文件内容二 cut命令三 uniq命令的使用四 sort命令五 tr命令一文件内容浏览查看文件内容 1 cat查看 etc passwd 文件内容且输出时带行号 cat 查看文本的内容 n 显示文
深度学习之AdaGrad算法

AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率从而避免统一的维度难以适应所有维度的问题特点小批量随机梯度按元素累加变量出现在学习率的分母项中若目标函数有关自变量的偏导数一直都较大那么学习率下降较快反之亦然

深度学习之AdaGrad算法

特点：

一、算法初解

二、从零开始实现

三、出现的运行错误

深度学习之AdaGrad算法 的相关文章

随机推荐

热门标签

深度学习之AdaGrad算法的相关文章