深度学习之AdaGrad算法

2023-11-02

AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率,从而避免统一的维度难以适应所有维度的问题。

特点:
  1. 小批量随机梯度按元素累加变量,出现在学习率的分母项中。(若目标函数有关自变量的偏导数一直都较大,那么学习率下降较快;反之亦然。)

  2. 若迭代早期下降过快 + 当前解仍然不佳,可能导致很难找到有效解。

一、算法初解

实现AdaGrad算法,使⽤的学习率为0.4。输出的⾃变量的迭代轨迹较平滑。但由
于累加效果使学习率不断衰减,⾃变量在迭代后期的移动幅度较⼩。

%matplotlib inline
import math
import torch
import sys 
sys.path.append("..")
import d2lzh_pytorch as d2l 

def adagrad_2d(x1, x2, s1, s2):
    g1, g2, eps = 0.2 * x1, 4 * x2, 1e-6 
    s1 += g1 ** 2 
    s2 += g2 ** 2 
    x1 -= eta /math.sqrt(s1 + eps) * g1
    x2 -= eta / math.sqrt(s2 + eps) * g2
    return x1, x2, s1, s2

def f_2d(x1, x2):
    return 0.1 * x1 **2 + 2 *x2 ** 2 

eta = 0.4 
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

运行结果:

将学习率增⼤到2。可以看到⾃变量更为迅速地逼近了最优解

eta = 2 
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d))

运行结果:

二、从零开始实现

同动量法⼀样,AdaGrad算法需要对每个⾃变量维护同它⼀样形状的状态变量。下面根据AdaGrad算
法中的公式实现该算法。

# 从零开始实现
%matplotlib inline
import math
import torch
import sys 
sys.path.append("..")
import d2lzh_pytorch as d2l 

features, labels = d2l.get_data_ch7()

def init_adagrad_states():
    s_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    s_b = torch.zeros(1, dtype=torch.float32)
    return (s_w, s_b)

def adagrad(params, states, hyperparams):
    eps = 1e-6
    for p, s in zip(params, states):
        s.data += (p.grad.data**2)
        p.data -= hyperparams['lr'] * p.grad.data / torch.sqrt(s + eps)
        
d2l.train_ch7(adagrad, init_adagrad_states(), {'lr' : 0.1},features,labels)

运行结果:

三、出现的运行错误

错误代码OSError: ../../data/airfoil_self_noise.dat not found.找不到文件:

这个网站下载"airfoil_self_noise.dat",将其放入这个路径中“ ../../data/airfoil_self_noise.dat”。即可运行成功。

参考链接:https://zh.d2l.ai/chapter_optimization/adagrad.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习之AdaGrad算法 的相关文章

随机推荐

  • J-Tech Talk | 编写Dockerfile的最佳实践

    J Tech Talk 由 Jina AI 社区为大家带来的技术分享 工程师们将深入细节地讲解具体的问题 分享 Jina AI 在开发过程中所积累的经验 不论是个人开发者还是企业 上云已经成为基本的需求 使用 Dockerfile 构建 D
  • debug assertion failed 的一种解决方法

    在使用C 编写程序时 使用到了如同以下的程序 scene addItem originalPixmap 出现debug assertion failed错误 查找原因 发现代码并没有问题 罪魁祸首是 变量 scene 的声明在 origin
  • Centos搭建k8s

    在CentOS 7上搭建Kubernetes集群 kubeadm官方文档 https blog 51cto com zhangxueliang 4952945 前置步骤 所有结点 CentOS 7 9 物理机或虚拟机三台 CPU 内核数量大
  • MATLAB常用函数汇总

    一 基本函数 函数 作用 举栗子 clear 清除工作区中的所有变量 clc 清除命令行中的所有代码 help 函数名 或 doc 函数名 查找函数帮助 syms 定义符号变量 syms x y sym f 定义符号表达式 sym x y
  • TVM的安装过程

    最近在看深度学习编译器相关的工作 其中FlexTensor给我留下了比较深刻的印象 加上这项工作是开源的 所以想看看这份工作的源码 首先是怎么把工程跑起来 FlexTensor倚仗TVM做代码生成 所以首先得安装TVM 首先给出官方网站的安
  • 人生四大喜事是什么?

    一辈子 或长或短 总是要经历很多事情 古人很聪明 把人生简单明了化 归结了最重要的四大喜事和四大悲事 四大喜事 久旱逢甘雨 他乡遇故知 洞房花烛夜 金榜题名时 四大悲事 幼年丧母 少年丧父 中年丧妻 老年丧子 人生四大喜事 久旱逢甘雨 他乡
  • 覆盖的面积【HDU-1255】【扫描线】

    题目链接 超级好的一道题的说 虽然看了别人的思路才有了的的想法 我好弱啊 题目求的是覆盖两次以上的区间的面积大小 那么我们要怎么做 一样的 Covercnt gt 2 就得到答案 不 不行 因为若是我们之前放进去一个小区间 然后再放一个包含
  • 留言赠书|因果推断与机器学习,终于有本书能讲明白啦!

    随着大数据时代的来临 机器学习技术突飞猛进 并且在人类社会中扮演越来越重要的角色 例如 你可能已经习惯了每天使用谷歌 百度 Bing等搜索引擎查找信息 或者在电商网站和视频网站的推荐系统 以及利用谷歌 百度等网站提供的机器翻译学习外语 这些
  • weak和assign的区别-正确使用weak、assign

    一 区别 1 修饰变量类型的区别 weak 只可以修饰对象 如果修饰基本数据类型 编译器会报错 Property with weak attribute must be of object type assign 可修饰对象 和基本数据类型
  • 11、若依分布式事务

    数据库事务的基本概念 ACID 原子性 Atomicity 操作这些指令时 要么全部执行成功 要么全部不执行 只要其中一个指令执行失败 所有的指令都执行失败 数据进行回滚 回到执行指令前的数据状态 要么执行 要么不执行 一致性 Consis
  • C# Lambda Expression概念浅析

    C Lambda Expressions是什么呢 我们在处理数据库数据删除的操作的时候会碰到它 那么具体的C Lambda Expressions是什么以及含义和使用是什么情况呢 那么下面我来看看具体的内容 1 关于C Lambda Exp
  • 有趣的图形算法(竞赛热点)

    用于总结当时的经典题型 题目 记得大一刷题有这样一道题 默认三角形 n 2 是形如下列形状的 n 3时是这样的 输入一个整数n 1 lt n lt 9 输出符合题意的图形 解析 当时老纠结了 最后才明白需要用递归 总结代码 include
  • vue项目首屏加载优化

    vue项目首屏加载优化 1 存在的问题 2 什么是首屏加载 2 1 首屏加载时间的计算 3 加载慢的原因 4 解决的办法 4 1 路由懒加载 4 1 1 什么是路由懒加载 4 1 2 为什么需要懒加载呢 4 1 3 路由懒加载的原理 4 1
  • “终于我从字节离职了...“一个年薪40W的测试工程师的自白...

    我递上了我的辞职信 不是因为公司给的不多 也不是因为公司待我不好 但是我觉得 我每天看中我憔悴的面容 每天晚上拖着疲惫的身体躺在床上 我都不知道人生的意义 是赚钱吗 是为了更好的生活吗 但是我认为我想要的生活不是每天从早忙到晚 不是每天面对
  • Canvas入门实战之实现一个图形验证码

    本文主要介绍用canvas实现图形验证码的一些思路以及如何用javascript面向对象的方式更友好的实现canvas的功能 关于canvas的一些基本使用方法和API我整理了一个思维导图 大家感兴趣的可以参考学习 你将收获 闭包的使用 c
  • 多模态关键任务与应用综述(从表示到融合,从协同学习到关键技术梳理)

    冗余性 和 互补性 是多模态各种特性存在的基础 1 双线性池化 特征融合即输入两个模态的特征向量 输出融合后的向量 最常用的方法是拼接 按位乘 按位加 有些作者认为这些简单的操作效果不如外积 叉乘得tensor 不足以建模两个模态间的复杂关
  • STC89C52单片机中指针的运用与实际案例演示

    目录 小端分配的方式 C语言中 的功能 数据宽度 传递参数 传递返回值 直接访问物理地址下的数据 访问硬件指定内存下的数据 如设备ID号等 将复杂格式的数据转换为字节 方便通信与存储 指针 Pointer 是C语言的一个重要知识点 其使用灵
  • Elastic Search 安装部署最全教程(Docker)

    一 部署单点ES 1 首先创建网络 因为我们还需要部署kibana容器 因此需要让es和kibana容器互联 这里先创建一个网络 docker network create es net 2 加载镜像 docker pull elastic
  • 全网最详linux命令学习,教你快速入门。适合小白学习的几大命令,对文件的操作命令

    目录 一 文件内容浏览 查看文件内容 二 cut命令 三 uniq命令的使用 四 sort命令 五 tr命令 一 文件内容浏览 查看文件内容 1 cat查看 etc passwd 文件内容 且输出时带行号 cat 查看文本的内容 n 显示文
  • 深度学习之AdaGrad算法

    AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率 从而避免统一的维度难以适应所有维度的问题 特点 小批量随机梯度按元素累加变量 出现在学习率的分母项中 若目标函数有关自变量的偏导数一直都较大 那么学习率下降较快 反之亦然