李宏毅深度学习——优化方法

2023-11-15

$m_{t+1}$ 记录了关于梯度的历史

SGD

SGD with Momentum

防止gradient为0，SGD停止不动了

sgd with momentum，前面的移动会累加到下一步

sgd with momentum，前面的移动会累加到下一步，所以小球不会卡在局部的一个最优的位置

Adagrad

前几个time step如果坡度很大，就会暴走，走到不好的位置上，有个分母就会走小步一点

RMSProp

怕使用adagrad时，一开始的坡度很大，那么步幅就会很小，走没几步就停了

RMSProp保证分母不会无止境变大

Adam

一开始， $m_{t}$ 帽等式右边分母小于1，保证 $m_{t}$ 帽一开始不为0，且不会随时间变化变得太大

adam：一开始冲的很快

sgdm：冲的不会太快，稳一些，不会有太大的上下起伏的情况

冲的快会形成sharp mininum，generalization gap 大

冲的不快 flat mininum，generalization gap 小

combine一下，一开始用adam后面用sgdm

如何让adam像sgdm一样收敛得又快又好

$m_{t}$ 帽等式10的5次方， $v_{t}$ 等于10^5*10^5*0.001=10^7

前面100998步都是乱走，并且走了很长，100999步才是对的，然而走了很短。

记住以前最大的grad，但是这和adagrad有一样的错误，分母容易变成0

让learning_rate自己调整

sgdm最后很稳，但是速度太慢了

可以通过调整learning_rate加快速度

learning_rate大小大小变化，周期性变化

一开始gradient很乱

方向比较乱的时候走小步一点，方向不乱的时候走大步一点

一开始用sgdm后面用adam

RAdam一开始不用Adam，因为Adam不稳，并且<4的时候是不能用RAdam

SWATS一开始用Adam，因为Adam一开始快，后面用sgdm稳

实践中用的最多，用weight decay的效果会比较好

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习（李宏毅）

深度学习

人工智能

李宏毅深度学习——优化方法的相关文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

SQLServer 2008R2 配置允许外网访问

SQL Server 2008 1433端口启用的解决方案 cqs 2012 CSDN博客
R聚类分析航空公司数据（筛选出不同的客户类别）

效果图如下图片是将3万四千条航空公司数据用k means算法分成五个类并通过ggplot2包作图作出来的特征属性我们将通过不同的属性值分析出高价值用户低价值用户主力用户一般用户潜力用户可以分析得F M C自然是越高越好 C
ext3grep恢复linux下误删除的文件

在linux下使用rm rf时千万要小心但是总有不小心的时候导致误删除一些文件这里我做个试验故意删除 data 2 txt文件测试文件恢复此时2 txt文件已经删除 1 安装ext3grep软件 wget http ext3gr
vue之路由的嵌套（父子路由）

路由的嵌套 1 配置路由 main js文件中 import Users from components Users import UserAdd from components Users UserAdd import UserList
第二章 Scala入门——让你的代码跑起来

一 Scala的安装方法要使用Scala 首先需要保证已经安装好了Java 8 对于Linux操作系统 Java 8已经默认安装了而使用Windows操作系统的用户则需要在Java官网下载安装包进行安装请在CMD PowerShel
小米解bl锁跳过168小时_红米K30S至尊纪念版秒解BL工具分享支持小米红米机型秒解BL跳过168小时...

目前小米的新机官方风控都默认绑定7天也就是168小时才能解锁BL 部分账号需要绑定15天才能满足条件导致很多爱玩机的小伙伴被拒门外并不是所有人都愿意等待官方解锁时候而跳过168小时解锁也成为了很多小伙伴希望的事情本工具来自ROM
操作系统CPU调度

概述多道程序操作系统的基础通过在进程之间切换CPU 操作系统可以提高计算机的吞吐率对于单处理器系统每次只允许一个进程运行任何其他进程必须等待直到CPU空闲能被调度为止 CPU按一定的调度算法从就绪队列中选择一个进程把CPU的使
TorchVision中使用FasterRCNN+ResNet50+FPN进行目标检测

TorchVision中给出了使用ResNet 50 FPN主干 backbone 构建Faster R CNN的pretrained模型模型存放位置为https download pytorch org models fasterrcn
PE文件资源解析（七）manifest资源的解析

mainfest资源在这里指的是资源类型为RT MANIFEST的资源信息通过ResHacker看到的效果图如下 manifest资源存储编码格式是UTF 8 开始3个字节是EF BB BF 解析代码如下 UTF8 EF BB BF H
Java练习10：输入两个正整数m和n，求其最大公约数和最小公倍数

辗转相除法 package com qiqi test import java util Scanner 输入两个正整数m和n 求其最大公约数和最小公倍数辗转相除法 1 用大数m 小数n得第一个余数 2 余数为0则n为最大公约数 3 余数
【数据库原理选择题1-4章】

1 1 数据库系统概述 1 1 DB DBMS 和DBS 三者之间的关系是 A DBMS包括DB和DBS B DB 包括DBMS和DBS C 不能相互包括 D DBS包括DB和DBMS 正确答案 D 2 位于用户和操作系统之间的一层数据管理
VS2017 登录账户时，反复让输入密码，而一直无法登陆。

问题描述 VS2017 登录账户时反复让输入密码而一直无法登陆成功最后显示无法刷新此账户凭据解决办法在排除是自己账户或者网络有问题后通过清理用户数据解决问题具体步骤如下使用管理员权限打开命令终端转到VS安装目录下的 Com
torch中的model.eval()、model.train()详解

个人简介深度学习图像领域工作者工作总结链接 https blog csdn net qq 28949847 article details 128552785 链接中主要是个人工作的总结每个链接都是一些常用demo 代码直接复制运行即
欧几里得距离（欧式距离）

文章目录一定义二公式一定义欧几里得度量欧氏距离 Euclidean Metric Euclidean Distance 指在m维空间中两个点之间的真实距离或者向量的自然长度即该点到原点的距离比如在二维和三维空间中的欧
液滴/液膜蒸发过程—in文件模拟-后处理分析-Ovito/Python绘图

关注 M r m a t e r i a l color Violet rm Mr material Mr material
FDR计算

FDR计算 FDR的计算很简单我折腾了一上午主要是因为遇到了以下几个问题问题 FDR是什么有什么用怎么计算我把几个模型的P值都合并成一个表了所以每次运算FDR时我需挑选特定的对象我有多个模型所以我想着要如何构建循环 FDR
机器学习-人为设置函数方法和神经网络方法解决智能五子棋问题

2 智能决策 2 1 博弈树模型算法 2 1 1 全局估算函数此次项目中评估函数有两种 1 人为设定函数方法更具人的经验对一些特定的棋形在棋盘上进行检索并且计数最后赋予相应权值求和得到对棋盘的评价值典型的棋形有活一活二活三
集成学习-理论概述

1 集成学习概述集成学习 ensemble learning 本身不是一个单独的机器学习算法而是通过构建并结合多个机器学习器来完成学习任务集成学习的特点集成方法是一种将几种机器学习技术组合成一个预测模型的元算法以减小方差 bagg
IDEA中如何导入module并成功运行

在写Java项目的时候我们通常需要导入module 需要注意的是导入过程需要以下两大步骤否则会出现无法运行的情况以下我以导入 service edu 模块为例一将module文件拷贝到工程目录下直接将需要导入的module文件 s
李宏毅深度学习——优化方法

记录了关于梯度的历史 SGD SGD with Momentum 防止gradient为0 SGD停止不动了 sgd with momentum 前面的移动会累加到下一步 sgd with momentum 前面的移动会累加到下一步所以小

热门标签