深度学习中的优化算法之AdaMax

2023-10-29

之前在https://blog.csdn.net/fengbingchun/article/details/125018001 介绍过深度学习中的优化算法Adam，这里介绍下深度学习的另一种优化算法AdaMax。AdaMax与Adam来自于同一篇论文。论文名字为《ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION》，论文地址：https://arxiv.org/pdf/1412.6980.pdf

AdaMax：是梯度优化算法的扩展，基于无穷范数的Adam的变体(a variant of Adam based on the infinity norm)。此算法对学习率的上限提供了一个更简单的范围，并可能对某些问题进行更有效的优化。如下图所示，截图来自：https://arxiv.org/pdf/1609.04747.pdf

AdaMax与Adam区别：本质上前者是将L2范数推广到L-infinity范数。AdaMax与Adam最终公式中仅分母的计算方式不同，AdaMax使用公式24，Adam使用公式20。

以下是与Adam不同的代码片段：

1.在原有枚举类Optimizaiton的基础上新增AdaMax：

enum class Optimization {
	BGD, // Batch Gradient Descent
	SGD, // Stochastic Gradient Descent
	MBGD, // Mini-batch Gradient Descent
	SGD_Momentum, // SGD with Momentum
	AdaGrad, // Adaptive Gradient
	RMSProp, // Root Mean Square Propagation
	Adadelta, // an adaptive learning rate method
	Adam, // Adaptive Moment Estimation
	AdaMax // a variant of Adam based on the infinity norm
};

2.calculate_gradient_descent函数：

void LogisticRegression2::calculate_gradient_descent(int start, int end)
{
	switch (optim_) {
		case Optimization::AdaMax: {
			int len = end - start;
			std::vector<float> m(feature_length_, 0.), u(feature_length_, 1e-8), mhat(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			float beta1t = 1.;
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				beta1t *= beta1_;

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					m[j] = beta1_ * m[j] + (1. - beta1_) * dw; // formula 19
					u[j] = std::max(beta2_ * u[j], std::fabs(dw)); // formula 24

					mhat[j] = m[j] / (1. - beta1t); // formula 20

					// Note: need to ensure than u[j] cannot be 0.
					// (1). u[j] is initialized to 1e-8, or
					// (2). if u[j] is initialized to 0., then u[j] adjusts to (u[j] + 1e-8)
					w_[j] = w_[j] - alpha_ * mhat[j] / u[j]; // formula 25
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::Adam: {
			int len = end - start;
			std::vector<float> m(feature_length_, 0.), v(feature_length_, 0.), mhat(feature_length_, 0.), vhat(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			float beta1t = 1., beta2t = 1.;
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				beta1t *= beta1_;
				beta2t *= beta2_;

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					m[j] = beta1_ * m[j] + (1. - beta1_) * dw; // formula 19
					v[j] = beta2_ * v[j] + (1. - beta2_) * (dw * dw); // formula 19

					mhat[j] = m[j] / (1. - beta1t); // formula 20
					vhat[j] = v[j] / (1. - beta2t); // formula 20

					w_[j] = w_[j] - alpha_ * mhat[j] / (std::sqrt(vhat[j]) + eps_); // formula 21
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::Adadelta: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.), p(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] = mu_ * g[j] + (1. - mu_) * (dw * dw); // formula 10

					float alpha = (eps_ + std::sqrt(p[j])) / (eps_ + std::sqrt(g[j]));
					float change = alpha * dw;
					p[j] = mu_ * p[j] +  (1. - mu_) * (change * change); // formula 15

					w_[j] = w_[j] - change;
				}

				b_ -= (eps_ * dz[x]);
			}
		}
			break;
		case Optimization::RMSProp: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] = mu_ * g[j] + (1. - mu_) * (dw * dw); // formula 18
					w_[j] = w_[j] - alpha_ * dw / (std::sqrt(g[j]) + eps_);
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::AdaGrad: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] += dw * dw;
					w_[j] = w_[j] - alpha_ * dw / (std::sqrt(g[j]) + eps_);
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::SGD_Momentum: {
			int len = end - start;
			std::vector<float> change(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float new_change = mu_ * change[j] - alpha_ * (data_->samples[random_shuffle_[i]][j] * dz[x]);
					w_[j] += new_change;
					change[j] = new_change;
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::SGD:
		case Optimization::MBGD: {
			int len = end - start;
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					w_[j] = w_[j] - alpha_ * (data_->samples[random_shuffle_[i]][j] * dz[x]);
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::BGD:
		default: // BGD
			std::vector<float> z(m_, 0), dz(m_, 0);
			float db = 0.;
			std::vector<float> dw(feature_length_, 0.);
			for (int i = 0; i < m_; ++i) {
				z[i] = calculate_z(data_->samples[i]);
				o_[i] = calculate_activation_function(z[i]);
				dz[i] = calculate_loss_function_derivative(o_[i], data_->labels[i]);

				for (int j = 0; j < feature_length_; ++j) {
					dw[j] += data_->samples[i][j] * dz[i]; // dw(i)+=x(i)(j)*dz(i)
				}
				db += dz[i]; // db+=dz(i)
			}

			for (int j = 0; j < feature_length_; ++j) {
				dw[j] /= m_;
				w_[j] -= alpha_ * dw[j];
			}

			b_ -= alpha_*(db/m_);
	}
}

执行结果如下图所示：测试函数为test_logistic_regression2_gradient_descent，多次执行每种配置，最终结果都相同。图像集使用MNIST，其中训练图像总共10000张，0和1各5000张，均来自于训练集；预测图像总共1800张，0和1各900张，均来自于测试集。Adam和AdaMax配置参数相同的情况下，即eps为1e-8，学习率为0.002，beta1为0.9，beta2为0.999的情况下，Adam耗时30秒，AdaMax耗时为25秒；它们的识别率均为100%

GitHub： https://github.com/fengbingchun/NN_Test

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Deep Learning

AdaMax

深度学习中的优化算法之AdaMax 的相关文章

Bug解决：ModuleNotFoundError: No module named ‘taming‘

from taming modules vqvae quantize import VectorQuantizer2 as VectorQuantizer ModuleNotFoundError No module named taming
带你看懂CTC算法

转自 https zhuanlan zhihu com p 161186907 在文本识别模型CRNN中涉及到了CTC算法的使用由于算法的原理涉及内容较多所以特另开一篇文章对其原理进行叙述自己在学习CTC过程中也是看了诸多资料才大概
【阅读论文方法总结】

1 快速浏览摘要看是否有自己需要的东西 2 如果需要 github上查找相关论文代码对照着论文进行阅读这样效率高能够快速理解
DOTA: A Large-scale Dataset for Object Detection in Aerial Images 翻译

DOTA 用于航空图像中目标检测的大规模数据集原文 https arxiv org pdf 1711 10398 pdf 官网 https captain whu github io DOTA dataset https captain
tiny-cnn执行过程分析(MNIST)

在http blog csdn net fengbingchun article details 50573841中以MNIST为例对tiny cnn的使用进行了介绍下面对其执行过程进行分析支持两种损失函数 1 mean squared
Tensorflow错误InvalidArgumentError see above for traceback): No OpKernel was registered to support Op

调用tensorflow gpu运行错误错误信息如下 2023 06 21 15 36 14 007389 I tensorflow core platform cpu feature guard cc 141 Your CPU supp
pytorch 入门 DenseNet

知识点0 dense block的结构知识点1 定义dense block 知识点2 定义DenseNet的主体知识点3 add module 知识点 densenet是由多个这种结构串联而成的 import torch import
Mac电脑配置李沐深度学习环境[pytorch版本]使用vscode

文章目录第一步 M1芯片安装Pytorch环境安装Miniforge 创建虚拟环境安装Pytorch 第二步下载李沐Jupyter文件第三步配置vscode 参考第一步 M1芯片安装Pytorch环境安装Miniforge
（#########优化器函数########）TensorFlow实现与优化深度神经网络

反正是要学一些API的不如直接从例子里面学习怎么使用API 这样同时可以复习一下一些基本的机器学习知识但是一开始开始和以前一样先直接讲类和常用函数用法然后举例子这里主要是各种优化器以及使用因为大多数机器学习任务就是最小化损失
Transformer——《Attention is all you need》

本文是Google 机器翻译团队在2017 年发表提出了一个新的简单的网络模型 Transformer 该模型基于纯注意力机制 Attention mechanisms 完全抛弃了RNN和CNN网络结构在机器翻译任务上取得了很好的效果
Dilated Conv and Deformable Conv. 空洞卷积和可变形卷积

空洞卷积论文地址 https arxiv org pdf 1511 07122 pdf 可变形卷积论文地址 https arxiv org pdf 1703 06211 pdf 之前一直知道这两个方法一直没时间看论文和实现后面碰到越来越
深度学习中的优化算法之Adam

之前在https blog csdn net fengbingchun article details 124909910 介绍过深度学习中的优化算法Adadelta 这里介绍下深度学习的另一种优化算法Adam 论文名字为 ADAM A M
cs231n: How to Train a Neuron Network 如何训练神经网络

CS231N第六第七课时的一些笔记如何训练神经网络是一个比较琐碎的事情所以整理了一下以后训练Neuron Network的时候可以看一下 Activation Functions ReLu good ELU leaky ReLu no
目标检测数据集分析

原文链接 https ghlcode cn pages 250d97 目标检测数据集分析新增支持数据集可视化 Ghlerrix DataAnalyze 平时我们经常需要对我们的数据集进行各种分析以便我们找到更好的提高方式所以我将我平时
可视化工具Netron介绍

Netron是一种用于神经网络深度学习和机器学习模型的可视化工具它可以为模型的架构生成具有描述性的可视化 descriptive visualization 源码在 https github com lutzroeder netron
损失函数和正则化

参考 https www cnblogs com LXP Never p 10918704 html https blog csdn net Heitao5200 article details 83030465 https zhuanla
谈一谈关于NLP的落地场景和商业价值

欢迎大家关注微信公众号 baihuaML 白话机器学习在这里我们一起分享AI的故事您可以在后台留言关于机器学习深度学习的问题我们会选择其中的优质问题进行回答本期的问题你好请问下nlp在现在的市场主要应用在哪些方面什么是N
- UnitBox An Advanced Object Detection Network，arxiv 16.08

UnitBox An Advanced Object Detection Network arxiv 16 08 download 该论文提出了一种新的loss function IoU loss 这点比较有意思也容易复现论文分析了fa
吴恩达老师深度学习视频课笔记：逻辑回归公式推导及C++实现

逻辑回归 Logistic Regression 是一个二分分类算法逻辑回归的目标是最小化其预测与训练数据之间的误差为了训练逻辑回归模型中的参数w和b 需要定义一个成本函数 cost function 成本函数 cost functio
pthread_create返回值错误码11 (EAGAIN)或libgomp: Thread creation failed: Resource temporarily unavailable错误

在主机上开发torch xla时使用非root用户在conda环境遇到tensorflow中报pthread create 11错误大意为系统资源不足解决方案分析此主机多用户使用资源占用非常大且大多数情况下在docker容器

随机推荐

高数基础——步长

目录 1 什么是步长 2 步长怎么取 1 Armijo conditions 充分下降条件 2 curvature condition 不要取得太小 3 Wolfe conditions 1 什么是步长在确定了搜索方向的情况下讨论搜索
【Linux 内核网络协议栈源码剖析】sendto 函数剖析

前面介绍的函数基本上都是TCP协议的如listen connect accept 等函数这都是为可靠传输协议TCP定制的对于另一个不可靠udp协议通信系统其可靠性交由上层应用层负责则主要由两个函数完成 sendto 和 recvf
第15届全国大学生知识竞赛场景实操 2022ciscn初赛部分writeup

文章目录 Crypto 签到电台基于挑战码的双向认证1 基于挑战码的双向认证2 基于挑战码的双向认证3 Misc ez usb everlasting night 问卷 babydisk Web Ezpop Crypto 签到电台签到
【Spring】浅谈spring为什么推荐使用构造器注入

一前言 Spring框架对Java开发的重要性不言而喻其核心特性就是IOC Inversion of Control 控制反转和AOP 平时使用最多的就是其中的IOC 我们通过将组件交由Spring的IOC容器管理将对象的依赖关系由
WPF封装VLC播放器控件（方式二：VlcVideoSourceProvider绑定Image控件）

之前写过一篇文章关于WPF利用VLCPlayer控制Winform窗体句柄封装的视频播放器链接 https blog csdn net dnazhd article details 102476134 这里换一种方式重写一下视频播放器控件
【算法】回溯算法

1 概念回溯算法实际上一个类似枚举的搜索尝试过程主要是在搜索尝试过程中寻找问题的解当发现已不满足求解条件时就回溯返回到上一步还能执行的状态尝试别的路径类似于走迷宫一样假设我们到了每一个岔路口都规定除了走过的地方按照先往
linux more命令用法,linux more命令详解

大家好我是时间财富网智能客服时间君上述问题将由我为大家进行解答 linux more命令详解分析如下 1 使用cat命令显示install log文件系统会将install log文件完整的显示出来但是用户只能看到文件的末尾部分该
网易易盾滑块逆向分析 js 滑动轨迹生成_2

网易易盾无感逆向提示仅学习参考如有涉及侵权联系本人删除目标网站已做脱敏处理 aHR0cHM6Ly9kdW4uMTYzLmNvbS90cmlhbC9zZW5zZQ 文章目录网易易盾无感逆向加密参数一 data参数易盾滑块总结
转码日记——Javascript笔记（3）

代码块只具有分组的作用代码块内部的内容在外部也是完全可见的 console log hello world 一个单独的语句 document write goodbye alert FBI warning 大括号中的是一组语句也叫代码
mmpycocotools包安装的问题：源码安装出现：“gcc: error : ../common/maksApi.c: 没有那个文件或目录“

mmdetection框架中的mmpycocotools包的安装问题解决问题背景解决方案方案1 不安装mmpycocotools包方案2 安装mmpycocotools包问题总结问题背景在配一篇detection论文时安装R
Zookeeper可视化工具PrettyZoo

文章目录安装创建连接虽然市面上 Zookeeper 的 WEB 管理工具很丰富但是却很难找到一款满意的图形化客户端鉴于这样的情况经过时间的查找找到了这款管理 Zookeeper 的图形化工具取名 PrettyZoo 意为 P
HTML5手机端网页开发
关于postcss-px-to-viewport的使用经验

最近在工作项目使用中新接触到postcss px to viewport 在使用上遇到一个坑也有段时间没更新啦记录分享一下希望对你有所帮助直接上重点节省在网站苦苦寻找有效答案的你 gt gt gt 我所遇到的坑由于项目需要需要
服务器实现端口转发的N种方式

简介在一些实际的场景里我们需要通过利用一些端口转发工具比如系统自带的命令行工具或第三方小软件来绕过网络访问限制触及目标系统下文为大家总结了linux系统和windows系统端口转发常用的一些方法注 Linux实现端口转发需要内核
在react中使用Markdown编辑器

提示写完文章后目录可以自动生成如何生成可参考右边的帮助文档文章目录一在react中使用Markdown编辑器二使用步骤实现效果安装使用安装使用一在react中使用Markdown编辑器首先我们需要清楚Mark
File类（Java）

目录 1 File类定义 2 File类构造方法常用摘要 3 练习 4 主要成员方法 1 File类定义 1 File类主要是JAVA为文件这块的操作如删除新增等而设计的相关类 2 File类的包名是java io 其实现了Seri
Vue3常规登录页面模板

本文基于vue3 JavaScript 使用vue3的setup语法糖书写方式 setup语法糖也是当前各大适用Vue的框架官网都在推崇的书写方式此外各大主流框架的源码首选是TypeScript 而不是JavaScript 登录页面模板
正则表达式匹配字符串中的任何空格

a zA Z0 9 匹配空格包括 r t n f 的含义是后面出现一个或多个 s
SSM+Layui整合

文章目录概述依赖各种配置文件 web xml spring配置 springMVC配置 MyBatis配置 Mapper映射文件关于Layui 概述刚学完了ssm 打算自己上手做一个项目玩玩先第一步整合ssm 自己不会写前端
深度学习中的优化算法之AdaMax

之前在https blog csdn net fengbingchun article details 125018001 介绍过深度学习中的优化算法Adam 这里介绍下深度学习的另一种优化算法AdaMax AdaMax与Adam来自于同一

深度学习中的优化算法之AdaMax

深度学习中的优化算法之AdaMax 的相关文章

随机推荐

热门标签