深度学习中的优化算法之NAG

2023-11-03

之前在https://blog.csdn.net/fengbingchun/article/details/124648766 介绍过Momentum SGD，这里介绍下深度学习的另一种优化算法NAG。

NAG：Nesterov Accelerated Gradient或Nesterov momentum，是梯度优化算法的扩展，在基于Momentum SGD的基础上作了改动。如下图所示，截图来自：https://arxiv.org/pdf/1609.04747.pdf

基于动量的SGD在最小点附近会震荡，为了减少这些震荡，我们可以使用NAG。NAG与基于动量的SGD的区别在于更新梯度的方式不同。

以下是与Momentum SGD不同的代码片段：

1. 在原有枚举类Optimization的基础上新增NAG：

enum class Optimization {
	BGD, // Batch Gradient Descent
	SGD, // Stochastic Gradient Descent
	MBGD, // Mini-batch Gradient Descent
	SGD_Momentum, // SGD with Momentum
	AdaGrad, // Adaptive Gradient
	RMSProp, // Root Mean Square Propagation
	Adadelta, // an adaptive learning rate method
	Adam, // Adaptive Moment Estimation
	AdaMax, // a variant of Adam based on the infinity norm
	NAG // Nesterov Accelerated Gradient
};

2. 计算z的方式不同：NAG使用z2

float LogisticRegression2::calculate_z(const std::vector<float>& feature) const
{
	float z{0.};
	for (int i = 0; i < feature_length_; ++i) {
		z += w_[i] * feature[i];
	}
	z += b_;

	return z;
}

float LogisticRegression2::calculate_z2(const std::vector<float>& feature, const std::vector<float>& vw) const
{
	float z{0.};
	for (int i = 0; i < feature_length_; ++i) {
		z += (w_[i] - mu_ * vw[i]) * feature[i];
	}
	z += b_;

	return z;
}

3. calculate_gradient_descent函数：

void LogisticRegression2::calculate_gradient_descent(int start, int end)
{
	switch (optim_) {
		case Optimization::NAG: {
			int len = end - start;
			std::vector<float> v(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z2(data_->samples[random_shuffle_[i]], v);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					v[j] = mu_ * v[j] + alpha_ * dw; // formula 5
					w_[j] = w_[j] - v[j];
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::AdaMax: {
			int len = end - start;
			std::vector<float> m(feature_length_, 0.), u(feature_length_, 1e-8), mhat(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			float beta1t = 1.;
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				beta1t *= beta1_;

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					m[j] = beta1_ * m[j] + (1. - beta1_) * dw; // formula 19
					u[j] = std::max(beta2_ * u[j], std::fabs(dw)); // formula 24

					mhat[j] = m[j] / (1. - beta1t); // formula 20

					// Note: need to ensure than u[j] cannot be 0.
					// (1). u[j] is initialized to 1e-8, or
					// (2). if u[j] is initialized to 0., then u[j] adjusts to (u[j] + 1e-8)
					w_[j] = w_[j] - alpha_ * mhat[j] / u[j]; // formula 25
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::Adam: {
			int len = end - start;
			std::vector<float> m(feature_length_, 0.), v(feature_length_, 0.), mhat(feature_length_, 0.), vhat(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			float beta1t = 1., beta2t = 1.;
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				beta1t *= beta1_;
				beta2t *= beta2_;

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					m[j] = beta1_ * m[j] + (1. - beta1_) * dw; // formula 19
					v[j] = beta2_ * v[j] + (1. - beta2_) * (dw * dw); // formula 19

					mhat[j] = m[j] / (1. - beta1t); // formula 20
					vhat[j] = v[j] / (1. - beta2t); // formula 20

					w_[j] = w_[j] - alpha_ * mhat[j] / (std::sqrt(vhat[j]) + eps_); // formula 21
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::Adadelta: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.), p(feature_length_, 0.);
			std::vector<float> z(len, 0.), dz(len, 0.);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] = mu_ * g[j] + (1. - mu_) * (dw * dw); // formula 10

					//float alpha = std::sqrt(p[j] + eps_) / std::sqrt(g[j] + eps_);
					float change = -std::sqrt(p[j] + eps_) / std::sqrt(g[j] + eps_) * dw; // formula 17
					w_[j] = w_[j] + change;

					p[j] = mu_ * p[j] +  (1. - mu_) * (change * change); // formula 15
				}

				b_ -= (eps_ * dz[x]);
			}
		}
			break;
		case Optimization::RMSProp: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] = mu_ * g[j] + (1. - mu_) * (dw * dw); // formula 18
					w_[j] = w_[j] - alpha_ * dw / std::sqrt(g[j] + eps_);
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::AdaGrad: {
			int len = end - start;
			std::vector<float> g(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					g[j] += dw * dw;
					w_[j] = w_[j] - alpha_ * dw / std::sqrt(g[j] + eps_); // formula 8
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::SGD_Momentum: {
			int len = end - start;
			std::vector<float> v(feature_length_, 0.);
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					v[j] = mu_ * v[j] + alpha_ * dw; // formula 4
					w_[j] = w_[j] - v[j];
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::SGD:
		case Optimization::MBGD: {
			int len = end - start;
			std::vector<float> z(len, 0), dz(len, 0);
			for (int i = start, x = 0; i < end; ++i, ++x) {
				z[x] = calculate_z(data_->samples[random_shuffle_[i]]);
				dz[x] = calculate_loss_function_derivative(calculate_activation_function(z[x]), data_->labels[random_shuffle_[i]]);

				for (int j = 0; j < feature_length_; ++j) {
					float dw = data_->samples[random_shuffle_[i]][j] * dz[x];
					w_[j] = w_[j] - alpha_ * dw;
				}

				b_ -= (alpha_ * dz[x]);
			}
		}
			break;
		case Optimization::BGD:
		default: // BGD
			std::vector<float> z(m_, 0), dz(m_, 0);
			float db = 0.;
			std::vector<float> dw(feature_length_, 0.);
			for (int i = 0; i < m_; ++i) {
				z[i] = calculate_z(data_->samples[i]);
				o_[i] = calculate_activation_function(z[i]);
				dz[i] = calculate_loss_function_derivative(o_[i], data_->labels[i]);

				for (int j = 0; j < feature_length_; ++j) {
					dw[j] += data_->samples[i][j] * dz[i]; // dw(i)+=x(i)(j)*dz(i)
				}
				db += dz[i]; // db+=dz(i)
			}

			for (int j = 0; j < feature_length_; ++j) {
				dw[j] /= m_;
				w_[j] -= alpha_ * dw[j];
			}

			b_ -= alpha_*(db/m_);
	}
}

执行结果如下图所示：测试函数为test_logistic_regression2_gradient_descent，多次执行每种配置，最终结果都相同。图像集使用MNIST，其中训练图像总共10000张，0和1各5000张，均来自于训练集；预测图像总共1800张，0和1各900张，均来自于测试集。NAG和Momentum SGD配置参数相同的情况下，即学习率为0.01，动量设为0.7，它们的耗时均为6秒，识别率均为100%

GitHub：https://github.com/fengbingchun/NN_Test

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Deep Learning

NAG

深度学习中的优化算法之NAG 的相关文章

如何高速安装jetson-inference，一步到位，避免踩坑！

踩了很长时间的坑终于弄明白怎么高速下载jetson inference 来源安装jetson inference 自动下载模型满速下载起飞解决下载模型被墙问题奈流云何的博客 CSDN博客需要将Github的仓库复制到Gitee上
深度学习优化算法大全系列3:NAG(Nesterov Acceleration Gradient)

1 NAG与SGD M的区别 NAG全称为Nesterov Accelerated Gradient 是在SGD Momentum基础进一步优化所得前面的文章我们提到过 SGD M主要是利用历史累积动量来代替当前梯度从而达到减小震荡加速
3W字长文总结PyTorch中常用的函数

quad quad PyTorch基本函数更新 quad q
【生成式网络】入门篇(二)：GAN的代码和结果记录

GAN非常经典我就不介绍具体原理了直接上代码感兴趣的可以阅读里面有更多变体 https github com rasbt deeplearning models tree master pytorch ipynb gan GAN 在
深度学习知识体系学习大全牛！！

搬来了大牛的博客点击直接前往 https www yuque com angsweet machine learning jian jie 配一张大牛的思维导图具体内容点进去都能看到数学机器学习语言算法深度学习书籍推荐东西
windows下运行pointnet（全）

放假闲着在家没事本人突然想跑一下3d深度学习的开山之作 pointnet玩一玩可是目前网上大部分pointnet的运行教程都是在Ubuntu系统下的其实本人也曾装过双系统但是因为我太菜了在Ubuntu下装完显卡驱动和cuda后切换
笔记︱几款多模态向量检索引擎：Faiss 、milvus、Proxima、vearch、Jina等

转自 https zhuanlan zhihu com p 364923722 引用文章 7 的开篇来表示什么是向量化搜索人工智能算法可以对物理世界的人物场景所产生各种非结构化数据如语音图片视频语言文字行为等进行抽象
tiny-cnn执行过程分析(MNIST)

在http blog csdn net fengbingchun article details 50573841中以MNIST为例对tiny cnn的使用进行了介绍下面对其执行过程进行分析支持两种损失函数 1 mean squared
libsvm库简介及使用

libsvm是基于支持向量机 support vector machine SVM 实现的开源库由台湾大学林智仁 Chih Jen Lin 教授等开发它主要用于分类支持二分类和多分类和回归它的License是BSD 3 Claus
几乎最全的中文NLP资源库

NLP民工的乐园 The Most Powerful NLP Weapon Arsenal NLP民工的乐园几乎最全的中文NLP资源库词库工具包学习资料在入门到熟悉NLP的过程中用到了很多github上的包遂整理了一下分享在
深度学习中的验证集和超参数简介

大多数机器学习算法都有超参数可以设置来控制算法行为超参数的值不是通过学习算法本身学习出来的尽管我们可以设计一个嵌套的学习过程一个学习算法为另一个学习算法学出最优超参数在多项式回归示例中有一个超参数多项式的次数作为容量超参数
16个车辆信息检测数据集收集汇总（简介及链接）

16个车辆信息检测数据集收集汇总简介及链接目录 1 UA DETRAC 2 BDD100K 自动驾驶数据集 3 综合汽车 CompCars 数据集 4 Stanford Cars Dataset 5 OpenData V11 0 车辆重
PyTorch训练简单的全连接神经网络：手写数字识别

文章目录 pytorch 神经网络训练demo 输出结果来源 pytorch 神经网络训练demo 数据集 MNIST 该数据集的内容是手写数字识别其分为两部分分别含有60000张训练图片和10000张测试图片神经网络全连接网络
GNN等优缺点总结及解决方案

https www zhihu com question 338051122 https www zhihu com question 346942899 https zhuanlan zhihu com p 291230435 GCN的缺
Pytorch Advanced(三) Neural Style Transfer

神经风格迁移在之前的博客中已经用keras实现过了比较复杂 keras版本这里用pytorch重新实现一次原理图如下 from future import division from torchvision import models
Deep Learning（深度学习）之（三）Deep Learning的常用模型或者方法

九 Deep Learning的常用模型或者方法 9 1 AutoEncoder自动编码器 Deep Learning最简单的一种方法是利用人工神经网络的特点人工神经网络 ANN 本身就是具有层次结构的系统如果给定一个神经网络我们假设
小样本学习(one/few-shot learning)

原文 https blog csdn net mao feng article details 78939864 原博地址 https blog csdn net xhw205 article details 79491649 小样本学习
深度学习中的优化算法之AdaGrad

之前在https blog csdn net fengbingchun article details 123955067 介绍过SGD Mini Batch Gradient Descent MBGD 有时提到SGD的时候其实指的是MB
【深度学习】模型评价指标

一分类任务分类任务一般有二分类多分类和多标签分类多分类表示分类任务中有多个类别但是对于每个样本有且仅有一个标签例如一张动物图片它只可能是猫狗虎等中的一种标签二分类特指分类任务中只有两个类别多标签一个样本可以有多个标
基于矩阵求解多元线性回归

多元线性回归法也是深度学习的内容之一用java实现一下多元线性回归一元线性回归的公式为 y a x b 多元线性回归的公式与一元线性回归的公式类似不过是矩阵的形式可以表示为Y AX b 其中 Y是样本输出的合集 X是样本输入的合集

随机推荐

String index out of range: 100 报错详解与解决方案

问题出错情况字符串截取长度没有那么长的长度所以截取失败在这里进行debug之后可以看到异常在substring中也就是判断字符串的时候报错具体原因就是string字符串indexof的值本身只有5 然后在这里去取其第100 个字
MFC六大关键技术(4)——永久保存（串行化）

MFC六大关键技术第四部分永久保存串行化先用一句话来说明永久保存的重要弄懂它以后你就越来越像个程序员了如果我们的程序不需要永久保存那几乎可以肯定是一个小玩儿那怕我们的记事本画图等小程序也需要保存才有真正的意义对于MF
Java项目之使用Bootstraptable批量操作

Java项目之使用Bootstraptable批量操作开发工具与关键技术 IntelliJ IDEA java 作者刘剑鸿撰写时间 2021 5 15 一开始认识一下bootstrap table插件介绍它是一个基于bootstra
solr 服务器配置文件,Solr的部署模式详解

前言本文介绍的Solr版本 solr 7 7 3 部署环境 windows Solr的两种部署模式 Solr程序包安装好后可以以两种模式来启动solr服务器 Standalone Server 独立服务器模式适用于数据规模不大的场景
无人机运动场景下移动物体检测和跟踪系统
Python+pytest邮件发送测试报告，附件添加测试报告，邮件正文显示测试报告内容

发送邮件测试报告这个可以直接复制粘贴代码都通用我这个文件里还有其他的代码导入的包比较多单说发邮件的话只导入邮件相关的几个就可以了 coding utf 8 import smtplib import time from emai
真实项目案例实战——【状态设计模式】使用场景

2019独角兽企业重金招聘Python工程师标准 gt gt gt 写在前面设计模式源于生活而又高于生活什么是状态模式状态模式允许一个对象在其内部状态改变的时候改变其行为这个对象看上去就像是改变了它的类一样状态模式应用场景 1
Jetson XAVIAR NX 上安装tensorflow

目录 JetPack 版本安装过程异常处理 1 train 时提示scikit learn 错误 2 tensorflow lite infer 时提示invoke 错误
TensorFlow学习（5）数据结构 & 自定义组件（损失函数，激活函数，初始化，正则化和约束，层）

神经网络架构进一步学习 TensorFlow模型花园 1 数据结构在使用之前先要导入tensorflow import tensorflow as tf 1 1 张量 1 1 1 通过直接传入创建使用tf constant 创建张量 p
leetcode 5. 最长回文子串（c++）

题目思路分析中心扩向两边的思想根据回文串的性质如str aba 从b出发往两边同时遍历并比较字符是否相同即可令left i 1 right i 1 那么依次比较str left str right 是否成立如成立继续比较若
DASH（QTUM）Java对接

下载钱包 https github com dashpay dash releases download v0 15 0 0 dashcore 0 15 0 0 win64 setup exe 配置文件 rpcuser rpcpasswor
银行卡交易手续费介绍

文章目录转接清算费转接清算费双向计收转接清算费单向计收交换费转接清算费银行卡清算机构收取的网络服务费对于跨境交易的转接清算费是包含跨境交易服务费在内的多项费用合计金额转接清算费双向计收每笔交易银联分别向收单机构和发卡机构收
springboot整合Druid+mybatis

Druid Springboot集成Druid方案一个是在POM中直接配置druid spring boot starter 不用写任何代码一个是配置druid 写几行代码可以加入在方案一基础上加入stat wall后进行验证登录
特征筛选之特征递归消除法及Python实现

特征递归消除法特征递归消除法 Feature Recursive Elimination 简称RFE 是一种特征选择的算法它通过反复训练模型并剔除其中的弱特征直到达到所需的特征数量该算法的步骤如下首先将所有的特征都输入模型得
【总结】【C++11】禁止拷贝新方法与相关知识点

原理依据 https isocpp github io CppCoreGuidelines CppCoreGuidelines Rc copy virtual C 67 A polymorphic class should suppres
Qt入门－下拉列表框QComboBox类

QComboBox是QT GUI中的下拉列表框 class Q GUI EXPORT QComboBox public QWidget Q OBJECT 常用方法和属性 1 addItems void addItems const QStr
JavaWeb学习-02（response和request）

JavaWeb学习 02 response和request 一 request对象 1 HttpServletRequest是ServletRequest的子接口 request对象用于接收客户端传递过来的请求内容通过该对象的各种方法来获
weak_ptr 智能指针的使用

目录一 weak ptr 变量的定义二 expired 成员函数三 lock 成员函数四 use count 成员函数五为什么要用 weak ptr 一 weak ptr 变量的定义 weak ptr 对象的构造有3种方法 1
软件测试面试面对HR提出的问题，怎么回答才不会被面试官“套路”

面试中如何回答HR提出的问题很大程度上决定了面试能不能成功下面是软件测试人员在面试过程中经常被问到的10个问题告诉你怎么回答才不会被面试官套路请你做一个自我介绍误区一般人回答这个问题过于平常只说姓名年龄爱好工作经验这些
深度学习中的优化算法之NAG

之前在https blog csdn net fengbingchun article details 124648766 介绍过Momentum SGD 这里介绍下深度学习的另一种优化算法NAG NAG Nesterov Accelera

深度学习中的优化算法之NAG

深度学习中的优化算法之NAG 的相关文章

随机推荐

热门标签