深度学习 --- 模拟退火算法详解（Simulated Annealing， SA）

2023-05-16

上一节我们深入探讨了，Hopfield神经网络的性质，介绍了吸引子和其他的一些性质，而且引出了伪吸引子，因为伪吸引子的存在导致Hopfield神经网络正确率下降，因此本节致力于解决伪吸引子的存在。在讲解方法之前我们需要再次理解一些什么是伪吸引子，他到底是如何产生的？

简单来说说就是网络动态转移过程，状态掉进了局部最优解里了，就是能量函数没有达到最低，只是掉进了局部能量最低的状态，这和我们梯度容易获得局部最优解差不多，大家这样理解就好，想要深入理解的建议自己多参考文献。为了解决伪吸引子的问题，人们提出了模拟退火算法和玻尔兹曼机彻底解决了伪吸引子的问题，但是带来的另外一个问题就是计算量很大，这些我们会一步步的讲解。好，我们知道了问题，也知道了方法，现在是看看到底如何解决的，但是前提我们需要搞明白什么是模拟退火算法。

模拟退火算法：

为了解决局部最优解问题， 1983年，Kirkpatrick等提出了模拟退火算法（SA）能有效的解决局部最优解问题。我们知道在分子和原子的世界中，能量越大，意味着分子和原子越不稳定，当能量越低时，原子越稳定。‘退火’是物理学术语，指对物体加温在冷却的过程。模拟退火算法来源于晶体冷却的过程，如果固体不处于最低能量状态，给固体加热再冷却，随着温度缓慢下降，固体中的原子按照一定形状排列，形成高密度、低能量的有规则晶体，对应于算法中的全局最优解。而如果温度下降过快，可能导致原子缺少足够的时间排列成晶体的结构，结果产生了具有较高能量的非晶体，这就是局部最优解。因此就可以根据退火的过程，给其在增加一点能量，然后在冷却，如果增加能量，跳出了局部最优解，这本次退火就是成功的，下面我们就详细讲讲他是如何在局部最优解跳出来到全局最优解的：

模拟退火算法包含两个部分即Metropolis算法和退火过程。Metropolis算法就是如何在局部最优解的情况下让其跳出来，是退火的基础。1953年Metropolis提出重要性采样方法，即以概率来接受新状态，而不是使用完全确定的规则，称为Metropolis准则，计算量较低。下面先形象的说一下，然后在因此数学公式：

假设开始状态在A，随着迭代次数更新到B的局部最优解，这时发现更新到B时，能力比A要低，则说明接近最优解了，因此百分百转移，状态到达B后，发现下一步能量上升了，如果是梯度下降则是不允许继续向前的，而这里会以一定的概率跳出这个坑，这各概率和当前的状态、能量等都有关系，下面会详细说，如果B最终跳出来了到达C，又会继续以一定的概率跳出来，可能有人会迷惑会不会跳回之前的B呢？下面会解释，直到到达D后，就会稳定下来。所以说这个概率的设计是很重要的，下面从数学方面进行解释。

假设前一个状态为 $x(n)$ ,系统根据某一指标（梯度下降，上节的能量），状态变为 $x(n+1)$ ,相应的，系统的能量由 $E(n)$ 变为 $E(n+1)$ ,定义系统由 $x(n)$ 变为 $x(n+1)$ 的接受概率P为：

$P = \left\{\begin{matrix} 1, E(n+1)<E(n)& \\ & \\ & \\ e^{-\frac{E(n+1) - E(n)}{T}}, E(n+1) \geq E(n)& \end{matrix}\right.$

从上式我们可以看到，如果能量减小了，那么这种转移就被接受（概率为1），如果能量增大了，就说明系统偏离全局最优值位置更远了，此时算法不会立刻将其抛弃，而是进行概率操作：首先在区间【0,1】产生一个均匀分布的随机数 $\varepsilon$ ，如果 $\varepsilon$ $<$ P，则此种转移接受，否则拒绝转移，进入下一步，往复循环。其中P以能量的变化量和T进行决定概率P的大小，所以这个值是动态的。

退火算法的参数控制

Metropolis算法是模拟退火算法的基础，但是直接使用Metropolis算法可能会导致寻优速度太慢，以至于无法实际使用，为了确保在有限的时间收敛，必须设定控制算法收敛的参数，在上面的公式中，可以调节的参数就是T，T如果过大，就会导致退火太快，达到局部最优值就会结束迭代，如果取值较小，则计算时间会增加，实际应用中采用退火温度表，在退火初期采用较大的T值，随着退火的进行，逐步降低，具体如下：

（1）初始的温度T(0)应选的足够高，使的所有转移状态都被接受。初始温度越高，获得高质量的解的概率越大，耗费的时间越长。

（2）退火速率。最简单的下降方式是指数式下降：

$T(n) = \lambda T(n) ,n =1,2,3,.....$

其中 $\lambda$ 是小于1的正数，一般取值为0.8到0.99之间。使的对每一温度，有足够的转移尝试，指数式下降的收敛速度比较慢，其他下降方式如下：

$T(n) = \frac{T(0)}{log(1+t)}$

$T(n) = \frac{T(0)}{1+t}$

（3）终止温度

如果在若干次迭代的情况下每有可以更新的新状态或者达到用户设定的阈值，则退火完成。

模拟退火的步骤：

1.模拟退火算法可以分解为解空间、目标函数和初始解三部分。

2.模拟退火的基本思想:

(1) 初始化：初始温度T(充分大)，初始解状态S(是算法迭代的起点)，每个T值的迭代次数L

(2) 对k=1, …, L做第(3)至第6步：

(3) 产生新解S′

(4) 计算增量ΔT=C(S′)-C(S)，其中C(S)为代价函数

(5) 若ΔT<0则接受S′作为新的当前解，否则以概率exp(-ΔT/T)接受S′作为新的当前解.

(6) 如果满足终止条件则输出当前解作为最优解，结束程序。

终止条件通常取为连续若干个新解都没有被接受时终止算法。

(7) T逐渐减少，且T->0，然后转第2步。

模拟退火算法新解的产生和接受可分为如下四个步骤：

第一步是由一个产生函数从当前解产生一个位于解空间的新解；为便于后续的计算和接受，减少算法耗时，通常选择由当前新解经过简单地变换即可产生新解的方法，如对构成新解的全部或部分元素进行置换、互换等，注意到产生新解的变换方法决定了当前新解的邻域结构，因而对冷却进度表的选取有一定的影响。

第二步是计算与新解所对应的目标函数差。因为目标函数差仅由变换部分产生，所以目标函数差的计算最好按增量计算。事实表明，对大多数应用而言，这是计算目标函数差的最快方法。

第三步是判断新解是否被接受,判断的依据是一个接受准则，最常用的接受准则是Metropolis准则: 若ΔT<0则接受S′作为新的当前解S，否则以概率exp(-ΔT/T)接受S′作为新的当前解S。

第四步是当新解被确定接受时，用新解代替当前解，这只需将当前解中对应于产生新解时的变换部分予以实现，同时修正目标函数值即可。此时，当前解实现了一次迭代。可在此基础上开始下一轮试验。而当新解被判定为舍弃时，则在原当前解的基础上继续下一轮试验。

模拟退火算法与初始值无关，算法求得的解与初始解状态S(是算法迭代的起点)无关；模拟退火算法具有渐近收敛性，已在理论上被证明是一种以概率l 收敛于全局最优解的全局优化算法；模拟退火算法具有并行性。

退火算法程序流程图;

上面就是模拟退火算法的全部内容了，本节讲的仅仅是可以应用在任何出现局部最优解的的算法上，还没和 Hopfield神经网络结合在一起解决伪吸引子的问题，把退火算法和Hopfield神经网络结合在一起就是玻尔兹曼机了，下一节在详细探讨，本节到此结束。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习 --- 模拟退火算法详解（Simulated Annealing， SA）的相关文章

ajax authorization,jquery ajax 添加自定义请求头 - Authorization 字段.txt

jquery ajax 添加自定义请求头 Authorization 字段 txt 参考 xff1a https www cnblogs com yanggb p 12039665 html https www w3school com c
linux cmakelist工程编译,使用CMake构建复杂工程

0 什么是CMake CMake是一个跨平台的编译安装测试以及打包工具 xff1b CMake不直接编译软件 xff0c 而是结合原生构建系统来构建软件 CMake配置文件是CMakeList txt文件每个源码文件夹下都要有一个 x

随机推荐

仿真——衬底电压的改变对NMOSD的开启电压的影响

1 搭建电路 xff0c 并测得开启电压开启电压大约为0 8V 2 在衬底处加上一个0 5V的偏压 xff0c lt 0 测得开启电压下降到0 66V 3 在衬底处加上一个 0 5V的偏压 xff0c gt 0 测得开启电压上升到0 9V
在Airsim环境下实现Kerloud自驾仪硬件在环仿真

背景云讷科技致力于向用户提供长期稳定支持的飞行控制器方案 xff0c 并注重提升用户在相关软件社区的使用体验 xff0c 包括人工智能 xff0c ROS和集群等领域本文用以说明我们设计的Kerloud飞控系列对Airsim仿真库的支持
路由器的作用和特点

大家好呀 xff0c 我是请假君 xff0c 今天又来和大家一起学习数通了 xff0c 今天要分享的知识是路由器的作用和特点一作用 xff1a 作为网络互联的一种关键设备 xff0c 路由器是伴随着Internet和网络行业发展起来的
datax 模板_DataX从Mysql到Mysql

在某一个阳光明媚的上午 xff0c 万里无云 xff0c 天空一片蔚蓝我的老大迈着矫健的步伐来到我的工位 xff0c 来 xff0c 过来 xff0c 帮我个忙我意识到这可能是一个不简单的交易老大说 xff1a 我给你一个Navic
串口服务器 linux,基于Linux的串口服务器设计与实现

随着互联网的迅猛发展 xff0c 在使用计算机进行网络互联的同时 xff0c 各种家电设备仪器仪表以及工业生产中的数据采集和控制设备也在逐步地走向网络化 xff0c 以便共享网络资源所以 xff0c 在电子设备日趋网络化的今天 xff0
linux模拟http返回值,Linux命令模拟Http的get或post请求

Http请求指的是客户端向服务器的请求消息 xff0c Http请求主要分为get或post两种 xff0c 在Linux系统下可以用curl和wget命令来模拟Http的请求 get请求 xff1a 1 使用curl命令 xff1a cu
Kerloud Uno开源LTS飞控发布

继2019年云讷科技发布第一款飞控产品Kerloud mini以来 xff0c 我们云讷科技以服务行业客户为宗旨 xff0c 坚持产品创新 xff0c 建立了Kerloud教育机器人产品矩阵开源飞控作为px4社区的内核 xff0c 在过去
host ntrip 千寻rtk_手把手教你怎样使用瑞得R90T RTK连接千寻cors账号

瑞得RTK是南方测绘旗下的RTK品牌之一 xff0c 不过相比于南方旗下其他品牌的RTK xff0c 瑞得RTK在操作使用方面以及普及度方面相对来说没有那么高 xff0c 因此很多人对于瑞得RTK连接千寻cors账号的操作比较陌生 xff0
linux大小端转换程序,linux字节序大小端转化程序

一前因在项目开发遇到一个问题 xff1a 读取flash的所有数据到文件 xff0c 然后用烧录器去烧写到新的flash xff0c 烧录后机子起不来后面发现是从flash读出的数据需要经过字节序转换之后才能用烧录器烧录于是 xff
idea登录页面ajax验证,IDEA如何实现登录注册页面 IDEA实现登录注册页面代码示例...

IDEA如何实现登录注册页面 xff1f 本篇文章小编给大家分享一下IDEA实现登录注册页面代码示例 xff0c 文章代码介绍的很详细 xff0c 小编觉得挺不错的 xff0c 现在分享给大家供大家参考 xff0c 有需要的小伙伴们可以来看
halcon中相似变换、仿射变换、投影变换的区别以及应用方式和例程

在机器视觉系统中 xff0c 镜头是重要成像部件之一 xff0c 而基于小孔成像原理的工业镜头往往会产生透视畸变现象 xff0c 如何校正畸变是进行图像分析的前提 xff0c 这其中就会用到投影变换 xff0c 也是几何变换的一种除此之外
CenterNet原理详解

CenterNet是在2019年论文Objects as points中提出 xff0c 相比yolo xff0c ssd xff0c faster rcnn依靠大量anchor的检测网络 xff0c CenterNet是一种anchor
cmake使用教（三）构建动态库、静态库和安装共享库

前两节简单的介绍了 xff0c cmake的简单使用和install的过程 xff0c 本节将详细介绍构建动态库和静态库 xff0c 以及共享动态库和静态库的过程文件存放方式 xff1a 创建test根目录 xff0c 然后创建lib和b
语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现

梅尔倒谱系数 xff08 Mel scale FrequencyCepstral Coefficients xff0c 简称MFCC xff09 依据人的听觉实验结果来分析语音的频谱 xff0c MFCC分析依据的听觉机理有两个第一梅尔刻
VINS-Mono跑Kitti数据集

参考文章 xff1a VINS Mono KITT00 测试知乎如何在kitti raw data上跑起vins mono 知乎实际上我参考的是LIO SAM里将KITTI转化为bag的方法 Debug https blog csdn
c/c++子函数内使用malloc或者new申请一块内存供外部使用

当指针作为函数的形参时 xff0c 不要用该指针去申请动态内存网上有下面的例子 xff1a void GetMemory char p int num p 61 char malloc sizeof char num void Test
pt文件转onnx确定不同的输入宽高如何转换？

现实中训练好的模型部署时经常会有这样的需求 xff0c 就是模型的输入需要改变 xff0c 不使用训练时的输入大小 xff0c 如yolo系列的模型训练时一般都是输入的图片是640x640 xff0c 但是部署时我希望输入到模型的分辨率是1
最大类间方差法（大津法OTSU）原理

算法介绍最大类间方差法是1979年由日本学者大津提出的 xff0c 是一种自适应阈值确定的方法 xff0c 又叫大津法 xff0c 简称OTSU xff0c 是一种基于全局的二值化算法 xff0c 它是根据图像的灰度特性将图像分为前景和
深度学习 --- BP算法详解（流程图、BP主要功能、BP算法的局限性）

上一节我们详细推倒了BP算法的来龙去脉 xff0c 请把原理一定要搞懂 xff0c 不懂的请好好理解BP算法详解 xff0c 我们下面就直接把上一节推导出的权值调整公式拿过来 xff0c 然后给出程序流程图 xff0c 该流程图是严格按照上
深度学习 --- 模拟退火算法详解（Simulated Annealing， SA）

上一节我们深入探讨了 xff0c Hopfield神经网络的性质 xff0c 介绍了吸引子和其他的一些性质 xff0c 而且引出了伪吸引子 xff0c 因为伪吸引子的存在导致Hopfield神经网络正确率下降 xff0c 因此本节致力于解决

深度学习 --- 模拟退火算法详解（Simulated Annealing， SA）

深度学习 --- 模拟退火算法详解（Simulated Annealing， SA） 的相关文章

随机推荐

热门标签

深度学习 --- 模拟退火算法详解（Simulated Annealing， SA）的相关文章