【TensorFlow】激活函数（Activation Functions）原理解析（十二）

2023-11-11

神经网络结构的输出为所有输入的加权和，这导致整个神经网络是一个线性模型。如果将每一个神经元的输出通过一个非线性函数，那么整个神经网络的模型也就不再是线性的了，使得神经网络可以更好地解决较为复杂的问题。这个非线性函数也就是激活函数。

神经网络中激活函数的主要作用是提供网络的非线性建模能力，如不特别说明，激活函数一般而言是非线性函数。假设一个示例神经网络中仅包含线性卷积和全连接运算，那么该网络仅能够表达线性映射，即便增加网络的深度也依旧还是线性映射，难以有效建模实际环境中非线性分布的数据。加入（非线性）激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。因此，激活函数是深度神经网络中不可或缺的部分。

从定义来看，几乎所有的连续可导函数都可以用作激活函数。但目前常见的多是分段线性和具有指数形状的非线性函数。下文将依次对它们进行总结。

TensorFlow提供的激活函数有：
详见官方文档
1、tf.nn.relu(features, name=None)
2、tf.nn.relu6(features, name=None)
3、tf.nn.softplus(features, name=None)
4、tf.nn.dropout(x, keep_prob, noise_shape=None, seed=None, name=None)
5、tf.nn.bias_add(value, bias, name=None)
6、tf.sigmoid(x, name=None)
7、tf.tanh(x, name=None)
除了上述的激活函数，TensorFlow当然还可以自定义激活函数

下面具体解析常用的激活函数tf.nn.relu(）、tf.sigmoid(）、tf.tanh(）：

1、tf.nn.relu(features, name=None)
这里写图片描述

对应的图像是：这里写图片描述

ReLU的优点：

a. 相较于sigmoid和tanh函数，ReLU 对于 SGD（梯度下降优化算法）的收敛有巨大的加速作用（Alex Krizhevsky 指出有 6 倍之多）。有人认为这是由它的线性、非饱和的公式导致的。

b. 相比于 sigmoid和tanh，ReLU 只需要一个阈值就可以得到激活值，而不用去算一大堆复杂的（指数）运算。

c. 有效缓解了梯度消失的问题。

d. 在没有无监督预训练的时候也能有较好的表现。

e. 提供了神经网络的稀疏表达能力。

ReLU的缺点：

a. 它在训练时比较脆弱并且可能“死掉”。举例来说：一个非常大的梯度经过一个ReLU神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。如果这种情况发生，那么从此所有流过这个神经元的梯度将都变成 0。也就是说，这个ReLU单元在训练中将不可逆转的死亡，导致了数据多样化的丢失。实际中，如果学习率设置得太高，可能会发现网络中 40% 的神经元都会死掉（在整个训练集中这些神经元都不会被激活）。

b. 合理设置学习率，会降低这种情况的发生概率。

后续又有相关ReLU衍生的激活函数，比如：ReLU6、SReLU、Leaky ReLU 、PReLU、RReLU、CReLU

1.1、ReLU6
这里写图片描述

1.2、LReLU、PReLU与RReLU
这里写图片描述
通常在LReLU和PReLU中，我们定义一个激活函数为
-LReLU
当ai比较小而且固定的时候，我们称之为LReLU。LReLU最初的目的是为了避免梯度消失。但在一些实验中，我们发现LReLU对准确率并没有太大的影响。很多时候，当我们想要应用LReLU时，我们必须要非常小心谨慎地重复训练，选取出合适的a，LReLU的表现出的结果才比ReLU好。因此有人提出了一种自适应地从数据中学习参数的PReLU。

-PReLU
PReLU是LReLU的改进，可以自适应地从数据中学习参数。PReLU具有收敛速度快、错误率低的特点。PReLU可以用于反向传播的训练，可以与其他层同时优化。

2、tf.sigmoid(x, name=None)

这里写图片描述

对应的图像是：这里写图片描述

sigmoid的使用场景是只对一种类别进行分类。首先设置阈值（shrehold），当sigmoid函数输出值大于阈值，则认为【是】这一类，否则认为【不是】这类。

sigmoid优点：

a. Sigmoid函数的输出映射在(0,1)之间，单调连续，输出范围有限，优化稳定，可以用作输出层。

b. 求导容易。

sigmoid函数曾被广泛地应用，但由于其自身的一些缺陷，现在很少被使用了。

sigmoid缺点：

a. 函数饱和使梯度消失

sigmoid 在值为 0 或 1 的时候接近饱和，这些区域，梯度几乎为 0。因此在反向传播时，这个局部梯度会与整个损失函数关于该单元输出的梯度相乘，结果也会接近为 0 。因此这时梯度就对模型的更新没有任何贡献。

除此之外，为了防止饱和，必须对于权重矩阵的初始化特别留意。比如，如果初始化权重过大，那么大多数神经元将会饱和，导致网络就几乎不学习。

b. sigmoid 函数关于原点中心不对称

这个特性会导致后面网络层的输入也不是零中心的，进而影响梯度下降的运作。因为如果输入都是正数的话（如y=wx+b中每个元素都 x>0），那么关于w的梯度在反向传播过程中，要么全是正数，要么全是负数（具体依据整个表达式y而定），这将会导致梯度下降权重更新时出现z字型的下降。

如果是按 batch 训练，那么每个 batch 可能得到不同的信号，整个批量的梯度加起来后可以缓解这个问题。

后续又有相关sigmoid 衍生的激活函数，比如：softplus、softmax、softsign

2.1、 softmax是sigmoid函数的多分类样本，可以将输出值对应到多个类别标签，概率值最高的一项就是模型预测的标签。

2.2、 softplus
这里写图片描述

2.3、 softsign 这里写图片描述

目前使用的比较少，在这里就不详细讨论了。

3、tf.tanh(x, name=None)

这里写图片描述

对应的图像是：这里写图片描述

tanh函数与sigmoid一样也存在饱和问题，但它的输出是零中心的，因此实际应用中tanh比sigmoid 更受欢迎。tanh函数实际上是一个放大的sigmoid函数。

tanh优点：

a. 比Sigmoid函数收敛速度更快。

b. 相比Sigmoid函数，其输出以0为中心。

tanh缺点：

a. 还是没有改变Sigmoid函数的最大问题–由于饱和性产生的梯度消失。

总结：深度学习的快速发展，催生了形式各异的激活函数。如何做出选择目前尚未有统一定论，仍需依靠实验指导。一般来说，在分类问题上建议首先尝试 ReLU，其次ELU，这是两类不引入额外参数的激活函数。然后可考虑使用具备学习能力的PReLU，并使用正则化技术，例如应该考虑在网络中增加Batch Normalization层。

参考：
1、浅谈深度学习中的激活函数 - The Activation Function in Deep Learning
2、深度学习中的激活函数导引

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【TensorFlow】激活函数（Activation Functions）原理解析（十二）的相关文章

为什么 get_tensor_by_name 无法正确获取 tf.keras.layers 定义的层的权重

我尝试获取由以下定义的层的权重tf keras layers通过使用get tensor by name in tensorflow 代码如下 encoding utf 8 import tensorflow as tf x tf plac
Tensorflow：logits 和标签必须具有相同的第一维

我是张量流新手我想改编 MNIST 教程https www tensorflow org tutorials layers https www tensorflow org tutorials layers用我自己的数据 40x40 的图
分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步

我使用两个工作程序副本和一个参数服务器喜欢 ps hosts hosta com 2222 worker hosts hosta com 2223 hostb com 2223 使用tf train SyncReplicasOptimi
Keras 序列模型中的数据增强层

我正在尝试将数据增强作为一个层添加到模型中但我遇到了我认为是形状问题我也尝试在增强层中指定输入形状当我取出data augmentation模型中的图层运行良好 preprocessing RandomFlip horizontal
带有 s3 路径的张量板 logdir

我看到tensorflow支持AWS s3文件系统 https github com tensorflow tensorflow tree master tensorflow core platform s3 https github co
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
如何在 Keras 中将多个数据集与一个模型一起使用？

我正在尝试使用 LSTM 网络通过 Keras 和 Tensorflow 进行外汇预测我当然希望它能够在很多天的交易中进行训练但要做到这一点我必须给它提供具有大跳跃和无运动阶段的连续数据当市场收盘时这并不理想因为它变得由于这些跳
TensorFlow：有没有办法将冻结图转换为检查点模型？

可以将检查点模型转换为冻结图 ckpt 文件转换为 pb 文件但是是否有反向方法将 pb 文件再次转换为检查点文件我想它需要将常量转换回变量有没有办法将正确的常量识别为变量并将它们恢复回检查点模型目前支持将变量转换为常量 http
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
从tensorflow_cc和tensorflow_framework生成静态库

据我了解使用 bazel 我只能生产libtensorflow cc so and libtensorflow framework so 我需要生产静态库与位置无关 fPIC 因为稍后我会将它们链接到我自己的动态库 I found 这个答
带有 CUDA 的 Tensorflow：导入错误

我已经按照 NVIDIA 教程中的说明一步步安装了 TensorFlow Ubuntu 16 04 桌面版 GTX 970 http www nvidia com object gpu accelerated applications te
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
无法获取未知等级的 Shape 长度

我有一个神经网络来自tf data数据生成器和tf keras模型如下简化版本因为太长 dataset A tf data Dataset反对与next x方法调用get next为了x train迭代器和next y方法调用get
如何将 tf.contrib.seq2seq.Helper 用于非嵌入数据？

我正在尝试使用 tf contrib seq2seq 模块对某些数据仅 float32 向量进行预测但我使用 TensorFlow 中的 seq2seq 模块找到的所有示例都用于翻译因此用于嵌入我正在努力准确理解 tf contr
使用预训练的 word2vec 初始化 Seq2seq 嵌入

我对使用预训练的 word2vec 初始化tensorflow seq2seq 实现感兴趣我已经看过代码了嵌入似乎已初始化 with tf variable scope scope or embedding attention deco
使用大数据集在 Google Colab TPU 上训练 seq2seq 模型 - Keras

我正在尝试使用 Google Colab TPU 上的 Keras 训练用于机器翻译的序列到序列模型我有一个可以加载到内存中的数据集但我必须对其进行预处理才能将其提供给模型特别是我需要将目标单词转换为一个热向量并且在许多示例中我
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con

随机推荐

Qt编程（一）

一 Qt简介 1 Qt是什么图形用户程序框架是对底层应用编程接口API面向对象的封装是一套基于C 语言的类库专注但不局限于图形用户界面的开发也可以进行系统调用网络编程数据库 2D 3D图形处理特点跨平台支持Linux W
hosts文件被删除了如何解决

一给etc目录授权进入c windows system32 drivers etc 选中etc目录右键属性高级二恢复hosts文件进入目录C Windows System32 drivers etc 新建hosts txt
python三次样条插值拟合的树行线_R语言：样条回归

01 解决何种问题线性回归都知道是用来描述两个变量之间的线性关系比如身高和体重自变量身高每增加1个单位因变量体重就变化多少但是现实中能用线性回归描述的情况太少了绝大部分关系都是非线性关系这个时候就必须用其他回归来拟合了例如类
面向对象基础2-关键字

目录前言一 private关键字二 private关键字的使用三 this关键字四 public关键字五 protected 六 default 总结前言一 private关键字 private属于私有访问权限用于修饰类的
ImportError: /opt/ros/kinetic/lib/python2.7/dist-packages/cv2.so: undefined symbol: PyCObject_Type

1 问题描述 ubuntu系统中安装好anaconda后又继而安装了ROS 并通过命令 pip install opencv python 安装opencv的情况下此时安装的opencv python包是存放在anaconda下的而在
Linux中的一些指令及./详解

在 Linux 中有许多常见的指令用于执行各种任务以下是一些常见的 Linux 指令及其用法的总结 ls 列出目录中的文件和子目录用法 ls 选项目录 cd 改变当前工作目录用法 cd 目录 pwd 显示当前工作目录的路径用法 p
js逆向案例三

目录零概述一请求参数 Cookie Referer校验二参数响应加密解密AES DES RSA 三其它js混淆 1 案例7 百变ip eval 2 案例8 聚合图床 sojson v6 3 案例9 SH行政处罚 sojson
varest插件使用
数据结构学习——顺序栈和链式栈的简单实现和解析（C语言版）

数据结构栈的简单解析和实现一概念二入栈 push 三出栈 pop 四顺序栈简单实现 1 进栈操作 2 出栈操作一概念本篇所讲解的栈和队列属于逻辑结构上的划分逻辑结构分为线性结构非线性结构线性结构有且仅有一个开始节
GD32E230芯片无法识别

GD32E230芯片无法识别 GD32E230板子回来后开始接上jlink烧录但是板子第一次能烧录然后第二次就不行的了换了好几个板子都是搞了好几个小时整个人都快崩溃了后面也是经过不断的尝试终于搞好了总结了一下主要要注意的问
Qt的connect槽函数

一 connect 函数的不同参数形式以及其区别优略除2 未知之外总体分为三种形式 1 3信号和槽转为字符串形参的connect函数 4 5 6 7 8信号和槽转为可调用对象的connect函数 9转到槽函数 1 将信号连接到另一
视觉算法工程师面试问题集锦，从基础到进阶，会介绍细节，持续更新中......

引言简历上写项目的流程项目背景是什么应用场景在什么地方目的是什么创造了什么价值你做了什么事情遇到困难时又是怎么解决的面试需要准备的内容一项目描述与项目细节提问主要描述项目背景项目实现的功能与方法流程等面试官会针对
基于STM32的OLED屏显示AHT20采集的温湿度数据

文章目录一实现温湿度数据采集并通过串口显示二实现将温湿度采集数据显示到OLED屏 1 代码下载 2 部分代码的编写 3 编译并烧录 4 运行结果三小结四参考链接本实验使用的工具 STM32野火mini开发板 AHT20温湿
mysql没有写入权限_解决Errcode: 13——mysql写文件权限问题

mysql没有写入权限解决Errcode 13 mysql写文件权限问题一问题二权限错误 Errcode 13 解决方法三原理一问题在数据库中select into outfile home mysql data sql
Three.js入门之做一个简单的3D场景内添加标点的功能

什么是Three js 百度百科上是这么说的 Three js是JavaScript编写的WebGL第三方库提供了非常多的3D显示功能运行在浏览器中的 3D 引擎你可以用它创建各种三维场景包括了摄影机光影材质等各种对象你可以在
数据结构第一次上机第一章

数据结构第一次上机第一章实验题2 常见算法时间函数的增长趋势分析目的理解常见算法时间函数的增长情况内容编写一个程序exp1 2 cpp 对于1 n的每个整数n 输出log2 n n Alt 41420出根号 n nlog2 n
20050621:松一口气

今天把业务日志的数据恢复上去了不管怎么样 X姐放了一罐椰奶在我桌子上我猜大概不会收到投诉了因为这事情她也有责任从某种意义上说是我帮她摆平了但是下午X姐的本性又露出来了不停的冒一些点子出来客户总是这样喜欢出些点子并暗
ARTS挑战打卡第十周

Algorithm 一周至少一道算法题 Review 阅读并点评至少一篇英文技术文章 Tip 学习至少一个技术技巧总结和归纳在日常工作中所遇到的知识点 Share 分享一篇有观点和思考的技术文章 01 Algorthm https lee
什么是面向对象

面向对象定义面向对象 Object Oriented 是软件开发方法一种编程范式对象来自某一个类同时又给类赋值而实例化面向对象编程中执行一个功能的代码叫方法 method 举例作为团队负责人分管好各个部门的负责人就行不需要
【TensorFlow】激活函数（Activation Functions）原理解析（十二）

神经网络结构的输出为所有输入的加权和这导致整个神经网络是一个线性模型如果将每一个神经元的输出通过一个非线性函数那么整个神经网络的模型也就不再是线性的了使得神经网络可以更好地解决较为复杂的问题这个非线性函数也就是激活函数神经网络中

【TensorFlow】激活函数（Activation Functions）原理解析（十二）

【TensorFlow】激活函数（Activation Functions）原理解析（十二） 的相关文章

随机推荐

热门标签

【TensorFlow】激活函数（Activation Functions）原理解析（十二）的相关文章