激活函数(sigmoid、tanh、ReLU、softmax)

2023-11-13


激活函数在神经网络中的作用有很多,主要作用是给神经网络提供非线性建模能力。如果没有激活函数,那么再多层的神经网络也只能处理线性可分问题。常用的激活函数有 sigmoidtanhrelusoftmax等。

1.1、sigmoid函数

sigmoid函数将输入变换为(0,1)上的输出。它将范围(-inf,inf)中的任意输入压缩到区间(0,1)中的某个值:
s i g m o i d ( x ) = 1 1 + e x p ( − x ) sigmoid(x)=\frac{1}{1+exp(-x)} sigmoid(x)=1+exp(x)1
sigmoid函数是⼀个⾃然的选择,因为它是⼀个平滑的、可微的阈值单元近似。当我们想要将输出视作⼆元分类问题的概率时, sigmoid仍然被⼴泛⽤作输出单元上的激活函数(你可以将sigmoid视为softmax的特例)。然而, sigmoid在隐藏层中已经较少使⽤,它在⼤部分时候被更简单、更容易训练的ReLU所取代。下面为sigmoid函数的图像表示,当输入接近0时,sigmoid更接近线形变换。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
sigmoid=torch.nn.Sigmoid()
y=sigmoid(x)

d2l.plot(x.detach(),y.detach(),'x','sigmoid(x)',figsize=(5,2.5))


output_3_0

sigmoid函数的导数为下面的公示:
d d x s i g m o i d ( x ) = e x p ( − x ) ( 1 + e x p ( − x ) ) 2 = s i g m o i d ( x ) ( 1 − s i g m o i d ( x ) ) \frac{d}{dx}sigmoid(x)=\frac{exp(-x)}{(1+exp(-x))^2}=sigmoid(x)(1-sigmoid(x)) dxdsigmoid(x)=(1+exp(x))2exp(x)=sigmoid(x)(1sigmoid(x))
sigmoid函数的导数图像如下所示。当输入值为0时,sigmoid函数的导数达到最大值0.25;而输入在任一方向上越远离0点时,导数越接近0。

#清除以前的梯度
#retain_graph如果设置为False,计算图中的中间变量在计算完后就会被释放。
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of sigmoid')


output_5_0

1.2、tanh函数

与sigmoid函数类似,tanh函数也能将其输入压缩转换到区间(-1,1)上,tanh函数的公式如下:
t a n h ( x ) = 1 − e x p ( − 2 x ) 1 + e x p ( − 2 x ) tanh(x)=\frac{1-exp(-2x)}{1+exp(-2x)} tanh(x)=1+exp(2x)1exp(2x)
tanh函数的图像如下所示,当输入在0附近时,tanh函数接近线形变换。函数的形状类似于sigmoid函数,不同的是tanh函数关于坐标系原点中心对称。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
tanh=torch.nn.Tanh()
y=tanh(x)

d2l.plot(x.detach(),y.detach(),'x','tanh(x)',figsize=(5,2.5))


output_7_0

tanh函数的导数是:
d d x t a n h ( x ) = 1 − t a n h 2 ( x ) \frac{d}{dx}tanh(x)=1-tanh^2(x) dxdtanh(x)=1tanh2(x)
tanh函数的导数如下,当输入接近0时,tanh函数的导数接近最大值1。与sigmoid函数图像中看到的类似,输入在任一方向上远离0点,导数越接近0。

y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of tanh',figsize=(5,2.5))


output_9_0

1.3、ReLU函数

线性整流单元(ReLU),ReLU提供了一种非常简单的非线性变换。给定元素 x x x,ReLU函数被定义为该元素与0的最大值。
R e L U ( x ) = m a x ( x , 0 ) ReLU(x)=max(x,0) ReLU(x)=max(x,0)
ReLU函数通过将相应的活性值设为0,仅保留正元素并丢弃所有负元素。如下为ReLU函数的曲线图。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
relu=torch.nn.ReLU()
y=relu(x)

d2l.plot(x.detach(),y.detach(),'x','relu',figsize=(5,2.5))


output_11_0

当输入为负时,reLU函数的导数为0,而当输入为正时,ReLU函数的导数为1。当输入值等于0时,ReLU函数不可导。如下为ReLU函数的导数:
f ′ ( x ) = { 1 ,  x≥0  0 , x<0 f^{'}(x) = \begin{cases} 1, & \text{ x≥0 } \\ 0, & \text{x<0} \end{cases} f(x)={1,0, x≥0 x<0

#retain_graph如果设置为False,计算图中的中间变量在计算完后就会被释放。
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of relu',figsize=(5,2.5))


output_13_0

ReLU函数的求导表现的很好:要么让参数消失,要么让参数通过。ReLU减轻了神经网络的梯度消失问题。ReLU函数有很多变体,如LeakyReLU,pReLU等。

1.4、softmax函数

在二分类任务时,经常使用sigmoid激活函数。而在处理多分类问题的时候,需要使用softmax函数。它的输出有两条规则。

  • 每一项的区间范围的(0,1)
  • 所有项相加的和为1.

假设有一个数组V, V i V_i Vi代表V中的第i个元素,那么这个元素的softmax值的计算公式为:
S i = e i ∑ j e j S_i=\frac{e^i}{\sum_j e^j} Si=jejei

下图为更为详细的计算过程:

如上图所示,输入的数组为[3,1,-3]。那么每项的计算过程为:

当输入为3时,计算公式为 e 3 e 3 + e 1 + e − 3 ≈ 0.88 \frac{e^3}{e^3+e^1+e^{-3}}\approx 0.88 e3+e1+e3e30.88

当输入为1时,计算公式为 e 1 e 3 + e 1 + e − 3 ≈ 0.12 \frac{e^1}{e^3+e^1+e^{-3}}\approx 0.12 e3+e1+e3e10.12

当输入为-3时,计算公式为 e − 3 e 3 + e 1 + e − 3 ≈ 0 \frac{e^{-3}}{e^3+e^1+e^{-3}}\approx 0 e3+e1+e3e30

下面使用代码实现这一计算过程。

x=torch.Tensor([3.,1.,-3.])
softmax=torch.nn.Softmax(dim=0)
y=softmax(x)
print(y)
tensor([0.8789, 0.1189, 0.0022])

那么在搭建神经网络的时候,应该如何选择激活函数?

  1. 如果搭建的神经网络的层数不多的时候,选择sigmoid、tanh、relu都可以,如果搭建的网络层数较多的时候,选择不当不当会造成梯度消失的问题,此时一般不宜选择sigmoid、tanh激活函数,最好选择relu激活函数。
  2. 在二分类问题中,网络的最后一层适合使用sigmoid激活函数;而多分类任务中,网络的最后一层使用softmax激活函数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

激活函数(sigmoid、tanh、ReLU、softmax) 的相关文章

随机推荐

  • 回归问题先将特征变成变成正态分布

    为什么 为什么 神经网络中也用到这样的方法 神经网络 注意正态分布化与归一化的不同 怎么做怎样做
  • Caused by: org.apache.ibatis.builder.BuilderException: Error parsing SQL Mapper Configuration. Cause

    Exception in thread main org apache ibatis exceptions PersistenceException Error building SqlSession The error may exist
  • Kids and COVID: why young immune systems are still on top

    亲娘啊 大概8号前后开始 到15号翻译完 除去周末 大概用了6天 每天空的时候花大概一个多小时到两个小时翻译一点点 终于弄完了 nature好难啊 语法倒是没有太多的长难句 生词太多了 看来很有可能要转战扇贝阅读了 Innate immun
  • unity实现场景跳转

    话不多说直接开始操作步骤 1 打开我们的unity创建一个工程 打开后我们先搭一个场景 建立一个Button 添加一个c 脚本 并保存场景为命名为01 结果如下 2 在菜单栏中找到File按钮New Scene新建另一个场景创建一个Butt
  • Face Swapping: Automatically Replacing Faces in Photographs论文阅读

    论文原文 Face Swapping Automatically Replacing Faces in Photographs 题目 人脸交换 自动替换照片中的人脸 图1 我们已经开发了一个系统 它自动地将输入图像中的人脸替换为从大量人脸图
  • Ctfshow web-web6 WP

    Ctfshow web we6 WP 进去看见一个login界面 看上去有点眼熟 好像做过 但是尝试之前做过的方法 回显始终是sql infect error 这样的回显表示输入的值中有非法字符 最后尝试下来是空格被顾虑了 用 代替 原来
  • MapReduce框架原理之ReduceTask工作机制

    一 Reduce Task 并行度决定机制 reduce task的并行度 也就是同时开启了几个reduce task 分为两种情况 1 如果我们自己定义了分区器 我们能够确定自己的分区器能够形成几个物理分区 加入我们要生成5个分区 那么我
  • 谈谈对CAP定理的理解

    谈谈对CAP定理的理解 CAP定理的常规解释是任何分布式系统只能在一致性 Consitency 可用性 Availability 和分区容忍性 Partition Tolerance 中三选二 这个解释很让人费解 笔者在看了一些文章后谈谈我
  • 目标检测原理群100问

    qq群号 703346870 简述yolo的多尺度变换 怎样理解残差网络可以自行选择冗余层 https baijiahao baidu com s id 1609100487339160987 梯度下降的数学原理 怎样理解包围框回归 使用g
  • 后台dom拼接xml,动态显示统计图

    1 这个东西让我好生头疼 贴代码吧 2 3 两秒后模拟点击 4 setTimeout function 5 IE 6 if document all 7 document getElementById userQuery click 8 其
  • MATLAB 更改或隐藏热图(heatmap)的坐标轴刻度

    在热图中 坐标轴标签用 data表示 更改坐标轴标签 figure my matrix rand 3 heatmap my matrix Colormap parula 3 ColorbarVisible on XLabel Time YL
  • FreeRTOS-创建删除任务

    1 FreeRTOSConfig h文件 FreeRTOSConfig h配置文件作用 对FreeRTOS进行功能配置和裁剪 以及API函数的使能 相关的宏可以分为三大类 INCLUDE 配置FreeRTOS中可选的API函数 config
  • 比较器的设计

    一 1位比较器 1位比较器原理 1位比较 Xi Yi XY的第i位 大于Great Li1 Xi Yi 小于Less Li2 Xi Yi 等于Equal Li3 Xi Yi 同或 异或非 Lij 第1个下标表示位数 第2个下标表示大小关系1
  • sql语句中case when和as用法

    在sql语句里case when then else end可以当做c语言中switch case一样是分支语句 起到不同条件处理作用 而as相当于一个别名 可以给某个列或者某个表起新的名字 比如这里有个employee表 select f
  • R语言重命名数据框列名:使用plyr包的rename函数

    R语言重命名数据框列名 使用plyr包的rename函数 在R语言中 我们经常需要对数据框 data frame 的列名进行修改 修改列名可以使得数据更易读和理解 同时也有助于数据分析和可视化过程中的操作 在本文中 我们将介绍如何使用ply
  • C++基础知识 - map和multimap容器

    map multimap的简介 map是标准的关联式容器 一个map里存储的元素是一个键值对序列 叫做 key value 键值对 它提供基于key快速检索数据的能力 map中key值是唯一的 集合中的元素按一定的顺序排列 元素插入过程是按
  • python爬虫五:beautifulsoup4的安装使用

    1 bs4简介 概念 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库 安装 先安装它的依赖模块 lxml 再安装 bs4 pip install lxml gt pip install bs4 最基
  • 32万记录导入MSSQL,只需12.52秒,足足快了200多倍,省了一个小时干啥不好吗?

    现在云时代 大家都用上云了 现在云的带宽5M都觉得很大了 但是有大量的数据需要处理的话 按照传统的方式 上传一个32万记录的DBF 起码也得一个小时 而现在有款工具 来自ZHZ 可以节省你200多倍的时间 香不香 测试环境 win7 32位
  • Android Rxjava:最简单易懂的诠释 看这篇

    1 前言 Rxjava 具有链式调用 使用简单 事件与结果松耦合的特点 Rxjava 之所以深受欢迎它包含 非常多操作符 能通过 链式形 优雅整洁的代码几乎能实现所有的功能需求 本文特点 图多字少 逻辑简单 之前面试中被问了很多Rxjava
  • 激活函数(sigmoid、tanh、ReLU、softmax)

    文章目录 1 1 sigmoid函数 1 2 tanh函数 1 3 ReLU函数 1 4 softmax函数 激活函数在神经网络中的作用有很多 主要作用是给神经网络提供非线性建模能力 如果没有激活函数 那么再多层的神经网络也只能处理线性可分