在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛

2023-12-13

我正在学习张量流、深度学习并尝试各种激活函数。

我为 MNIST 问题创建了一个多层 FFNN。大部分基于tensorflow官方网站的教程，只是添加了3个隐藏层。

我实验过的激活函数有：tf.sigmoid, tf.nn.tanh, tf.nn.softsign, tf.nn.softmax, tf.nn.relu. Only tf.nn.relu不收敛，网络输出随机噪声（测试精度约为10%）。以下是我的源代码：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

x = tf.placeholder(tf.float32, [None, 784])

W0 = tf.Variable(tf.random_normal([784, 200]))
b0 = tf.Variable(tf.random_normal([200]))
hidden0 = tf.nn.relu(tf.matmul(x, W0) + b0)

W1 = tf.Variable(tf.random_normal([200, 200]))
b1 = tf.Variable(tf.random_normal([200]))
hidden1 = tf.nn.relu(tf.matmul(hidden0, W1) + b1)

W2 = tf.Variable(tf.random_normal([200, 200]))
b2 = tf.Variable(tf.random_normal([200]))
hidden2 = tf.nn.relu(tf.matmul(hidden1, W2) + b2)

W3 = tf.Variable(tf.random_normal([200, 10]))
b3 = tf.Variable(tf.random_normal([10]))
y = tf.matmul(hidden2, W3) + b3

y_ = tf.placeholder(tf.float32, [None, 10])

cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y))
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy)
with tf.Session() as session:
    session.run(tf.global_variables_initializer())
    for _ in range(10000):
        batch_xs, batch_ys = mnist.train.next_batch(128)
        session.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
        if _ % 1000 == 0:
            correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
            accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
            print(_, session.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

    correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    print('final:', session.run(accuracy, feed_dict={x: mnist.test.images,
            y_: mnist.test.labels}))

代码输出如下：

0 0.098
1000 0.098
2000 0.098
3000 0.098
4000 0.098
5000 0.098
6000 0.098
7000 0.098
8000 0.098
9000 0.098
final: 0.098

If tf.nn.relu替换为其他激活函数后，网络精度逐渐提高（尽管最终精度不同），这是预期的。

我在五月份的教科书/教程中读到，ReLU 应该是激活函数的第一个候选者。

我的问题是为什么 ReLU 在我的网络中不起作用？或者我的程序根本就是错误的？

您正在使用Relu计算激活的激活函数如下，

最大值（特征，0）

由于它输出最大值，这有时会导致梯度爆炸.

Gradientdecnt 优化器通过以下方式更新权重，

Δwij = −η ∂Ei/ ∂wij

where η是学习率并且∂Ei/∂wij是损失相对于重量的偏导数。什么时候最大值变得越来越大，偏导数也变得越来越大，导致梯度爆炸。因此，正如您在等式中观察到的那样，您需要调整学习率（η）来克服这种情况。

一个常见的规则是降低学习率，通常每次降低 10 倍。

对于您的情况，将学习率设置为 0.001 将会提高准确性。

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛的相关文章

为什么我们应该在 Keras 中对深度学习数据进行标准化？

我正在 Keras 中测试一些网络架构以对 MNIST 数据集进行分类我已经实现了一个类似于 LeNet 的方法我看到在网上找到的例子中有一个数据标准化的步骤例如 X train 255 我在没有这种标准化的情况下进行了测试我发
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
为什么平均百分比误差（mape）非常高？

我已获得代码掌握机器学习 https machinelearningmastery com time series prediction lstm recurrent neural networks python keras 我修改了mod
在优化器期间保持变量不变

我有一个损失张量 L 的 TensorFlow 计算图它取决于 2 个 tf Variables A 和 B 我想在保持 B 固定的同时在变量 A 上运行梯度上升 A L 与 A 的梯度反之亦然在 B 上运行梯度上升 B L 与 B
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
如何求真实数据的概率分布和参数？（Python 3）

我有一个数据集来自sklearn我绘制了分布load diabetes target数据即回归值load diabetes data用于预测我使用它是因为它的回归变量属性数量最少sklearn datasets 使用Python 3
如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
TensorFlow：使用不同的输入张量重新运行网络？

假设我在 TensorFlow 中有一个典型的 CNN 模型 def inference images images 4D tensor of batch size IMAGE SIZE IMAGE SIZE 3 size conv 1 c
如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假
Scikit Learn GridSearchCV 无需交叉验证（无监督学习）

是否可以在没有交叉验证的情况下使用 GridSearchCV 我正在尝试通过网格搜索优化 KMeans 聚类中的聚类数量因此我不需要或想要交叉验证 The 文档 http scikit learn org stable modules g
Scikit-learn：如何获得 True Positive、True Negative、False Positive 和 False Negative

我的问题我有一个数据集它是一个很大的 JSON 文件我读取它并将其存储在trainList多变的接下来我对其进行预处理以便能够使用它完成后我开始分类我用kfold交叉验证方法以获得平均值准确性并训练分类器我做出预测并获
Pytorch TypeError：eq() 收到无效的参数组合

num samples 10 def predict x sampled models guide None None for in range num samples yhats model x data for model in sam
如何在arm64主机上运行amd64 docker镜像

警告请求的映像平台 linux amd64 与检测到的主机平台 linux arm64 v8 不匹配并且未请求特定平台 2021 07 28 22 25 06 349222 F tensorflow core platform cpu
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
Keras如何在Relu激活函数中使用max_value

keras activation py 中定义的 Relu 函数为 def relu x alpha 0 max value None return K relu x alpha alpha max value max value 它有一个
如何在 TensorFlow 中访问原型中的值？

我从tutorial https www tensorflow org extend tool developers 我们可以这样做 for node in tf get default graph as graph def node pr
Mobilenet 与 SSD [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案
keras：zca 美白卡住了 train_datagen.fit()

我尝试将 zca whitening 与 keras 图像处理选项一起使用但计算陷入困境并且永远不会结束我导致问题的代码部分如下所示 train datagen ImageDataGenerator rotation range 30
mac安装Tensorflow出错

我正在尝试使用以下说明在 mac 中安装 Tensorflow https www tensorflow org install https www tensorflow org install 但是当我想导入tensorflow时我总是
如何使用 tf.nn.top_k 返回的索引对多维张量进行排序？

我有两个多维张量a and b 我想按以下值对它们进行排序a I found tf nn top k https www tensorflow org versions r1 0 api docs python nn evaluation

随机推荐

Firebase规则：允许推送但不允许更新

我正在努力理解如何允许用户在列表中创建新记录但只允许创建者更新自己的帖子例如以下结构 post post1 author user1 text Some text post2 author user2 text Some text 2
增强几何和精确点类型

我目前正在研究一个处理几何问题的项目由于这个项目将用于商业用途我不能使用像 CGAL 这样的库我目前正在使用 boost geometry 和不精确的类型但遇到了数字问题我尝试简单地使用 boost multi precision
jQuery 不适用于括号编辑器

那么嗨我已经尝试了所有我知道和不知道的事情但我就是无法让它发挥作用是的我的 html 骨架中有一个 script 标签我还尝试下载它然后将其作为脚本标记添加到我的 html 框架中什么都不起作用我正在另一个 file js
无法获取最新的 Conda 版本（具有升级的 PowerShell 初始化支持的 V 4.6.1）来使用 PowerShell（理想情况下与 VSCode 集成）

Conda 的最新版本 4 6 1 声称增加了初始化支持特别是引用了 PowerShell 从这个官方更新发布文档中可以看出但是在升级和初始化设置时 conda update conda conda init 产生这个输出 C Use
Django用动态半径过滤位置距离

我在 django 一个区域和一个商店中有 2 个模型模型如下 from django contrib gis db import models from django contrib gis geos import Point from
如何获取命令的输出以实时显示在窗体的控件中？

从网络上的各种来源我整理了以下代码用于通过以下方式执行命令CMD exe并捕获输出STDOUT and STDERR public static class Exec public delegate void OutputHandler
如何使用 ggplot 创建并排条形图（针对多个系列）？

我有两组数据 3 列 x 分类 y 数值 l 位置我想创建一个条形图其中 x 轴上有类别并且对于类别的每个值有两个垂直条颜色不同每个位置的 y 值默认情况下 Excel OpenOffice 会生成这种图表 I tried q
重命名命名范围

我有一本工作簿其中有许多要重命名的命名范围我有一个包含旧名称和新名称的电子表格这有效 Dim strOldName As String Dim strNewName As String strOldName rngNamedRange
SWRevealViewController 和 TableView - 滑动删除不起作用

我将 SWRevealViewController 添加到我的应用程序中并添加了汉堡包堆栈来访问我的菜单我的应用程序有一个 UITableView 作为主应用程序视图我想允许用户使用滑动删除功能从列表中删除项目我启用了滑动删除功能
如何使用 OpenXML 设置 Excel“打印标题”

如何使用 OpenXML 设置电子表格的打印标题属性以便在每个打印页面的顶部显示一行该属性直接保存在SpreadsheetPrintingParts对象但是到目前为止这似乎还没有完全集成到 OpenXML 中并且需要将 ba
ffmpeg 制作缩略图最有效的方法？ [Windows 10]

我通常使用 ThumbnailMe 制作缩略图的联系表我的默认设置是 15 行 x 5 列即 75 张图像视频时长从 45 分钟到 90 分钟左右 ThumbnailMe 几乎可以立即制作出这种尺寸的样版最近需要为大量视频制作大量联
给定一个数字列表，其中每个数字都出现两次，除了一个。返回该数字

我被要求从 Python 中的数字列表中找出仅在列表中出现一次的数字像往常一样我可以使用立即出现的正常方法轻松解决它 class Solution object def singleNumber self nums type nums
使用文件对话框获取客户端文件的完整文件路径

我正在尝试允许用户将图片上传到服务器我正在尝试创建一个与任何具有附加文件或上传图像功能的网站类似的系统我需要的只是获取文件对话框选择的文件的完整路径我尝试将其用于文件对话框但没有成功
如果 JavaScript 中某些键和值匹配，如何合并对象？

如果 fname 和地址相同我想合并最后一个键这些键可以是数组中所有对象的任意随机字符串为了提供更多上下文我需要这种格式来绘制带有图表的图表 const data fname adam address us key1 12 fnam
LSF 中的混合 MPI/OpenMP

我正在将 OpenMP 并行化的程序移至集群该集群使用 Lava 1 0 作为调度程序每个节点有 8 个核心我在作业脚本中使用 MPI 包装器来进行多主机并行这是作业脚本 BSUB q queue name BSUB x BSUB
fopen(file,w+) 会先截断文件，然后才能检查文件是否已被算法lock()锁定

我有一个函数它接收文件名和 json 对象以写入文本文件该对象已更新需要完全替换文件的当前内容每个站点访问者都有自己的文件多次快速更改会造成文件被截断的情况fopen file w 然后不会被写入因为它已被锁定最终结果是空文件
如何使用 doxygen 从 C++ 源代码创建 UML 类图

我一直在寻找一些描述如何使用 doxygen 生成简单类图的材料但找不到有人可以帮忙吗 I need to create diagrams as shown below from a set of C files 如果有更好的工具可以更
如何在 Spark 中创建一组 ngram？

我使用 Scala 从 Spark 2 2 数据帧列中提取 Ngram 因此本例中为三元组 val ngram new NGram setN 3 setInputCol incol setOutputCol outcol 如何创建包含全部
使用基于 sed/awk 的 Linux 中替换字符串

我想更换这个 usr bin env bash 有了这个 bin bash 我尝试了两种方法方法一 original str usr bin env bash replace str bin bash sed s original str
在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛

我正在学习张量流深度学习并尝试各种激活函数我为 MNIST 问题创建了一个多层 FFNN 大部分基于tensorflow官方网站的教程只是添加了3个隐藏层我实验过的激活函数有 tf sigmoid tf nn tanh tf nn

在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛

在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛 的相关文章

随机推荐

热门标签

在简单的多层 FFNN 中，只有 ReLU 激活函数不收敛的相关文章