为什么Keras/tensorflow的sigmoid和crossentropy精度低？

2023-11-27

我有以下简单的神经网络（仅具有 1 个神经元）来测试计算精度sigmoid激活＆binary_crossentropy喀拉斯：

model = Sequential()
model.add(Dense(1, input_dim=1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

为了简化测试，我手动将唯一权重设置为1，偏差设置为0，然后用2点训练集评估模型{(-a, 0), (a, 1)}, i.e.

y = numpy.array([0, 1])
for a in range(40):
    x = numpy.array([-a, a])
    keras_ce[a] = model.evaluate(x, y)[0] # cross-entropy computed by keras/tensorflow
    my_ce[a] = np.log(1+exp(-a)) # My own computation

我的问题：我发现了二元交叉熵（keras_ce）由 Keras/Tensorflow 计算得出的下限为1.09e-7 when a大约是。 16，如下图所示（蓝线）。随着“a”不断增长，它不会进一步减少。这是为什么？

该神经网络只有 1 个神经元，其权重设置为 1，偏差为 0。使用 2 点训练集{(-a, 0), (a, 1)}, the binary_crossentropy is just

-1/2 [ log(1 - 1/(1+exp(a)) ) + log( 1/(1+exp(-a)) ) ] = log(1+exp(-a))

所以交叉熵应该减少为a增加，如上面橙色（“我的”）所示。我可以更改一些 Keras/Tensorflow/Python 设置以提高其精度吗？或者我在某个地方弄错了？我将不胜感激任何建议/评论/答案。

TL；DR 版本：在计算损失函数时，由于数值稳定性，概率值（即 sigmoid 函数的输出）被剪裁。

如果你检查源代码，你会发现使用binary_crossentropy因为损失将导致致电binary_crossentropy函数于损失.py file:

def binary_crossentropy(y_true, y_pred):
    return K.mean(K.binary_crossentropy(y_true, y_pred), axis=-1)

正如您所看到的，它反过来调用等效的后端函数。如果使用 Tensorflow 作为后端，这将导致调用binary_crossentropy函数于张量流后端.py file:

def binary_crossentropy(target, output, from_logits=False):
    """ Docstring ..."""

    # Note: tf.nn.sigmoid_cross_entropy_with_logits
    # expects logits, Keras expects probabilities.
    if not from_logits:
        # transform back to logits
        _epsilon = _to_tensor(epsilon(), output.dtype.base_dtype)
        output = tf.clip_by_value(output, _epsilon, 1 - _epsilon)
        output = tf.log(output / (1 - output))

    return tf.nn.sigmoid_cross_entropy_with_logits(labels=target,
                                                   logits=output)

如你看到的from_logits参数设置为False默认情况下。因此，if 条件的计算结果为 true，因此输出中的值被剪裁到范围内[epsilon, 1-epislon]。这就是为什么无论概率多小或多大，它都不可能小于epsilon并且大于1-epsilon。这解释了为什么输出binary_crossentropy损失也是有限度的。

现在，这里的 epsilon 是什么？它是一个非常小的常数，用于数值稳定性（例如防止被零除或未定义的行为等）。要找出它的值，您可以进一步检查源代码，您可以在通用.py file:

_EPSILON = 1e-7

def epsilon():
    """Returns the value of the fuzz factor used in numeric expressions.
    # Returns
        A float.
    # Example
    ```python
        >>> keras.backend.epsilon()
        1e-07
    ```
    """
    return _EPSILON

如果出于任何原因，您想要更高的精度，您也可以使用以下方法将 epsilon 值设置为较小的常数set_epsilon来自后端的功能：

def set_epsilon(e):
    """Sets the value of the fuzz factor used in numeric expressions.
    # Arguments
        e: float. New value of epsilon.
    # Example
    ```python
        >>> from keras import backend as K
        >>> K.epsilon()
        1e-07
        >>> K.set_epsilon(1e-05)
        >>> K.epsilon()
        1e-05
    ```
    """
    global _EPSILON
    _EPSILON = e

但是，请注意，将 epsilon 设置为极低的正值或零，可能会破坏整个 Keras 计算的稳定性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么Keras/tensorflow的sigmoid和crossentropy精度低？的相关文章

行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
Keras IndexError：索引超出范围

我是 Keras 新手我尝试在数据集上执行二进制 MLP 并且不断使索引超出范围但不知道为什么 from keras models import Sequential from keras layers core import Dens
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

替换字符串中的 {x} 标记

我们有一个模板 URL 例如 http api example com sale auth user xxxxx auth pass xxxxx networkid networkid category b2c country IT pag
如果我不 join() python 线程会发生什么？

我有一个疑问我见过开发人员编写类似以下代码的示例 import threading def do something return true t threading Thread target do something t start t
按创建日期对列表进行排序 C#

使用 MSDN 上的这个例子 using System Collections Generic using System IO namespace CollectionTest public class ListSort static vo
在 Google Apps 脚本中调整图像大小

我有一张图片我想调整它的大小应用程序脚本代码 var fileId idImage var img DriveApp getFileById fileId getBlob newFile getBody insertImage 0 im
localStorage 在 IOS-6 Safari 中无法访问

我无法在 Safari 带有 IOS 6 的 iPad 中访问 localStorage 例如以下代码在 Windows 的所有浏览器和带有 iOS 5 的 iPad 上运行良好但在 iOS 6 中则不然 localStorage s
对球形体积内均匀分布的随机点进行采样

我希望能够生成落在球形体积内的粒子位置的随机均匀样本下图由http nojhan free fr metah 显示了我正在寻找的内容这是球体的切片显示点的均匀分布这就是我目前得到的您可以看到由于球坐标和笛卡尔坐标之间的转换中
Java 与 Scala 泛型和装箱的互操作性问题

假设我有这个 Scala 特征 trait UnitThingy def x Unit 提供 Java 实现非常简单 import scala runtime BoxedUnit public class JUnitThingy imple
我怎样才能改变ios sdk？

我想更改我的 iOS SDK 我有 ios 5 和 xcode 4 2 但由于我的应用程序我必须将其降低到 iOS 4 2 SDK 在developer apple com 中 xcode 4 1 与iOS 5 一起使用因此它不可用如
Android、ProGuard 和 keepclasseswithmembernames

Android 应用程序 ProGuard 配置中的一个常见模式是保留自定义View类因为它们可能仅从布局 XML 而不是应用程序代码中引用因此在创建项目时 ADT 会将这些规则添加到项目的 proguard cfg 中 keepcl
python 将日期时间格式的字符串转换为秒

我正在尝试将日期字符串解码为纪元但我很难获取时区这是 Amazon S3 密钥的最后修改日期 time strptime key last modified Y m dT H M S Z ValueError time data u 2
gcc 在哪里查找 C 和 C++ 头文件？

在Unix系统上 gcc在哪里寻找头文件今天早上我花了一点时间寻找一些系统头文件所以我认为这将是很好的信息 gcc print prog name cc1plus v 该命令询问 gcc 哪个C 它正在使用的预处理器然后询问该预处理器
如何使用 Python 和 Selenium 迭代 webelements 列表？

我想迭代 webelements 列表并返回每个元素的文本但我只获取第一个元素的文本 h2 元素而不是来自另一个元素内的其余元素 li 标签然后代码存在该循环这是我想从中提取文本的 Html 代码的一部分 div class Kamb
如何解决 Django AllAuth - '连接中止。'，错误（13，'权限被拒绝'）错误？

我正在尝试解决在 Google App Engine 上运行的 AllAuth Django 1 7 引发的连接错误我相信错误可能出在会话配置中但我无法识别问题本地注册运行正常但社交登录会引发错误 edit 领英工作正常 edit
g++ 可变参数模板问题

所以我把这个程序交给了 g 和 clang 都在 Linux x86 64 上 include
在 Python 中对 zip 文件进行 base64 编码

有人可以给我一些关于如何在 Python 中将 zip 文件编码为 base64 的建议吗有关于如何使用模块 base64 在 Python 中对文件进行编码的示例但我还没有找到任何有关 zipfile 编码的资源 Thanks 这与编
Symfony2 功能测试选择复选框

我在编写 Symfony 2 功能测试来设置属于数组一部分的复选框即多个和扩展的选择小部件时遇到问题 In the 文档例子是 form registration interests gt select array symfony co
集成测试无法启动（Failsafe、Maven）

我正在尝试使用 Maven Failsafe Plugin 使用此配置运行我的集成测试
Java“final”方法：它承诺什么？

在 Java 类中方法可以定义为final 以标记此方法不得被覆盖 public class Thingy public Thingy public int operationA this method does return That
从远程 Git 存储库中删除最后一次提交

如何从远程 Git 存储库中删除最后一次提交例如我在日志中看不到它如果例如git log给我以下提交历史记录 A gt B gt C gt D HEAD ORIGIN 我怎样才能去 A gt B gt C HEAD ORIGIN 请注意
为什么Keras/tensorflow的sigmoid和crossentropy精度低？

我有以下简单的神经网络仅具有 1 个神经元来测试计算精度sigmoid激活 binary crossentropy喀拉斯 model Sequential model add Dense 1 input dim 1 activation

为什么Keras/tensorflow的sigmoid和crossentropy精度低？

为什么Keras/tensorflow的sigmoid和crossentropy精度低？ 的相关文章

随机推荐

热门标签

为什么Keras/tensorflow的sigmoid和crossentropy精度低？的相关文章