交叉熵：pytorch版本 vs 日常版本

2023-11-16

首先看下平时我们所说的交叉熵：
传送门
在信息论中，交叉熵可认为是对预测分布q(x)用真实分布p(x)来进行编码时所需要的信息量大小。而在机器学习的分类问题中，真实分布p(x)是one-hot形式，表明独属于one-hot中1对应的角标的那个类，因此这也是为什么交叉熵常用于做分类问题的损失函数。

H ( p , q ) = ∑ x p ( x ) log ⁡ 1 q ( x ) = − ∑ x p ( x ) log ⁡ q ( x ) \begin{aligned} H(p, q) &=\sum_{x} p(x) \log \frac{1}{q(x)} \\ &=-\sum_{x} p(x) \log q(x) \end{aligned} H(p,q)=x∑p(x)logq(x)1=−x∑p(x)logq(x)

那么pytorch里的交叉熵是这样的吗？我们测试下：
pytorch:

import torch
loss = torch.nn.CrossEntropyLoss(reduction = "none")
pred = torch.tensor([[0.0,1.0],[0.4,0.6,],[0.8,0.2]])
label = torch.tensor([1,0,0])
print(loss(pred,label))
# 输出：tensor([0.3133, 0.7981, 0.4375])

手动：

import math
# [0.0,1.0]和[1]
res = -math.log(0.1) = -1 * 0 = 0
#  [0.4,0.6,]和[0]
res = -math.log(0.4) = 0.916290731874155
#  [0.8,0.2]和[0]
res = -math.log(0.8) = 0.2231435513142097

很显然和通过torch得到的结果不同。那么看下pytorch文档里的交叉熵公式。

torch.nn.CrossEntropyLoss是nn.logSoftmax()和nn.NLLLoss()整合起来的版本，其中NLLLoss()是negative log likelihood loss，负对数似然(损失)函数和交叉熵(损失)函数背后的思想或者说得到的过程有些不同。这里先介绍下“似然”的概念：在机器学习中，似然函数是一种关于模型中参数的函数。“似然性(likelihood)”和"概率(probability)"词意相似，但在统计学中它们有着完全不同的含义：概率用于在已知参数的情况下，预测接下来的观测结果；似然性用于根据一些观测结果，估计给定模型的参数可能值。因此负对数似然函数是希望通过已知的训练数据的标注去找到一组模型的参数，让模型的预测结果贴合训练数据的标注结果，寻找这组模型参数的过程就是模型训练的过程，也是最小化负似然函数的过程；而交叉熵则是熵的概念，即用真实分布编码预测分布时所需要的信息量大小，信息量越小，两个分布越接近，因此最小化这个的过程就是训练模型的过程。

虽然两者背后思想有些不同，但是最后呈现的公式是一样的，即上面提到平时所说的交叉熵公式。

那么nn.NLLLoss()已经可以用来做交叉熵公示了，为什么还要有torch.nn.CrossEntropyLoss呢？这是因为nn.CrossEntropyLoss()是考虑具体训练过程做了优化得到的版本：
在具体训练过程中，假设batch_size=32, num_classes = 10, 那么经过最后的Linear得到一个batch的预测结果的shape为[32,10]，其中每条数据在不同类别上的值有可能小于0，且所有类别值加起来不为1，因此这不能算概率值，所以需要softmax。softmax之后结果再取log，这样做的目的是将乘法改成加法减少计算量，同时保障函数的单调性。因此最后将nn.logSoftmax()和nn.NLLLoss()结合得到了nn.CrossEntropyLoss()。

下面看下具体怎么结合的：
torch.nn.NLLLoss：
官方地址
这个 w n w_n wn是focal loss里的α，数据不平衡时用的，因此一般没有
ℓ ( x , y ) = L = { l 1 , … , l N } ⊤ , l n = − w y n x n , y n , w c = \ell(x, y)=L=\left\{l_{1}, \ldots, l_{N}\right\}^{\top}, \quad l_{n}=-w_{y_{n}} x_{n, y_{n}}, \quad w_{c}= ℓ(x,y)=L={l1,…,lN}⊤,ln=−wynxn,yn,wc= weight [ c ] ⋅ 1 { c ≠ [c] \cdot 1\{c \neq [c]⋅1{c= ignore_index } \} }

torch.nn.LogSoftmax:
官方地址
LogSoftmax ⁡ ( x i ) = log ⁡ ( exp ⁡ ( x i ) ∑ j exp ⁡ ( x j ) ) \operatorname{LogSoftmax}\left(x_{i}\right)=\log \left(\frac{\exp \left(x_{i}\right)}{\sum_{j} \exp \left(x_{j}\right)}\right) LogSoftmax(xi)=log(∑jexp(xj)exp(xi))

因为在NLLLoss()中true label也是one-hot，即只有true label那个类参与计算，因此将NLLLoss()的 x n y n x_ny_n xnyn代入logSoftmax分子的 x i x_i xi，得到一个公式，然后再根据log(xy) = logx + logy化简：
1.9.1 pytorch官方地址
在这里插入图片描述
上面用1.9.1的pytorch是因为从1.10.1开始，公式没有展示化简后那步，不便于本文理解，并且1.10.1的交叉熵实现了label smooth。

因此理解上述内容后，根据pytorch的交叉熵公式再计算下：

import math
loss = torch.nn.CrossEntropyLoss(reduction = "none")
# 1.[0.0, 1.0]和[1]
# torch
loss(torch.tensor([[0.0,1.0]]), torch.tensor([1]))
# 输出：tensor([0.3133])
# 手写
-1+math.log(math.exp(0)+math.exp(1))
# 输出：0.3132616875182228

# 2.[0.0, 1.0]和[0]
# torch
loss(torch.tensor([[0.0,1.0]]), torch.tensor([0]))
# 输出：tensor([1.3133])
# 手写
-0+math.log(math.exp(0)+math.exp(1))
# 输出：1.3132616875182228

# 3.[0.0, 0.0, 1.0]和[2]
loss(torch.tensor([[0.0,0.0,1.0]]), torch.tensor([2]))
# 输出：tensor([0.5514])
-1+math.log(math.exp(0)+math.exp(0)+math.exp(1))
# 输出：0.5514447139320509

# 4.模拟一个batch
entroy=torch.nn.CrossEntropyLoss() # reduction默认为mean
input=torch.Tensor([[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],])
target = torch.tensor([0,1,2])
output = entroy(input, target)
print(output)
# 输出：tensor(1.1142)
input=np.array(input)
target = np.array(target)
def cross_entorpy(input, target):
    output = 0
    length = len(target)
    for i in range(length):
        hou = 0
        for j in input[i]:
            hou += np.exp(j)
        output += -input[i][target[i]] + np.log(hou)
    return np.around(output / length, 4)
print(cross_entorpy(input, target))
# 输出：1.1142

对数似然、负对数似然
 交叉熵、负对数似然
 pytorch交叉熵公式推导以及代码证明
 pytorch交叉熵

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

交叉熵：pytorch版本 vs 日常版本的相关文章

预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
为什么测试时一定要用DataParallel？

在GPU上训练 num gpus设置为1 device ids list range num gpus model NestedUNet opt num channel 2 to device model nn DataParallel m
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
LSTM 错误：AttributeError：“tuple”对象没有属性“dim”

我有以下代码 import torch import torch nn as nn model nn Sequential nn LSTM 300 300 nn Linear 300 100 nn ReLU nn Linear 300 7
PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
如何使用pytorch构建多任务DNN，例如超过100个任务？

下面是使用 pytorch 为两个回归任务构建 DNN 的示例代码这forward函数返回两个输出 x1 x2 用于大量回归分类任务的网络怎么样例如 100 或 1000 个输出对所有输出例如 x1 x2 x100 进行硬编码绝对
Pytorch 损失为 nan

我正在尝试用 pytorch 编写我的第一个神经网络不幸的是当我想要得到损失时遇到了问题出现以下错误信息 RuntimeError Function LogSoftmaxBackward0 returned nan values in
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
Pytorch TypeError：eq() 收到无效的参数组合

num samples 10 def predict x sampled models guide None None for in range num samples yhats model x data for model in sam
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da

随机推荐

使用mysql_upgrade升级mysql5.1至5.6的数据库升级实施方案

本方案是因为在工作中遇到的一个mysql主从功能配置的问题所引起的有一个处在从位置上的mysql是5 1版本的从5 1到5 6的mysql各种系统管理功能像系统表表结构日志文件格式等等均不一致这时直接以5 1版本去作为一个5 6版
信安软考第十二章网络安全审计技术

一网络安全审计概述网络安全审计是指对网络信息系统的安全相关活动信息进行获取记录存储分析和利用的工作网络安全审计的作用在于建立事后安全保障措施保存网络安全事件及行为信息为网络安全事件分析提供线索及证据以便发现潜在的网络安
rocketMq启动broker报错找不到或无法加载主类 Files\Java\jdk1.8.0_171\lib\dt.jar；C:\Program]

假如弹出提示框提示错误找不到或无法加载主类 xxxxxx 1 打开runbroker cmd 将 CLASSPATH 加上英文双引号切勿别加中文双引号 2 打开runserver cmd 同理将 CLASSPATH 加上英文双引号
hexo+GitHub Pages一键搭建部署博客

文章目录前言博客相关配置 matery主题相关配置 1 什么是 Hexo 2 准备工作 3 生成博客 4 更换主题 5 部署到github pages 总结前言现在技术更新迭代是非常的快尤其是web方面所以当前搭建一个博客差不多
Ubuntu16.04安装ROS Kinetic详细步骤

文章目录 ROS安装配置Ubuntu软件仓库设置sources list 设置密钥更新Debian软件包索引安装ROS 初始化 rosdep 环境配置构建工厂依赖测试安装开发环境 ROS安装 ROS Kinetic只支持Wil
CompletableFuture使用(二)

CompletableFuture创建异步任务后 get 方法是阻塞到Future完成后返回结果对于构建异步系统需要将回调附加到CompletableFuture上当Future完成时自动调用就可以使用thenApply thenA
【直播+福利】生产压测环境，如何做好安全保障？

互联网数字经济的不断发展使得系统架构不断演变实现了从单线程到多线程多组件再到分布式微服务的一个跨越分布式系统的复杂程度是公认的牵一发而动全身想要保障系统的稳定可用是所有企业的共有难题生产全链路压测应运而生可实际
Ansible-角色部署LAMP

配置主机 root ansible cd etc ansible root ansible ansible ls ansible cfg hosts roles root ansible ansible vim hosts dev node
[图文]Openfiler应用篇（四） FTP和Quota

本篇我们讨论openfiler FTP和Quota 磁盘配额的应用 openfiler FTP和Quota功能必须在开启帐户功能的条件下才能使用一 FTP应用 1 开启FTP 点击主菜单Services 在Manage Services
git的使用和规划

1 拉取项目在拉取项目的时候使用git rebase 这样分支管理更加清晰 2 提交项目 commit的时候不要把不希望别人看到的改到都commit上 commit的时候要检查修改的文件代码书写是否正确下图中打钩文件为想要提交的文件
SQL中EXISTS理解使用

SQL中EXISTS的理解使用关联子查询 EXISTS理解使用关联子查询在讲述EXISTS用法之前先讲述一下关联子查询关联子查询是指在内查询中需要借助于外查询而外查询离不开内查询的执行举个栗子在Oracle中自带的EMP表
Objective-C块block介绍

块的定义返回值类型形参类型形参1 形参类型形参2 块执行体以上是一个块的写法 1 返回值类型可以省略形参也可以参略但是形参的括号不能参略 NSLog 123 通常我们需要反复调用块因为块相当于一个匿名的函数我们调用它时可以
在VMware中设置ubuntu与Windows共享文件夹

本机系统 win7 使用vmware安装的unbutu 之前在win7上下载了一些文档和软件想在虚拟机中使用结果发现读取不了这些文件头疼了一下午从网上搜索了很多资源发现没有一个完整的文章可以一次搞定头疼这里就总结一下我的方法
I2C与SPI通信总线协议

仅以寄存器地址为8Bit的器件为例例如MPU6500 LSM6DS3 I2C通信协议 I2C 的要点是了解I2C通信帧的组成部分 START起始位 STOP停止位 ACK NACK信号从机器件地址从机寄存器地址 I2C读的时序比较繁琐
K8S访问控制------认证（authentication ）、授权（authorization ）体系

一账号分类在K8S体系中有两种账号类型 User accounts 用户账号即针对human user的 Service accounts 服务账号即针对pod的这两种账号都可以访问 API server 都需要经历认证授权准
Linux根目录爆满，解决(/dev/mapper/rhel-root 98%问题)

1 首先确定是否是磁盘空间不足输入命令 df h 查看磁盘信息发现已经使用率达到96 所有需要删除大文件数据 2 其次查找大文件 du h max depth 1 命令代表寻找当前目录哪个文件夹占用空间最大进入根目录 root vl
六级英语词汇

genuine d enju n fake If this offer is genuine I will gladly accept it 如果这份帮助是真诚的我将愉快地接受它一单词关 whereas we r z conj 然而
[YOLO专题-17]：YOLO V5 - 如何把YOLO训练数据集批量转换成带矩形框的图片

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122344955 目录前言第1章
利用Spring框架在前端实现对数据库的增删改查

在前端页面上显示购物数据库数据并且可以这增删改查 1 首先在WEB 配置文件
交叉熵：pytorch版本 vs 日常版本

首先看下平时我们所说的交叉熵传送门在信息论中交叉熵可认为是对预测分布q x 用真实分布p x 来进行编码时所需要的信息量大小而在机器学习的分类问题中真实分布p x 是one hot形式表明独属于one hot中1对应的角标的那个

交叉熵：pytorch版本 vs 日常版本

交叉熵：pytorch版本 vs 日常版本 的相关文章

随机推荐

热门标签

交叉熵：pytorch版本 vs 日常版本的相关文章