熵在机器学习中的应用

2023-11-15

1 信息量

首先是信息量。假设我们听到了两件事，分别如下：
事件A：巴西队进入了2018世界杯决赛圈。
事件B：中国队进入了2018世界杯决赛圈。
仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大。究其原因，是因为事件A发生的概率很大，事件B发生的概率很小。所以当越不可能的事件发生了，我们获取到的信息量就越大。越可能发生的事件发生了，我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。

2 熵

所有信息量的期望就是熵

3 相对熵（KL散度）

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。

维基百科对相对熵的定义：

In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.

即如果用P来描述目标问题，而不是用Q来描述目标问题，得到的信息增量。

在机器学习中，P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1]
直观的理解就是如果用P来描述样本，那么就非常完美。而用Q来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，Q等价于P。

KL散度的计算公式：

其中n为事件的所有可能性，DKL的值越小，表示q分布与p分布越接近。

4 交叉熵

对式相对熵变形可以得到：

后面一部分就是交叉熵

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，即DKL(y||y^)，由于KL散度中的前一部分−H(y)不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss，评估模型。

参考：

https://blog.csdn.net/tsyccnh/article/details/79163834

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

机器学习

熵在机器学习中的应用的相关文章

详解数据科学自动化与机器学习自动化

过去十年里人工智能 AI 构建自动化发展迅速并取得了多项成就在关于AI未来的讨论中您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语事实上这些术语有着不同的定义如今的自动化机器学习即 AutoML 特指模型构
澳鹏干货解答！“关于机器学习的十大常见问题”

探索机器学习的常见问题了解机器学习和人工智能的基本概念原理发展趋势用途方法和所需的数据要求从而发掘潜在的商机什么是机器学习机器学习即教授机器如何学习的过程为机器提供指导帮助它们自己开发逻辑访问您希望它们访问的数据机器学
Python机器学习实战：用Python构建10个有趣的应用

机器学习是一门强大的工具可以用于解决各种各样的问题通过学习机器学习您可以开发出能够自动化任务做出预测甚至创造艺术的应用程序如果您是一名 Python 开发人员那么您将很高兴知道有许多可以用 Python 构建的有趣机器学习应用
使用pytorch构建图卷积网络预测化学分子性质

在本文中我们将通过化学的视角探索图卷积网络我们将尝试将网络的特征与自然科学中的传统模型进行比较并思考为什么它的工作效果要比传统的方法好图和图神经网络化学或物理中的模型通常是一个连续函数例如y f x x x x 其中x x x
MIT_线性代数笔记：第 23 讲微分方程和 exp(At)

目录微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
山西电力市场日前价格预测【2024-01-05】

日前价格预测预测说明如上图所示预测明日 2024 01 05 山西电力市场全天平均日前电价为259 10元 MWh 其中最高日前电价为363 99元 MWh 预计出现在18 00 最低日前电价为0 00元 MWh 预计出现在11 1
《Aspect Sentiment Quad Prediction as Paraphrase Generation》论文阅读

文章目录文章介绍文章模型问题定义文章模型 PARAPHRASE建模文章地址 https arxiv org abs 2110 00796 文章介绍
BEV+Transformer感知架构共识下，传感器「火药味」再升级

高阶智能驾驶战火愈演愈烈正带动感知方案卷入新一轮军备竞赛根据高工智能汽车研究院最新发布数据显示 2023年1 9月中国市场不含进出口乘用车前装标配软硬件 NOA交付新车37 73万辆同比上年同期增长151 20 未来几年内 N
图神经网络与智能教育：创新教育技术的未来

导言图神经网络 GNNs 和智能教育技术的结合为教育领域注入新活力本文深入研究二者的结合可能性涉及各自侧重当前研究动态技术运用实际场景未来展望并提供相关链接 1 图神经网络与智能教育的结合方向 1 1 图神经网络在教育技术中
论文查重部分算不算重复率呢

大家好今天来聊聊论文查重部分算不算重复率呢希望能给大家提供一点参考以下是针对论文重复率高的情况提供一些修改建议和技巧可以借助此类工具论文查重部分算不算重复率呢在论文查重过程中查重部分是否计入重复率是一个关键问题本文将从七个
请求各位大佬帮助，请问qt项目能调用卷积神经网络进行训练模型嘛？

qt项目想调MobileNetV3网络进行训练模型得到权重文件能实现嘛
机器学习前馈神经网络

人工神经网络 Artificial Neural Network ANN 是指一系列受生物学和神经科学启发的数学模型这些模型主要是通过对人脑的神经元网络进行抽象构建人工神经元并按照一定拓扑结构来建立人工神经元之间的连接来模拟生物神经
基于机器学习的投资组合推荐系统+源代码+文档说明+演示视频

文章目录源码下载地址项目介绍界面预览项目备注毕设定制咨询源码下载地址源码下载地址点击这里下载源码项目介绍界面预览
十分钟部署清华 ChatGLM-6B，实测效果超预期（Linux版）

前段时间清华公布了中英双语对话模型 ChatGLM 6B 具有60亿的参数初具问答和对话功能最最最重要的是它能够支持私有化部署大部分实验室的服务器基本上都能跑起来因为条件特殊实验室网络不通那么如何进行离线部署呢经过一上午
毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
机器学习：基于python微博舆情分析系统+可视化+Django框架 K-means聚类算法（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态

随机推荐

树莓派初始使用相关问题及解决方法

1 SSH连接网线连接电脑在无线图标上右键打开网络和internet设置更改适配器设置在WLAN上面右键选择属性共享勾上在cmd里面可以输入 ping raspberrypi local 若显示不是ip 则ping 4
opencv3/C++ 机器学习-最邻近算法KNN识别字符

如图有如下字母表现尝试采用最邻近算法KNN 取前10列字符作为训练数据然后识别字母表中的字符创建训练数据首先通过获取前10列字符的轮廓外接矩形将字符裁剪出作为训练样本建立图库 include
【R语言】富集分析可视化代码（整理版）

前面几期干货预警原来基因功能富集分析这么简单 R语言基因GO KEGG功能富集结果可视化保姆级教程和 R语言基因GO KEGG功能富集分析超级简单的保姆级教程分别介绍了如何使用DAVID在线分析工具对基因进行GO KEGG功
谷歌开源项目Chromium的源码获取与项目构建（Win7+vs10/vs13）

从12年那会儿开始获取源码和构建chromium项目都是按照那时候的官方要求用win7 vs2010 相对来说也比较简单按照步骤来也很快能编译出来 1 官网的编译配置介绍 http www chromium org developers
uniapp实现抽奖功能

效果代码
Android AES加密算法工具类

1 AES加密工具类本篇文章使用PKCS5Padding加密方式 package com example aesdemo import java io UnsupportedEncodingException import javax c
位（bit）与字节（byte）16进制值表现形式之间的转换

小白近很长时间未更新是因为换工作了目前行业是涉及到硬件的的工作今日因工作需要学习到了位 bit 与字节 byte 16进制值表现形式之间的转换故此记录一下下面的内容为位 bit 与字节 byte 16进制值表现形式之间的快速计算
tensorflow.js 实现官网mnist 代码时出现error Command failed with exit code 1且网页无法连接

按官网的方法只需要四步就可以复现mnist https js tensorflow org tutorials mnist html git clone https github com tensorflow tfjs examples c
一遍看懂面试算法——二叉树

目录二叉树的种类满二叉树完全二叉树二叉搜索树平衡二叉搜索树二叉树的存储方式二叉树的遍历方式二叉树的递归遍历二叉树的迭代遍历前序遍历迭代法中序遍历迭代法后序遍历迭代法总结二叉树的统一迭代法二叉树层序遍历以
一文讲解thop库计算FLOPs问题

问题计算模型的FLOPs及参数大小 FLOPS是处理器性能的衡量指标是每秒所执行的浮点运算次数的缩写 FLOPs是算法复杂度的衡量指标是浮点运算次数的缩写 s代表的是复数一般使用thop库来计算 GitHub https g
git pull 出错 remote: The project you were looking for could not be found.

git pull 出错 git pull remote The project you were looking for could not be found fatal repository http 192 168 1 xx xx00
TigerGraph图形化界面GraphStudio简单操作

创建图模型图模型由若干节点类型 vertex type 和若干边类型 edge type 组成可以指定边类型的源节点类型 source vertex type 和目标节点类型 target vertex type 图模型是对现实世界的问
SDI科普--- SD-SDI/HD-SDI/3G-SDI/12G-SDI

SDI 数字分量串行接口 HD SDI 高清数字分量串行接口 1 SDI接口分类高速率可往下兼容 2 SDI各类标准数据 3 概述 1 SD SDI SD SDI 270Mbp SMPTE259M 2 HD SDI 高清数字分量串行接口
less样式变量设置透明度、饱和度

不透明度 background fade blue 20 饱和度 background lighten blue 20
JavaScript（null, undefined 和布尔值）

JavaScript null 和 undefined 概述用法和含义布尔值 null 和 undefined 概述 null与undefined都可以表示没有含义非常相似将一个变量赋值为undefined或null 老实说语法
如何用手机快速精准定位、查看当前详细位置信息

下载链接 https pan baidu com s 1eu6m8D2tQKs0XyZnzVg79w 提取码 ivu7
Chatgpt帮我写程序切分Midjourney生成的图片

背景非程序员只懂VBA 其他语言一概没入门这两天在尝试MJ在抖音上做图文的玩法遇到一个问题如何将MJ生成的一张4宫格图片切分成4张单独的图片找了一圈要是用图片处理软件那太麻烦了忽然想到chatgpt可以写程序于是我向ch
瑞芯微迅为iTOP-3399开发板资料更新最新版本为1.3版本

迅为3399开发板 1 Android底层驱动移植篇新增基于RTL8822CS模块Android7移植WiFi2 Android底层驱动移植篇新增基于RTL8822CS模块Android7移植蓝牙 lt lt lt lt lt lt lt
having关键字和where关键字区别

select语句的基本格式 select 字段列表 from 表 where 表达式 group by 字段 having 表达式 order by 字段 having关键字和where关键字区别相同点都是用来过滤数据不同点 havi
熵在机器学习中的应用

1 信息量首先是信息量假设我们听到了两件事分别如下事件A 巴西队进入了2018世界杯决赛圈事件B 中国队进入了2018世界杯决赛圈仅凭直觉来说显而易见事件B的信息量比事件A的信息量要大究其原因是因为事件A发生的概率很大事

热门标签