【机器学习】机器学习与统计分布的关系

2023-05-16

这里写目录标题

  • 1.常见的统计学分布
    • 1)离散分布
      • a. 伯努利分布
      • b. 二项分布
      • c. 泊松分布
    • 2)连续分布
      • a. 正态分布(高斯分布)
      • b. 均匀分布
  • 为什么我们喜欢用 sigmoid 这类 S 型非线性变换
    • 1)为什么均匀分布熵最大?
    • 2)为什么使用累积分布函数将正态分布的信号生成均匀分布?
    • 为什么我们喜欢用 sigmoid 这类 S 型非线性变换

1.常见的统计学分布

1)离散分布

a. 伯努利分布

又称之为二点分布或者0-1分布,是一种离散分布,例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。

对于伯努利随机变量 X,如果使用 1 表示成功,其概率为 p(0<p<1);使用 0 表示失败,其概率为 q=1-p。则可以称伯努利随机变量 X 服从参数为 p 的伯努利分布,其X的概率函数为:
在这里插入图片描述


b. 二项分布

假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:
在这里插入图片描述
二项分布,可以看成是完成N次伯努利试验的分布,也可以被称之为N重伯努利实验。

n 重伯努利试验需满足下列条件:

  1. 每次试验只有两种结果,即 X=1,或 X=0
  2. 各次试验中的事件互相独立,且 X=1 和 X=0 的概率分别为 p(0<p<1) 和 1-p

二项分布的另一个性质是其分布形状的变化规律。从二项分布概率质量函数P(x)可知,概率分布只与试验次数n和成功概率p有关,其分布形状的变化规律为:

  1. "成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。(见下图的第一排3个子图)
  2. 对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。(见下图的第二排3个子图)
    在这里插入图片描述
    图中的横轴代表试验"成功"的次数纵轴代表次数对应的概率;红线是均值为np、方差为npq的正态分布曲线。

c. 泊松分布

泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:根据过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率。其概率质量函数为:
在这里插入图片描述
如何通俗理解泊松分布

2)连续分布

a. 正态分布(高斯分布)

正态分布(Normal distribution),也称“常态分布”,又名高斯分布。

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ, σ2)。
其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
当μ = 0,σ = 1时的正态分布是标准正态分布。

正态分布的概率密度函数为:
在这里插入图片描述
函数图像为下:

在这里插入图片描述
四个不同参数集的概率密度函数(红色线代表标准正态分布)

在这里插入图片描述
上图所示的概率密度函数的累积分布函数

b. 均匀分布

均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

  1. 均匀分布的概率密度函数为:
    在这里插入图片描述

在这里插入图片描述
该密度函数表示随机变量X落在区间a,b中任意长度的子区间内的可能性是相同的,概率只依赖于子区间长度,而与子区间未知无关。

概率密度函数怎么求得的:
在这里插入图片描述

  1. 均匀分布的分布函数如下:
    在这里插入图片描述
    在这里插入图片描述

为什么我们喜欢用 sigmoid 这类 S 型非线性变换

首先明确两个问题:

1)为什么均匀分布熵最大?

熵的概念:熵表示随机变量不确定性的度量

随机变量熵的定义为:
在这里插入图片描述

  1. 熵只依赖于X的分布,与X的取值无关,因此服从某个分布的X的熵也可以等价于这个分布的熵.
  2. 熵越大,随机变量的不确定性就越大。
  3. 定义0log0=0(因为可能出现某个取值概率为0的情况)

熵满足下列不等式:

               0 <= H(p) <= log|X|

|X|是离散随机变量 X 的取值个数,当且仅当 X 的分布是均匀分布时右边的等号成立。这就是说,当 X 服从均匀分布时,熵最大。

《统计学习方法》5.2.2节和6.2节有介绍!

相关的参考博客:
各种熵的总结
最大熵与正态分布

2)为什么使用累积分布函数将正态分布的信号生成均匀分布?

random.random()(该方法会均匀地生成(0,1)区间内的值)
在这里插入图片描述
上图为从我们的输入中采样得到 100,000 个样本的直方图,蓝色为均匀分布,橙色为我们的目标:正态分布

简而言之,我们希望将图 1 中蓝色的均匀分布转换为橙色的正太分布。幸运的是,有一种函数可以做到这一点:逆累积分布函数(又称分位函数)。

在这里插入图片描述
上图为标准正态分布的累积分布函数 CDF 曲线。非逆的)累积分布函数(CDF)如图所示,它描述了从所讨论的分布中任意抽取出的值小于等于特定的 x 值的概率。

举例而言,如上图所示,在 x = 0 时,y = 0.5;这意味着 50% 的分布落在 x = 0 左侧。CDF的一个方便的特性是:输出的范围在 0 到 1 之间,这正是我们可以通过「random.random()」函数得到的输入!

如果我们对 CDF 求反函数(将其坐标轴翻转),我们就可以得到分位函数:

在这里插入图片描述

上图为标准正态分布的分位函数。

该函数为我们给出了确切的分位数(范围在 0 到 1 之间的 x)和相应的正态分布中的值的对应关系,让我们可以直接从正态分布中采样。也就是说「 f(random.random()) ~ N(0, 1)」,其中输入空间中的每个点都对应于输出空间中的唯一一个点。

在这里插入图片描述
上图为:使用分位函数将均匀分布(蓝色)映射到正态分布(橙色)的示意图。

反过来:
如果想要将正态分布(橙色)映射到均匀分布(蓝色),直接使用累积分布函数(CDF)即可!


为什么我们喜欢用 sigmoid 这类 S 型非线性变换

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

为什么我们喜欢用 sigmoid 这类 S 型非线性变换

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【机器学习】机器学习与统计分布的关系 的相关文章

随机推荐

  • linux系统中resolv.conf文件详解

    etc resolv conf 它是DNS客户机配置文件 xff0c 用于设置DNS服务器的IP地址及DNS域名 xff0c 还包含了主机的域名搜索顺序 该文件是由域名解析器 xff08 resolver xff0c 一个根据主机名解析IP
  • yii2.0 basic版使用CRUD生成器的时候提示错误及页面显示错误

    在使用model生成器的时候不用加命名空间 xff0c 写好表名就可以直接生成了 但是在用CRUD的时候填写完controllers和model class之后点击生成会弹出错误提示 xff1a Class 39 TelBook 39 sp
  • linux日志对应内容

    var log messages 包括整体系统信息 xff0c 其中也包含系统启动期间的日志 此外 xff0c mail xff0c cron xff0c daemon xff0c kern和auth等内容也记录在var log messa
  • 常用证书操作函数

    现有的证书大都采用X 509规范 xff0c 主要同以下信息组成 xff1a 版本号 证书序列号 有效期 拥有者信息 颁发者信息 其他扩展信息 拥有者的公钥 CA对以上信息的签名 OpenSSL实现了对X 509数字证书的所有操作 包括签发
  • MongoDB 匹配查询和比较操作符

    一 匹配查询 1 查询所有 span class token operator gt span db accounts find span class token punctuation span span class token punc
  • 我的2014——典型程序员的一年,不想再重来

    兴冲冲地拿起 xff0c 信誓旦旦的搁在一边 xff0c 以为很快就会回来 xff0c 却一晃而过 xff0c 不再回来 xff1b 我不想再重复过去 xff0c 决定去做 xff0c 写下来 题记 已经记不起我2014的年初是否有过规划
  • 我的2016——程序员年到三十,工作第四年

    看到CSDN 我的2016 主题征文活动 已经是1月6号 xff0c 而截止时间是1月8号 xff0c 对比去年的总结是在闲等活动开始 xff0c 今年在时间上真的是天差地别 但是 xff0c 一年到头 xff0c 还是需要花些时间来回顾这
  • mac下 ndk_build: command not found

    参考 http blog csdn net greenbird811 article details 7543305 在mac下调用ndk build c代码文件提示错误 fix 1 启动终端Terminal 2 进入当前用户的home目录
  • 公司分配IP地址,求主机号码的最小值和最大值。

    问题描述如下 xff1a 姐 xff1a 注意减去2的实际意义 xff1a 网络地址后的第一个主机地址是本网段的网络地址192 168 0 0 xff0c 最 后一个主机地址是本网段的广播地址192 168 255 255
  • Erlang入门

    64 author sunxu 64 copyright C 2023 lt COMPANY gt 64 doc 64 end Created 16 2月 2023 22 16 module test author 34 sunxu 34
  • IPv4地址、IPv6地址和Mac地址的位数

    xff08 1 xff09 IPv4的地址是32位 xff0c 用点分十进制表示 xff0c 每八位划分 xff0c 也就是四个0 255的十进制数 xff0c 这是很常见的 xff08 2 xff09 IPv6的地址是128位 xff0c
  • 用C#连接数据库的方法

    连接SQL Server数据库的方法 xff1a 1 在程序中引用System Data SqlClient命名空间 2 编写连接字符串 xff0c 格式为 xff1a Data Source 61 服务器名称 Initial Catalo
  • gcc 不支持 //注释的解决

    这段时间用slickedit写代码 xff08 windows平台下 xff0c 装了Cygwin xff09 xff0c 编译器用的gcc xff0c 但是有个问题就是用 34 34 写注释的时候 xff0c 编译的时候有错 xff1a
  • python实现按照文件名称进行文件分类

    问题 xff1a 大量名称中带有数字的图片 视频 xff0c 根据名称中数字按照一定的等差数列来排序 xff0c 并且放入指定对应的文件夹中 span class token keyword import span os span clas
  • 【深度学习】Yolov3详解笔记及Pytorch代码

    Yolov3详解笔记及Pytorch代码 预测部分网络结构backbone xff1a Darknet 53output预测结果的解码 训练部分计算loss所需参数pred是什么target是什么loss的计算过程 预测部分 网络结构 DB
  • 【深度学习】各种卷积的理解笔记(2D,3D,1x1,可分离卷积)

    卷积 1 2D卷积单通道版本多通道版本 2 3D卷积3 1x1卷积作用应用 4 卷积算法5 可分离卷积空间可分离卷积深度可分离卷积 1 2D卷积 卷积的目的是从输入中提取有用的特征 在图像处理中 xff0c 卷积可以选择多种不同的滤波器 每
  • 【深度学习】(2+1)D模型框架结构笔记

    xff08 2 43 1 xff09 D 模型框架结构笔记 SpatioTemporalConv模块结构SpatioTemporalResBlock模块结构SpatioTemporalResLayer模块结构2Plus1DNet Spati
  • 【机器学习】LR回归(逻辑回归)和softmax回归

    LR回归 xff08 逻辑回归 xff09 和softmax回归 1 LR回归Logistic回归的函数形式Logistic回归的损失函数Logistic回归的梯度下降法Logistic回归防止过拟合Multinomial Logistic
  • 【深度学习】时间注意力模块与空间注意力模块

    注意力模块 通道 xff08 时间 xff09 注意力模块空间注意力模块 通道 xff08 时间 xff09 注意力模块 为了汇总空间特征 xff0c 作者采用了全局平均池化和最大池化两种方式来分别利用不同的信息 输入是一个 H W C 的
  • 【机器学习】机器学习与统计分布的关系

    这里写目录标题 1 常见的统计学分布1 xff09 离散分布a 伯努利分布b 二项分布c 泊松分布 2 xff09 连续分布a 正态分布 xff08 高斯分布 xff09 b 均匀分布 为什么我们喜欢用 sigmoid 这类 S 型非线性变