人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数

2023-10-29

一、离差(Deviation)

离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作:
在这里插入图片描述

即参与计算平均数的变量值与平均数之差。离差的性质有二: (1)离差的代数和等于0;(2)参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。

二、平均差(Mean Deviation、Average Deviation)

平均差也称为均值,是数据分布中所有原始数据与平均数距离的绝对值的平均。平均差计算公式:
在这里插入图片描述
上述公式可以简记为:
在这里插入图片描述

其中,被减数代表每个数据的值,减数表示平均数,N=数据个数。

三、方差(Variance Deviation)

方差是各个数据与平均数之差的平方的和的平均数,即 :在这里插入图片描述
s²就表示方差。如果用作样本统计时,作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的(n-1)/n倍,因此用样本进行统计时,方差的计算公式调整为如下:
在这里插入图片描述
这就是统计上所谓的“无偏估计”。为了区分以上两种情况,第一个公式的结果称为总体方差,第二个公式的结果称为样本方差。

样本方差可以简记为:
在这里插入图片描述

如果用D表示方差,则如下公式成立:

  1. 设C是常数,则D(C)=0
  2. 设X是随机变量,C是常数,则有:
    D(CX) = C²D(X)
    D(X+C) = D(X)
  3. 设 X 与 Y 是两个随机变量,则有:
    D(X+Y) = D(X)+D(Y)+2cov(X,Y)
    D(X-Y) = D(X)+D(Y)-2cov(X,Y)
    D(aX+bY) = a²D(X)+b²D(Y)+2ab*cov(X,Y)
    其中cov表示协方差。

四、标准差(Standard Deviation)

对方差取算术平方根,得到的结果称为标准差,总体方差的算术平方根称为总体标准差,样本方差的算术平方根称为样本标准差。

样本标准差可以简记为:
在这里插入图片描述

五、协方差(Covariance)

离差、平均差、方差、标准差一般是用来描述一维数据的,但实际中常常遇到含有多维数据的数据集,如果需要评估两个数据之间的联系,可以使用协方差。协方差是一种用来度量两个随机变量关系的统计量,其计算公式如下:

在这里插入图片描述
也可以记为:
在这里插入图片描述
可以看出,方差是协方差在X=Y时的一种特例。

协方差的结果如果为正值,则说明两者是正相关的,如果结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质,如:
在这里插入图片描述

六、协方差矩阵(covariance matrix)

协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 n! / ((n-2)!*2) 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。

在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

协方差矩阵定义:
设X=(x1,x2,…,xn)为n维变量,则称矩阵:
在这里插入图片描述
为n维随机变量 的协方差矩阵(covariance matrix),也记为 D(X),其中:
在这里插入图片描述
为X的分量Xi 和 Xj的协方差。

协方差矩阵为对称非负定矩阵,协方差矩阵具有如下性质:
在这里插入图片描述
公式中右上角的T表示矩阵的转置矩阵,转置是一个数学名词,即矩阵的行和列对应互换。直观来看,将矩阵A的所有元素绕着一条从第1行第1列元素出发的右下方45度的射线作镜面反转,即得到A的转置。一个矩阵M, 把它的第一行变成第一列,第二行变成第二列,…,最末一行变为最末一列, 从而得到一个新的矩阵N。

七、皮尔森相关系数(Pearson correlation coefficient)

7.1、概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。皮尔森相关系数记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。

7.2、定义

皮尔森相关系数为两个变量X、Y之间的协方差和两者标准差乘积的比值。定义公式如下:
r=ρ(X,Y)=cov(X,Y)/(σ(X)*σ(Y))
σ表示标准差。

由于方差是协方差的特例,标准差又是方差的算术平方根,因此上述公式也可以这样表示:
在这里插入图片描述

7.3、值含义

相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

当r大于0小于1时表示x和y正相关关系。当r大于-1小于0时表示x和y负相关关系。当r=1时表示x和y完全正相关,r=-1表示x和y完全负相关。当r=0时表示x和y不相关

通常情况下通过以下取值范围判断变量的相关强度:

  • 0.8-1.0 极强相关
  • 0.6-0.8 强相关
  • 0.4-0.6 中等程度相关
  • 0.2-0.4 弱相关
  • 0.0-0.2 极弱相关或无相关

参考资料:

  1. 百度百科;
  2. 皮尔森相关系数(Pearson correlation coefficient)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数 的相关文章

随机推荐

  • Cesium 简介

    Cesium 简介 一 Cesium 是什么 Cesium 是一个开源 JavaScript 库 用于 3D 2D 2 5D 地图可视化 Cesium 由 AGI 公司计算机图形开发小组与 2011 年研发的 Cesium 一词来源于化学元
  • 基于照片扫描技术的游戏网格贴图制作的相关(上篇)

    参考来源 Agisoft PhototScna User Manual http www agisoft com pdf photoscan pro 1 4 en pdf Unite 2018 基于照片建模的游戏制作流程 http foru
  • MongoDB批量操作及与MySQL效率对比

    本文主要通过批量与非批量对比操作的方式介绍MongoDB的bulkWrite 方法的使用 顺带与关系型数据库MySQL进行对比 比较这两种不同类型数据库的效率 如果只是想学习bulkWrite 的使用的看第一部分就行 测试环境 win7旗舰
  • firefox 地址栏二维码扩展(官方)

    度娘搜索及扩展搜索总找不到这个官方插件 这里记录一下 别的二维码插件真不用 1 设置方式 2 安装地址 附加组件管理器 Firefox 火狐浏览器 火狐社区 附加组件管理器 火狐社区http mozilla com cn thread 34
  • 程序员如何辞职?

    在很长的一段时间里我都梦想着有一天能够辞掉我的工作 为自己工作 我感到自己被困在公司里工作 我知道 如果我能自己离开会做得更好 问题是 怎么离开 那时 我并不认识任何一位成功逃出牢笼的人 所以我不知道自己需要做什么 我只知道 为别人工作我完
  • 【深度学习实验】前馈神经网络(四):自定义逻辑回归模型:前向传播、反向传播算法

    目录 一 实验介绍 二 实验环境 1 配置虚拟环境 2 库版本介绍 三 实验内容 0 导入必要的工具包 1 逻辑回归Logistic类 a 构造函数 init b call self x 方法 c 前向传播forward d 反向传播bac
  • 2020第十一届蓝桥杯C++省赛B组真题和题解 (10月第二场)

    目录 试题A 门牌制作 题目 题解 试题B 既约分数 题目 题解 试题C 蛇形填数 题目 题解 试题D 跑步锻炼 题目 题解 试题F 成绩统计 题目 题解 试题G 回文日期 题目 题解 试题H 子串分值和 题目 题解 试题I 平面切分 题目
  • Python练习题:第11题 兔子繁衍问题

    题目 有一对兔子 从岀生后第3个月起每个月都生一对兔子 小兔子长到第三个月后每个月又生一对兔子 假如兔子都不部死 问每个月的兔子总数为多少 分析 把兔子分成刚出生的 1个月大的以及2个月及以上大的分别计数即可 coding utf 8 By
  • Xrm.WebApi 多对多关系处理

    primaryId 主实体id childIds 多对多中子实体的ids parentTable 主实体logicalName childTable 子实体logicalName relationShip 主实体和子实体关系字段 priva
  • kubernetes一步一步搭建(一)安装与http访问

    众所周知 kubernetes 简称k8s 是用于管理docker集群的 最近一段时间一直在折腾环境问题 在此写一篇博客 来帮助像我一样的小白 避免走弯路 一 环境 集群环境 角色 IP地址 版本号 Docker版本 系统版本 master
  • QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION

    论文地址 https openreview net pdf id B14TlG RW 摘要 目前的端到端机器阅读和问答模型主要基于包含注意力的循环神经网络 抛开优点 这些模型的主要缺点 在训练和推理方面效率较低 因此我们提出了一种名为QAN
  • 接口 interface

    接口 interface 语法 所有的属性都是静态常量 public static final 通过接口管理常量 没有构造函数 不能实例化 当成一种数据类型来用 所有的方法都是抽象方法 public abstract 罗列一些能力 并没有实
  • 编码体系与规范

    编码体系与规范 网页编码是指网页中字符的编码方式 目前国内常见的网页字符编码主要有utf 8 gbk gb2312 其中 utf 8为国际化编码 在各国各地区的网站中都很常见 可以说是最通用的字符编码 此外 有些日本网页会使用EUC JP
  • 矩阵奇异值分解

    转自 http www madio net forum redirect goto nextnewset tid 47409 html 奇异值分解是线性代数中一种重要的矩阵分解 在信号处理 统计学等领域有重要应用 定义 设A为m n阶矩阵
  • 计算各个数字出现的次数

    目录 解决策略 在C语言中 数字字符只有0 1 2 3 4 5 6 7 8 9 所以我们想要统计数字字符的个数的话可以用一个switch case语句来解决统计的问题 说以代码如下 2 代码优化 解决策略 在C语言中 数字字符只有0 1 2
  • Use case

    详述用例 Use case 2 发布任务者发布任务 范围 赚闲钱应用 级别 用户目标 主要参与者 发布任务者 涉众及关注点 发布任务者 希望便捷 准确地发布任务 希望准确收到接受任务者的任务完成情况 希望确保记录了支付授权服务的支付票据 希
  • 基于Java的网络编程实践

    网络编程 2 网络通信的两要素 如何实现网络的通信 地址 IP 端口号 规则 网络通信协议 TCP UTP 3 IP IP地址 InetAddress 唯一定位一台网络上的计算机 127 0 0 1 本机localhost IP地址的分类
  • 如何在linux命令行(终端)不依赖jupyter执行ipynb 文件

    安装 runipy pip install runipy 终端执行ipynb runipy
  • 选择性搜索(selective search)

    该文翻译整理自 selective search for object detection c python 一 目标检测 VS 目标识别 目标识别 objec recognition 是指明一幅输入图像中包含那类目标 其输入为一幅图像 输
  • 人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数

    一 离差 Deviation 离差即标志变动度 又称 偏差 是观测值或估计量的平均值与真实值之间的差 是反映数据分布离散程度的量度之一 或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标 常写作 即参与计算平均数的变量值与平均数