机器学习(十八) 方差、标准差、协方差、协方差矩阵、相关系数

2023-11-12

实例计算

       学习数学理论发现还是懂了理论自己算一算,印象才深刻,记忆才清晰,并且在整理计算过程中会使得想法进一步加深,挖掘出来表面想象够不到的地方。
先来看看统计学定义:大意是通过各种研究方法研究某一现象的内在规律,促进科学发展。

  • 统计学

统计学
统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究。

       我们从最简单概念入手,设有两个变量集合X、Y,也可以理解为样本(sample)的两个特征,

  • 样本

样本(sample),是指从总体中抽出的一部分个体。样本中所包含个体数目称样本容量或含量,用符号N或n表示。

并计算其均值如下图:
在这里插入图片描述
       从计算结果分析,可以看出来啥?两列数据元素个数、平均值是一样的,

  • 均值

均值(mean)是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。

       说明这两列数据大小都都往5这个趋势发展,如果代表分数那么这两列数据年龄都有集中于5分的趋势,均值可以描述出来一组数据的集中趋势但是我们想要可能哪列数据比较分散,各个数据离均值的远近程度,这往往也很重要,假如5分及格我们想知道学生是在及格分附近还是差的很远呢,这时我们就需要用到另一个衡量方法。

  • 方差

方差(Variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

  • 标准差

标准差(Standard Deviation)
,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。

       思考:有了方差为什么还引入标准差?
计算结果如下图:
在这里插入图片描述

       从计算上述结果可以看出来X的方差大于Y,即X数列的离散程度要大于Y,如果是分数成绩,那么X这些学生显然要好于Y,另一方面两个数列想要比较离散程度元素个数要一样、量纲也需要一样,否则将没有比较意义。

  • 协方差

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差

       现实往往更复杂,可能有很多种变量,现在再增加一个变量Y’,并计算其均值、方差、标准差,以及X与Y、X与Y’的协方差。

在这里插入图片描述

       从结果看出协方差大于0说明两列数据变化趋势正相关、小于0说明两列数据趋势变化负相关,=0无相关。

       我们再细分一下协方差大于0时,正值越大可以说明相关性越强吗?设Y’'是另一个数列,其值为Y的2倍,依次计算均值、方差等

在这里插入图片描述

       计算结果来看X与Y’'的协方差为15是X与Y的2倍,但是他们的变化强弱趋势有变化吗,是没有变化的,说明协方差并不能反映两列数据的趋势强弱,因为数据并没有进行归一化量纲不同。

       再有个现象可以看出再两列数据相同时,协方差和方差是相等的,可以说方差是协方差的一种特殊情况。

  • 相关系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r
表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

X与Y、X与Y’'相关系数如下:

在这里插入图片描述

       相关系数并没有受到数据的量纲影响,因为其除以了各自的标准差,最走相关系数是皮尔逊提出来的因此也叫皮尔逊相关系数。

当X=Y 或 X=-Y时,分别计算先关系数如下:
在这里插入图片描述

看两图理解:
正相关:
在这里插入图片描述
不相关:
在这里插入图片描述
负相关:
在这里插入图片描述

  • 协方差矩阵

在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

       协方差矩阵是描述大于2维变量的表示方法,维度更高了,如下图,为上三角矩阵,协方差有交换性。

在这里插入图片描述

  • 问题

多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

产生以及解决办法见参考文章

随笔思考

明朝那些事儿
       上次京东打折顺便把关注了的《明朝那些事儿》几本书买了,发现历史了解了解还是非常有好处的,增加历史见识、增加对各种事情的处理印象,吸取经验,老朱尽管拿下天下后处置了一帮自己的开国功臣,但是他开创了几百年盛世给天下带来了和平,带动了中国的时代发展和更替,那时也提出了很多明文。
老朱团队的厉害之处
1.领导信念和思想明确
2.有自己的铁杆队友战斗支持
3.有坚强的军师团队 如李善长、刘伯温等
4.遇事不怂,如陈友亮那一仗可以说也是出战即决战、一战定乾坤

参考:https://blog.csdn.net/wangcheng666666/article/details/79187703

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习(十八) 方差、标准差、协方差、协方差矩阵、相关系数 的相关文章

随机推荐

  • C ~ 指针

    指针可以简化一些 C 编程任务的执行 且一些任务 如动态内存分配 没有指针无法执行 所以 学习指针是很有必要的 每个变量都有一个内存位置 每一个内存位置都定义了可使用连字号 运算符访问的地址 它表示了在内存中的一个地址 请看下面的实例 它将
  • 应聘Java笔试时可能出现问题及其答案

    Java基础方面 1 作用域public private protected 以及不写时的区别 答 区别如下 作用域 当前类 同一package 子孙类 其他package public protected friendly private
  • Java 小例子:图书馆课程设计(Java 8 版)

    用 Java 模拟一个图书馆 包括创建图书 创建读者 借书 还书 列出所有图书 列出所有读者 列出已借出的图书 列出过期未还的图书等功能 每个读者最多只能借 3 本书 每个书最多只能借 3 个星期 超过就算过期 这个例子跟 http blo
  • 16 bit float 存储_C++:float型数据存储原理及精度丢失溢出深入解析

    电子计算机只能存储0和1 人类世界所能认识的任何数据都需要通过转换为二进制再进行存储 整数 int 型转换为二进制存储很好理解 那么float型数据计算机又是怎么存储的呢 常说的浮点型数据精度丢失和数据溢出又是怎么回事呢 浮点数示意图 位和
  • MATLAB 基础知识 数据类型 分组数组 对分类数据绘图

    本文演示了如何对分类数组中的数据绘图 加载样本数据 加载从 100 位患者收集的样本数据 load patients whos Name Size Bytes Class Attributes Age 100x1 800 double Di
  • 用Javascript实现随机抽奖

    用Javascript实现随机抽奖 思路 首先我们先把一组元素保存到数组arr中 再利用随机生成的整数和数组下标关联起来 这里的重点就是怎样获取随机的整数 下面跟着我一起来看看 HTML部分
  • Linux基础命令

    命令 关闭防火墙1 systemctl stop firewalld service 关闭防火墙程序 systemctl disable firewalld service 关闭开机自启动 关闭防火墙2 firewall cmd set d
  • UVM基础-m_sequencer和p_sequencer

    一 Sequencer问题的由来 1 1 sequence与sequencer之间的数据交互 在UVM的sequence机制中 sequence其实是独立与验证环境之外的部件 作为uvm object而存在 那么sequence最终是要在某
  • VSAN故障案例分享——超经典三场景

    前言 虽然个人认为现VSAN的常规运维都已经很成熟便捷了 像磁盘更换 但还是有诸多需要注意的地方 近期又突然跟VSAN项目有了一些交集 整理原有资料时 发现有几个不错的案例 故拿出来出大家分享下 如有不足之处 也希望大佬们帮指正
  • 基于双向门控循环单元(BIGRU)的数据分类预测。matlab代码,要求2020及以上版本。多特征输入单输出的二分类及多分类模型。程序内注释详细,直接替换数据就可以用。程序可出分类效果图,迭代

    清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 读取数据 res xlsread 数据集 xlsx 分析数据 num class length unique
  • FreeRtos移植到stm32

    每次都忘记怎么移植 还是在此记录下来比较好 1 打开官网FreeRTOS Free RTOS Source Code Downloads the official FreeRTOS zip file release download2 下载
  • 【安装部署】Mysql下载及其安装的详细步骤

    1 下载压缩包 官网地址 www mysql com 2 环境配置 1 先解压压缩包 2 配置环境变量 添加环境变量 我的电脑 gt 属性 gt 高级 gt 环境变量 gt 系统变量 gt path 3 在mysql安装目录下新建my in
  • 如何处理海量数据文件以及大文件数据查找

    目录 一 处理海量整数文件 问 假定有40亿个无符号整数 判断某数据是否在其中 问 假定有40亿个无符号整数 找到只出现一次的数据 两次 三次 问 两个文件各有100亿个整数 只有1G内存 找交集整数 二 处理海量数据 非整数 文件 问 超
  • matlab算出中心差分方法_美赛准备第12期丨美赛ABCDEF题型分析与建模方法

    美赛还有十多天的时间就正式开始了 参赛的小伙伴准备好咯吗 美国大学生数学建模竞赛有MCM和ICM MCM Mathematical Contest in Modeling 为数学建模竞赛 ICM The Interdisciplinary
  • 微信的信息会保存在苹果服务器上吗,【每日一技】如何将微信文件保存到 iPhone 里?...

    由于 iOS 系统的封闭性 在 iPhone 本地储存文件一直是一件麻烦事 特别是在微信内收到很多文件之后 分类管理更加不便 如果长时间未操作 文件还可能永久失效 今天小编图文详解 如何解决 iOS 存储文件问题以及如何在 iOS 内找到文
  • 透明网关

    Oracle与SQL Server的互连 不同数据库平台的互连一般称之为数据库的异构服务 现在各大数据库之间都可以实现这样的异构互连 只是各厂商的具体实现技术不一样 如 在SQL SERVER里面叫做LINKED SERVER 通过ODBC
  • 人工智能从头学(一)

    人工智能从头学 一 Python基础 本系列是对人工智能学习之路的一次复现与总结 适合期末突击复习概念知识点 回顾人工智能知识体系等场景 本文对纯小白极不友好 至少至少对计算机方向有个大概的了解 如有纰漏 欢迎指正 暂定计划 Python基
  • centos7 使用libvirt创建kvm虚拟机并vnc连接

    文章目录 环境 安装libvirt 查看libvirt的一些默认配置 查看libvirt的默认网络配置 kvm虚拟机搭建与连接 创建虚拟机 创建磁盘 下载镜像 使用libvirt创建kvm虚拟机 libvirt常用参数 创建kvm常用指令
  • android上实现Table

    package com android import java util ArrayList import java util HashMap import java util List import java util Map impor
  • 机器学习(十八) 方差、标准差、协方差、协方差矩阵、相关系数

    实例计算 学习数学理论发现还是懂了理论自己算一算 印象才深刻 记忆才清晰 并且在整理计算过程中会使得想法进一步加深 挖掘出来表面想象够不到的地方 先来看看统计学定义 大意是通过各种研究方法研究某一现象的内在规律 促进科学发展 统计学 统计学