统计学习第二弹--描述性统计(理论公式)

2023-11-03

 

思维导图(目录结构):

 

  • 集中趋势
  1. 众数:一组数据中出现频数最多的数值,常用用Mo表示
    #求众数
    def Max_number(nums):
        res = {}
        for num in nums:
            res.setdefault(num,0)
            res[num] += 1
        res = sorted(res.items(),key = lambda x:x[1],reverse = True)
        return res[0][0]

     

  2. 中位数:一组数据排序后处于中间位置上的数值,常用Me表示。
    #中位数
    def mid_number(nums):
        nums = sorted(nums)
        if len(nums) % 2 == 0:
            index = len(nums) //2
            return (nums[index] + nums[index-1]) / 2
        else:
            index = (len(nums)-1) // 2
            return nums[index]
  3. 分位数:是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
  4. 平均数:又称均值,是全部数据的平均值,主要分为以下三种:设一组样本数据为,x_{1},x_{2},x_{3} .........x_{n},样本量为n,则样本的平均数用\bar{x}表示算术平均数:是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标,计算公式为:
    1. 算术平均数:是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标,计算公式为:\bar{x} =\[\frac{​{​{x_1} + {x_2} + \cdots + {x_n}}}{n}\]
      #算术平均数
      def average_numbers(numbers):
          sum_ = 0
          n = len(numbers)
          for number in numbers:
              sum_ +=number
          res = sum_ / n
          return res
       
    2. 加权平均数:加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算,计算公式w为:               \bar{x} =\[\frac{​{​{x_1}{f_1} + {x_2}{f_2} + \cdots + {x_n}{f_n}}}{​{​{f_1} + {f_2} + \cdots + {f_n}}}\]
      #加权平均数
      def weight_average(numbers):
          f=0
          sum_ = 0
          for number in numbers:
              sum_ += number[0]*number[1]
              f += number[1]
          return sum_/f

       

    3.  几何平均数:n个观察值连乘积的n次方根就是几何平均数,,计算公式为:G_{n} = \[\sqrt[n]{​{​{x_1}*{x_2}*{x_3}* \cdots *{x_n}}}\]

      #几何平均数
      def Geo(nums):
          mul = 0
          for num in nums:
              mul *=num
          n = 1/len(nums)
          return mul**(n)

       

       

二、离散程度

  1. 数值型数据 
    1. 方差:各数据与其平均数离差平方的平均数 公式为:S^{2} = \frac{​{\sum\limits_{i = 1}^n {​{​{({x_i} - \bar x)}^2}} }}{​{n - 1}}
      #方差
      def var(numbers):
          xbar = average_numbers(numbers)
          n = len(numbers) - 1
          sum_ = 0
          for number in numbers:
              sum_ += (number - xbar) **2
          return sum_ / n
    2.  标准差:方差的平方根 公式为:S = \sqrt {\frac{​{\sum\limits_{i = 1}^n {​{​{({x_i} - \bar x)}^2}} }}{​{n - 1}}}
      #标准差
      def std(numbers):
          return var(numbers)**0.5

       

    3.  极差:也称全距,一组数据的最大值与最小值之差,公式为:R = max(xi) - min(xi)

      #极差
      def max_min(numbers):
          return max(numbers) - min(numbers)

       

       

    4.  平均差:是总体所有单位与其算术平均数的离差绝对值的算术平均数MD = \[\frac{​{\sum\limits_{i = 1}^n {\left| {​{x_i} - \overline x } \right|} }}{n}\]

      #平均差
      def averge_sub(numbers):
          n = len(numbers)
          xbar = average_numbers(numbers)
          sum_ = 0
          for number in numbers:
              sum_ +=abs(number - xbar)
          return sum_ / n

       

  2. 顺序数据-四分位差:75%位置上的四分位数与25%位置上的四分位数之差:QD = QU QL

  3. 分类数据-异众比率:指的是总体中非众数次数与总体全部次数之比 公式为:V_{r} = \[\frac{​{\sum\limits_{i = 1}^n {​{f_i}} - {f_m}}}{​{\sum\limits_{i = 1}^n {​{f_i}} }}\]   其中:V_{r}表示异众比率,\[{\sum\limits_{i = 1}^n {​{f_i}} }\]为变量值的总频数,f_{m}为众数的频数

  4. 相对离散程度-离散系数:一组数据的标准差与其相应的平均数之比

三、分布形状

  1. 偏态系数:测量数据分布不对称的统计量称为偏态系数,公式为:
  2. 峰态系数:是指数据分布峰值的高低,公式为:

 

 

****************************************************************假装有分隔线*****************************************************************

 

 

 

 

 

本文是在木东居士的统计学习小组 学习笔记 供大家参考 

居士是腾讯的以为数据科学家 在工作之余组织一些学习小组 不是培训班 让大家在一起讨论学习

数据科学家学习小组之统计学(第二期)

https://mp.weixin.qq.com/s/JUnaXgjDMcLinMxpJLZ36g

机器学习小组(第一期)学习形式+打卡方式+参考资料

https://mp.weixin.qq.com/s/fUAUm74AAqWYI_UIMmB-mA

感兴趣的童鞋可以关注一下

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

统计学习第二弹--描述性统计(理论公式) 的相关文章

  • 统计学习之回归分析

    目录 一 什么是回归分析 二 回归分析有哪些 三 回归分析的应用 四 回归分析常用工具 Python代码实现 五 如何选择合适的回归模型 参考文献 一 什么是回归分析 百度百科 回归分析是一种预测性的建模技术 它研究的是因变量 目标 和自变
  • 统计学习之时间序列分析

    一 什么是时间序列 1 定义 按照时间的顺序把一个随机事件变化发展的过程记录下来 就构成了一个时间序列 对时间序列进行观察 研究 找寻它变化发展的规律 预 测它将来的走势就是时间序列分析 2 栗子 7000年前 古埃及人把尼罗河涨落的情况逐
  • 1的平方加到n的平方

    include
  • pandas dataframe 一列数据变多列

    一 问题描述 希望把dataframe 中的一列数据分割为多列追加到dataframes上 分割前示意图 分割后效果图 二 代码实现 提取出分割列的名称 或者可以自己定义分割后的列名称 feature name data columns 1
  • R语言第七讲 线性回归分析案例

    题目 MASS 库中包含 Boston 波士顿房价 数据集 它记录了波士顿周围 506 个街区的 medv 房价中位数 我们将设法用 13 个预测变量如 rm 每栋住宅的平均房间数 age 平均房 龄 lstat 社会经济地位低的家庭所占比
  • 统计学基础-数据的图表展示

    理论基础 什么是统计学 统计学分为描述统计和推理统计 统计学研究什么 统计学没有固定的研究对象 统计学研究的是来自各个领域的数据 靠解决其他领域内的工作而生存 我们并不能因此就看轻统计学 就好像计算机现在渗透在各行各业 我们生活中的方方面面
  • 泛统计理论初探——机器学习的欠采样算法

    统计学习 经典欠采样方法简介 机器学习中的欠采样方法 在之前的文章中己经介绍了重采样的方法和使用情况 本次文章将会介绍欠采样方法的原理和经典欠采样算法的步骤以及使用背景 从原理上来说 欠采样方法的思路是和重采样方法刚好相反的 因为重采样是针
  • AI之路(二)——关于统计学习(statistical learning)Part 1 概论

    从今日起 正式开启AI之路 在人工智能学习领域 无论机器学习还是深度学习 统计学习是入门的最好参考教材 是不可或缺的 因此 这漫漫求索之路 就从统计学习开始吧 我所选择的是李航所著的统计学习 第二版 计划将我对本书的自学总结或心得 能及时地
  • LaTex常用技巧5:公式太长换行并加大括号

    使用LaTex做笔记的时候发现公式太长 一行会超出页面 于是想到换行 原来的代码 这里使用了包bm 测试的时候前面请使用 usepackage bm begin equation i G bm a begin cases i i 1 ddo
  • Visio里Mathtype公式变形问题解决

    直接从word或者ppt复制MathType公式到Visio里可能会发生公式的变形 查找了一下解决办法 记录一下 建议不要只要从其他office软件直接复制过来 第一步 找到Visio工具栏的插入 然后选择对象 双击插入就可以了 后面的其他
  • LaTeX数学公式的符号表示

    引言 由于CSDN的Markdown编辑器能轻松地支持 LATEX LaTeX的公式表示 因此 今天我们来细数一下 LATEX LaTeX数学公式的符号表示 以便大家以后随时查用 1 强调模式 a a hat a check a a a a
  • boost电路公式详解

    这个是我在设计boost电路遇到问题时找的文章 觉得说的很好 所以就转载过来方便查看 原文链接 https www eet china com mp a68179 html 以下是那边文章的内容 我们知道 不论是buck 还是boost电路
  • Markdown、Word中插入公式及序号,并设置公式居中序号右对齐

    Markdown里实现这个功能非常简单 只需要在公式最后插入 tag index 即可 其中index为公式编号 如 S x
  • handsontable使用及遇到的坑--公式计算(思路)

    公式 公式的计算可使用堆栈的思想将运算符后置 如 C1 A1 A2 5 B1可以变换成 A1 A2 5 B1 计算过程为 假设A1 1 A2 2 B1 3 C1 A1 A2 5 B1 A1 A2 5 B1 1 2 5 3 3 5 3 15
  • 多项式分布的理解概率公式的理解

    多项式分布是二项分布的推广 二项分布 也叫伯努利分布 的典型例子是扔硬币 硬币正面朝上概率为p 重复扔n次硬币 k次为正面的概率即为一个二项分布概率 而多项分布就像扔骰子 有6个面对应6个不同的点数 二项分布时事件X只有2种取值 而多项分布
  • 统计学习的基本概念和分类

    前言 一 统计学习的概念 1 统计学习应用领域 pic center 80 x80 2 统计学习的概念 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科 以计算机和网络为平台 以数据为研究对象 以预测和分
  • 统计学习系列之参数估计

    参数估计 1 什么是参数估计 简单来说是 参数估计是指使用样本统计量估计总体的参数的 百度百科的解释如下 参数估计 parameter estimation 统计推断的一种 根据从总体中抽取的随机样本来估计总体分布中未知参数的过程 从估计形
  • 统计学习方法学习笔记(一)————统计学习方法概论

    1 统计学习 1 统计学习概念 统计学习 statistical learning 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科 统计学习也称为统计机器学习 statistical machine learn
  • 逻辑回归的总结(详细步骤)

    什么是逻辑回归 逻辑回归虽然名字中带有回归 但是并不是一个回归模型 而是一个分类模型 逻辑回归的目的就是解决分类问题 最常用的就是解决二分类问题 逻辑回归和线性回归的关系 逻辑回归 Logistic Regression 与线性回归 Lin
  • R语言第十一讲 决策树与随机森林

    概念 决策树主要有树的回归和分类方法 这些方法主要根据分层和分割 的方式将预测变量空间划分为一系列简单区域 对某个给定待预测的观 测值 用它所属区域中训练集的平均值或众数对其进行预测 基于树的方法简便且易于解释 但预测准确性通常较低 如图所

随机推荐

  • GDB+GDBserver 远程调试

    本文转自 https www cnblogs com Dennis mi articles 5018745 html 如若侵权 会及时删除 内容摘要 远程调试环境由宿主机GDB和目标机调试stub共同构成 两者通过串口或TCP连接 使用 G
  • 蓝桥杯评分标准_蓝桥杯软件设计大赛自测评分标准

    第 1 1 页 2013 模拟赛自测评分标准 1 结果填空题 得分或不得分 没有中间结果 结果必须完全正确才能得分 结果中含有引导或尾随的空白将被忽略 不扣分 但 结果中含有中文空白字符或标点符号 按错误处理 结果中含有不必要的多余内容 说
  • 七牛云入门及图片上传

    什么是七牛云 七牛云是国内领先的企业级公有云服务商 致力于打造以数据为核心的场景化PaaS服务 围绕富媒体场景 七牛先后推出了对象存储 融合CDN加速 数据通用处理 内容反垃圾服务 以及直播云服务等 通俗来讲七牛云就是一个服务器 百度百科
  • 用python进行人脸识别(一)

    用python进行人脸识别 一 项目概述 开发前提 最终效果 登录界面 主界面 人脸注册界面 考勤界面 人脸识别界面 查询界面 最近用python写的毕业设计 总结一下 给大家提供一下参考 准备写一系列的教程 包括一些最基本的人脸识别原理以
  • java的跨平台性是什么?原理是什么?

    跨平台性 Java 的跨平台性是指一个 Java 程序可以在不同的操作系统和硬件平台上进行部署和运行 而无需对源代码进行任何修改或重新编译 这有赖于 Java 虚拟机 JVM 的存在 原理 JVM 是 Java 平台的核心组件 负责与特定的
  • RabbitMQ和Kafka比较

    1 Kafka可以保证顺序处理消息 RabbitMQ相对较弱 2 在消息路由和过滤方面 RabbitMQ提供了更好的支持 3 RabbitMQ有消息存活时间 TTL 和延迟 预定消息功能 Kafka没有 4 在消息留存方面 RabbitMQ
  • WPF TextBlock IsTextTrimmed 判断文本是否超出

    原文 WPF TextBlock IsTextTrimmed 判断文本是否超出 WPF TextBlock 设置TextTrimming情况下 判断 isTextTrimmed Text 文本是否超出 是否出现了省略号 private bo
  • flutter json工厂模式

    请求到的JSON a aa b ba b1111 bb b2222 ba b3333 bb b4444 c ca c111 cb c222 对JSON进行工厂模式 class NameModel String a List b b b
  • unity常用快捷键

    Unity常用快捷键 1 Q 抓手工具 W 移动工具 E 旋转工具 R 缩放工具 T 横切面工具 对物体沿着横切面进行缩放 2 Z 轴点模式切换 Pivot 与 Center X 轴点旋转切换 Global 与 Local 3 在场景中点击
  • 配置pytorch_geometric

    pytorch geometric是一个图神经网络的库 如果直接通过pip安装在运行时会显示依赖库 如torch sparse 没安装 在安装这些依赖库通过pip安装不上 需要去官网 https pytorch geometric com
  • 关于C++ primer 15.5节访问与继承控制的理解

    关于C primer 15 5节访问与继承控制的理解 第一次阅读时 对P543第一节 受保护的成员 感到有点难以理解 后来发现是阅读过程中对第二条和第三条特性产生了歧义 最后浪费了蛮多时间 知乎上也有对这个问题的讨论链接 有一些回答也做出了
  • Win10(Win7)局域网设置共享文件夹,超全面步骤。

    首先 计算机要设置 登录密码 否则 同局域网内的其他计算机不能正常访问本机 其次 假设本机名称为 LAPTOP ABC 用户名为 user123 本机IP地址为192 168 1 100 1 打开控制面板 选择大图标 点击 网络和共享中心
  • VCS中的覆盖率分析介绍

    VCS在仿真过程中 也可以收集Coverage Metric 其中覆盖率类型有 1 Code Coverage 包括control flow和value两部分的coverage line coverage branch coverage t
  • TVM设备添加以及代码生成

    因为要添加的设备是一种类似于GPU的加速卡 TVM中提供了对GPU编译器的各种支持 有openCl OpenGL和CUDA等 这里我们选取比较熟悉的CUDA进行模仿生成 从总体上来看 TVM是一个多层的结构 从上一个文档 TVM调试 中 基
  • ADC0809的使用

    一 前言介绍 使用ADC0809对一个模拟电压进行转换 转换后的电压使用数码管显示出来 二 ADC0809的介绍 1 ADC0809简介 ADC0809是采用COMS工艺制造的双列直插式单片8位A D转换器 分辨率8位 精度7位 带8个模拟
  • Ubuntu 20网络和DNS设置

    问题 Ubuntu 20 DNS 被自动覆盖成127 0 0 53 在界面环境下设置的静态IP地址 然后可以ping通IP 但是无法访问网页 初步判断是DNS问题 查看sudo cat etc resolv conf内容发现是127 0 0
  • github上好的网站

    https github com Trinea android open project
  • vue搭建后台管理页面(点击左侧导航,切换右侧内容)

    home vue页面
  • 不打无准备之战,Python100道经典题目,参考学习(附答案)

    近年来 Python在编程语言界里赚足了风头 无论是受欢迎程度 还是薪资待遇 都非常可观 相应的 Python岗位要求也越来越高 无论你是零基础还是老前辈 在Python面试中都不能轻视 不打无准备之战 在平时我们就需要多积累 今天就给大家
  • 统计学习第二弹--描述性统计(理论公式)

    思维导图 目录结构 集中趋势 众数 一组数据中出现频数最多的数值 常用用Mo表示 求众数 def Max number nums res for num in nums res setdefault num 0 res num 1 res