数据的探索性分析

2023-11-15


统计研究的过程

数据分析的起点(数据分类)

统计数据的分类
为什么称统计数据的分类为数据分析的起点,是因为不同类型的数据,其对应的分析方法有所差异。在分析数据时有时不仅需要好的分析结果,同时也需要有合理性的理论假设与之对应,这是经典统计学的一大特征。

一、描述性分析(整理数据)

定义

描述性分析是统计过程中的整理数据环节,对调查所得的大量数据资料进行初步的整理、归纳和展示,以找出这些资料的内在规律——集中趋势、分散趋势、偏态和峰态,是为了更好地描述数据的特征.

主要作用

  1. 产生所有个案或不同分组个案的综合统计量及图形;

    个案又叫变量集的一条观测,指一条数据。

  2. 提供常见的统计量与描述图,例如均值、方差、最值等;

  3. 可用于进行数据筛查,发现奇异值;

  4. 可用于描述性分析,假设检验及不同分组个案的特征描述.

可视化技术

定义

可视化分析使用统计图进行数据可视化展示和分析有着直观、生动等良好效果. 可视化不断演变,边界在不断地扩大. 与高级的技术方法结合,允许利用图形、图像处理、计算机视觉、人机互动等技术,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释.

主要作用

  1. 明悉数据的含义、理解数据结构,发现异常值、筛查数据,以便于进行数据合并、清洗、整理;
  2. 通过对数据的主要信息提取,分析者对待问题的理解会不断深入,有助于将商业问题转化为可行的数据分析问题,也有利于结合行业背景选择合适的数据分析方法.
  3. 易于结果的展示;精炼模型、信息,加快知识的传播.

常用方法

基于不同的数据类型,可视化方法和描述性统计分析一样有不同的方法展示. 下表简要总结了单变量中描述统计和可视化的关系:(多变量可视化会在相关分析中提及)

数据结构 统计量 统计图表
连续变量 平均值,中位数,众数,最小值,
最大值,四分位数,标准差等
统计量表,直方图,茎叶图,箱线图
无序型离散变量 各个变量值出现的频数和占比 频数分布表,条形图,饼图
有序型离散变量 各个变量值出现的频数和占比 频数分布表,条形图

可视化的其他用途

  1. 直方图看图形与钟形曲线吻合程度、分布情况
  2. 箱线图看图形是否对称、是否有异常值
  3. P-P图和Q-Q图可以用来比较数据是否符合指定分布.

二、相关性分析(分析数据)

定义

相关关系是相对于函数关系来说的,是指变量间确实存在、但数量上不固定的相互依存.
特点:

  1. 这种关系不能用函数关系精确表达;
  2. 一个变量的取值不能由另一个变量惟一地确定;
  3. 当变量 x 取某个值时,与之相关的变量 y 的取值可能有若干个;
  4. 各观测点分布在一条直线或曲线周围.

主要作用

  1. 判明所考察的定量数据各属性之间有无关联,即是否独立.
  2. 在判定变量之间存在关联性后,用多种定量指标来刻画其关联程度.

相关性分类

分类 因素个数 表现形态 相关的方向 涉及的变量类型 考察问题 常用指标
类1 单相关 直线相关 正相关 相关分析(定量) 有无关联 Pearson、Spearman
类2 复相关 曲线相关 负相关 列联分析(定性) 关联程度 列联系数、kendall

相关性测定

在测定相关性的时候,要确定测定的是相关性分类中的哪种相关性,按图索骥,从而选择合适的方法。两变量之间的相关关系也可以用图形来表示,通常是使用绘制散点图的方法进行衡量,通过散点的分布可以判断线性相关还是非线性相关. 当存在离散型变量是,散点图就不太能观察变量间的相关关系,可以通过复式箱型图或复试条形图简单观察,变量间的相关关系.

数据类型 统计量 图表
连续*连续 Pearson、Spearman、Kendall、偏相关系数 散点图、相关系数矩阵、热图
离散*连续 T检验中t统计量、显著值、方差分析 直方图、复式箱形图、小提琴图
离散*离散(有序) Kendall系数、Spearman相关系数 交叉列联表、网络图(多个离散)
离散*离散(无序) 列联系数、phi、V相关系数 交叉列联表、复式条形图

三、假设检验(分析数据)

定义

假设检验是事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。(先说假设,后验证)

作用

  1. 单总体时可以验证总体参数是否与预期一致(例如均值和方差)
  2. 两总体时可以验证两者的总体参数是否具有显著性差异(例如两总体的均值和方差是否相等)
  3. 多总体时主要是验证不同总体之间的均值是否相等,也可以理解成分类型变量对连续型变量是否具有影响(例如方差分析)

步骤(相对理论)

  1. 提出假设
  2. 确定适当的检验统计量
  3. 规定显著性水平α
  4. 计算检验统计量的值
  5. 作出统计决策

在做任何一个假设检验之前,要首先明白原假设和备择假设是什么. 常用的假设检验通常要满足正态分布的假定,非参数假设检验不需要.

常见的假设检验的分类

包括单总体和两总体均值、比例和方差的假设检验。

在这里插入图片描述
在这里插入图片描述

当对多总体的均值进行检验的时候,t检验就变成了方差分析,相对于配对t检验或独立样本t检验,方差分析的效率更高,只要有一组均值显著不相等就可以通过方差分析,因此方差分析在使用的时候要注意两点:一、不同组的样本个数是不是特别不均衡;二、要配合均值的多重比较使用,更能清晰地看到是哪些组的均值显著不相等.

四、回归分析(分析数据、解释数据)

定义

回归分析是相关分析的深化,相关分析是回归分析的基础。回归分析是一种预测性的建模技术,它研究的是因变量(结果)和自变量(原因)之间的数量化关系.

分类

回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;

按照因变量的多少,可分为简单回归分析和多重回归分析;

按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.

步骤

回归分析的步骤一般是:

  1. 根据自变量与因变量的现有数据以及关系,设定回归模型;

  2. 求出合理的回归系数;

  3. 对模型和回归系数进行显著性检验(R方和回归系数t检验)

  4. 残差分析,共线性诊断等;

    1. 残差分析:自回归、正态性、异方差、库克距离

      自回归通常德宾沃森检验;正态性是用直方图和P-P图;异方差一般是通过残差图来确定

残差的散点图

  1. 模型预测:在符合要求后,即可根据已得的回归方程进行预测,并计算预测值的置信区间等.

回归分析的方法一般有前进法、后退法、逐步回归法和全子集法.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据的探索性分析 的相关文章

  • 华为云构建docker服务流程

    最近买了一个华为云服务器 配置不高适合学习 今天就从0开始从这个华为云服务器搭建我们自己的一个docker服务 安装docker 步骤1 更新系统软件包 sudo yum update 步骤2 添加docker存储库 sudo yum co
  • 前端开发工具DevTools的详细知识点总结(一)

    文章目录 打开DevTools 元素面板 Style面板 Computed面板 devtools取色器 控制台面板 基本功能介绍 控制台应用 网络面板 功能区介绍 分析请求 结语 打开DevTools devtools 即Chrome 开发
  • 《Java 并发编程实战》--读书笔记

    Java 并发编程实战 注 极客时间 Java 并发编程实战 读书笔记 GitHub https github com ByrsH Reading notes blob master Concurrency Java并发编程实战 极客时间
  • TYPE-C接口引脚详解

    Type C口有4对TX RX分线 2对USBD D 一对SBU 2个CC 另外还有4个VBUS和4个地线 1 当Type C接口仅用作传输DP信号时 则可利用4对TX RX 从而实现4Lane传输 这种模式称为DPonly模式 2 Typ

随机推荐

  • MFC之MessageBox、AfxMessageBox用法

    在软件中我们经常会弹出个小窗口 给一点点提示 这就会用到消息对话框 在Win32 API程序中只有MessageBox这一种用法 而在MFC中就有三各方法 1 调用API中的MessageBox 2 调用CWnd的成员函数MessageBo
  • PYQT5中QT Designer设置界面、按钮等背景图

    超级简单的新手教程 目录 文章目录 第一步 第二步 第三步 第一步 制作一个 qrc文件 在
  • python使用Axes3D画三维图加入legend图例时报错AttributeError: ‘Poly3DCollection‘ object has no attribute ‘_edgecolo

    Q python使用Axes3D画三维图加入legend图例时报错AttributeError Poly3DCollection object has no attribute edgecolors2d 报错源代码 fig plt figu
  • 计算机网络和因特网的基本认识

    计算机网络和因特网 笔者阅读 计算机网络 自顶向下方法 第七版第一章所作笔记如下 主要为计算机网络和因特网的基本认识 第一章概述笔记入口 第二章应用层笔记入口 第三章运输层笔记入口 第四章网络层数据平面笔记入口 1 什么是因特网 1 1 因
  • Git教程:标签

    实际上看到这边 对于Git分支仓库这些概念以及commit push pull等操作 但是有些东西我们可能常见到 但是不怎么经常用的 tag 标签其实就算一个 我们下载一些开源项目的时候 在GitHub上经常看到版本 有的项目是通过tag来
  • systemui

    一 SystemUI 概述 二 模块基本布局 三 模块内部框架 四 模块流程 五 重要文件的介绍 一 SystemUI 概述 1 Statusbar 的功能作用 1 1 状态栏的通知功能 包括时间 通知 系统状态等 1 2 状态栏的日期显示
  • VBA &金融

    汇总数据 算提成 G py 210523finance VBA专题12 课程需用材料 Sub Macro1 Dim ws As Worksheet Dim i As Integer For i 1 To 20 Set ws Sheets A
  • kotlin 中intent的传值应用

    main Activity fun intent position Int content String var intent Intent this MainActivity TestActivity class java var bun
  • org.apache.poi.ss.usermodel.Cell.setCellValue(Ljava/time/LocalDateTime;)V

    java 导出功能 出现错误的原因是 实体中存在日期 而导出的时候Excel无法转换日期类型 解决方法 在实体中将日期类型转换为String类型 ColumnWidth 25 ExcelProperty value 计划开始日期 index
  • 100道Python练习题集合,拿去刷

    看书 看视频都可以帮助你学习代码 但都只是辅助作用 学好Python 最重要的还是多敲代码 多刷题 不知道怎么找题刷题的小伙伴 可以看看小编今天带来的 Python100练习题 覆盖了基本语法 数据结构 算法等多个方面 100道Python
  • moviepy音视频开发:使用credits1给视频加片头片尾字幕

    前往老猿Python博文目录 一 概述 在 moviepy音视频剪辑 视频基类VideoClip子类DataVideoClip UpdatedVideoClip ImageClip ColorClip TextClip类详解 介绍了Text
  • 通过NodeJS对接微信客服实现第三方API管理消息

    最近项目有个需求 要对接微信客服 之前也没做过 一脸懵逼 我属于那种不知其然 就心里很没底的人 感觉不知道怎么去开发了 所以就趁着后端还没开发完接口 先自己对接一下试试 接下来就是整个流程 首先我们先注册一个企业微信 这一步是必须的 因为我
  • map根据属性排序、取出map前n个后n个

    map 按 key 升序排序 map 按 key 升序排序 param map return private Map
  • linux top命令详解

    一 top简介 top命令经常用来监控linux的系统状况 是常用的性能分析工具 能够实时显示系统中各个进程的资源占用情况 在Linux操作系统中 top是使用最频繁 也是比较全的一个命令 Top命令类似于Windows系统的任务管理器工具
  • python找不到reshape_python – AttributeError:’Tensor’对象没有属性’reshape’

    我想写一个去噪自动编码器 为了可视化的目的 我想打印出损坏的图像 这是我想要显示损坏图像的测试部分 def corrupt x noise tf random normal shape tf shape x mean 0 0 stddev
  • 调速阀------电磁阀

    目录 调速阀 节流阀简图的理解 安装方式 注意 安装注意事项 电磁阀 1 直动式电磁阀 2 分步直动电磁阀 3 先导式电磁阀 二位二通电磁阀 二位三通电磁阀 二位四通电磁阀 三位三通电磁阀 三位四通电磁阀 管道联系式电磁阀 直接控制式电磁阀
  • 芷菏随身wifi14.5 相关教程

    芷菏随身wifi 芷菏都知道 sim一般都是没有密码 直接可以切换的 是可以直接用ARDC连接投屏到电脑上的 按住随身wifi上的按钮 进入9008模式 可以将随身wifi刷boot模块 再从投屏中修补面具 起到root的效果 这款sim1
  • python发送邮件(带附件)

    usr bin python coding UTF 8 import logging import smtplib from email mime multipart import MIMEMultipart from email mime
  • jquery mobile和ajax,使用jquery mobile不可忽视的细节

    jQuery Mobile 是创建移动WEB应用程序的框架 在学习和使用该框架的过程中 有一些心得想要和大家分享一下 一 框架 因为是移动端开发 所以不要忘了下面这个重要的meta标签哦 使用jquery mobile要引入相应的css文件
  • 数据的探索性分析

    探索一下 数据分析的起点 数据分类 一 描述性分析 整理数据 定义 主要作用 可视化技术 定义 主要作用 常用方法 二 相关性分析 分析数据 定义 主要作用 相关性分类 相关性测定 三 假设检验 分析数据 定义 作用 步骤 相对理论 常见的