统计学基础-数据的图表展示

2023-11-04

理论基础:

  1. 什么是统计学?

统计学分为描述统计和推理统计

  1. 统计学研究什么?

统计学没有固定的研究对象,统计学研究的是来自各个领域的数据,靠解决其他领域内的工作而生存,我们并不能因此就看轻统计学,就好像计算机现在渗透在各行各业、我们生活中的方方面面,计算机也是为了应用而生的。在很多领域,如果没有统计学,虽然不会死亡但是一定会变的很弱。统计学在各个学科领域的独特地位和作用表明了统计作为一门独立学科而具有的特点。

  1. 统计学的定位

数据分析的真正的目的是从数据中找出结论、从数据中寻找启发,而不是寻找支持。真正的数据分析事先是不知道结论的,通过数据分析才得出的结论。

实践部分-数据的图表展示

  1. 数据预处理(参考:https://www.cnblogs.com/zhizhan/p/4870397.html

计算机领域常说:数据的质量可以再很大程度上决定模型的表现,但是在我们实际的工作中几乎不可能直接得到高质量的数据,在把数据喂给算法之前有大量的数据预处理的工作。一般我们从系统中拿到数据第一个工作就是检查其完整性和准确性(异常值的检测,通常情况下会根据具体的业务需求,进行处理,常用的方法有:

  1. 数据清洗 —— 去噪声和无关数据
  2. 数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
  3. 数据变换 —— 把原始数据转换成为适合数据挖掘的形式
  4. 数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
  5. 图说事实
  1. 品质数据的整理与展示(这里主要是指使用Excel简单的分析)

常用的一些功能主要有:

数据的排序和筛选:可以大概了解数据的特征,有助于对数据检查纠错。

数据的图表展示

当我们有多个维度的时候需要将数据进行分组,常用的是数据透视表

如原始数据是这样的:

 

当我们想要查看每个部门有多少人数时,可以选择插入数据透视表 轻松拖拽就可以很好的展示,插入数据透视表后的效果:

数据透视表具有很强大的功能,操作也比较简单 可以满足我们常用的,求和、计数、平均值、最大(小)值、乘积、方差、标准偏差等等的数据分析功能。这里只是简单的介绍一下,具体的教程还需要各位看官自行百度哈!!!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

统计学基础-数据的图表展示 的相关文章

  • 第1步 数据预处理

    文章目录 前言一 安装依赖环境二 导入依赖包三 导入数据集保姆级操作演示 xff1a 四 处理丢失数据保姆级操作演示 五 解析分类数据保姆级操作演示 六 拆分数据集为训练集合和测试集合七 特征缩放总结 前言 一 安装依赖环境 开始之前 xf
  • VGG数据预处理

    参考文献 Very Deep Convolutional Networks for Large Scale Image Recognition 本文的目的 目标检测 语义分割等领域都会涉及到预训练模型 xff0c 一般是在ImageNet上
  • PyTorch学习(3):数据预处理

    PyTorch学习 xff08 3 xff09 数据预处理 Pytorch官方文档 xff1a https pytorch cn readthedocs io zh latest Pytorch学习文档 xff1a https github
  • 数据预处理-数据清洗之numpy访问与计算

    如何访问numpy数组中的元素 xff1f 采用索引或者切片的方式 span class token comment 导入包 span span class token keyword import span numpy span clas
  • 统计学习之回归分析

    目录 一 什么是回归分析 二 回归分析有哪些 三 回归分析的应用 四 回归分析常用工具 Python代码实现 五 如何选择合适的回归模型 参考文献 一 什么是回归分析 百度百科 回归分析是一种预测性的建模技术 它研究的是因变量 目标 和自变
  • 提高机器学习模型性能的五个关键方法

    如何提高机器学习模型性能 可从五个关键方面入手 1 数据预处理 2 特征工程 3 机器学习算法 4 模型集成与融合 5 数据增强 以下是各个方面的具体分析和方法 说明 1 这里主要是各个关键方法的知识汇总梳理 便于集中学习 具体的实际应用内
  • R语言tidyr包数据变换函数(dplyr包组合使用,完美)

    日常的数据预处理中 不可避免的会遇到数据的各种变形 转换 R语言中的tidyr包函数解决了数据变形上的问题 变量 列的转换 1 宽数据变长数据 gather data key key value value na rm FALSE conv
  • 统计学习第四弹--随机变量的概率分布

    关于随机变量概率分布的重要概念 概率 对事件的发生的可能性大小的度量值 随机变量 事先不能确定其取值的变量 离散型随机变量 只能取有限个值的随机变量 连续型随机变量 可以取一个或多个区间中任何值的随机变量 期望值 随机变量的平均取值 求法是
  • 统计学习之时间序列分析

    一 什么是时间序列 1 定义 按照时间的顺序把一个随机事件变化发展的过程记录下来 就构成了一个时间序列 对时间序列进行观察 研究 找寻它变化发展的规律 预 测它将来的走势就是时间序列分析 2 栗子 7000年前 古埃及人把尼罗河涨落的情况逐
  • pandas dataframe 一列数据变多列

    一 问题描述 希望把dataframe 中的一列数据分割为多列追加到dataframes上 分割前示意图 分割后效果图 二 代码实现 提取出分割列的名称 或者可以自己定义分割后的列名称 feature name data columns 1
  • Python处理缺失数据

    目录 1 缺失原因 2 缺失类型 3 处理方法 3 1 删除 3 1 1 统计每列缺失值的个数 3 1 2 直接删除含有缺失值的行 3 1 3 直接删除含有缺失值的列 3 1 4 只删除全是缺失值的行 3 1 5 保留至少有4个非缺失值的行
  • 使用sklearn预处理数据之标准化、归一化、正则化

    文章目录 前言 二值化 最小最大化 属性缩放 正则化 标准化 前言 sklearn preprocessing是sklearn库中非常重要的一个module 集成了很多预处理数据的方法 今天对常用的几个加以解释说明 二值化 sklearn
  • 2. 特征缩放(归一化)

    特征缩放 为了消除数据特征之间的量纲影响 我们需要对特征进行归一化处理 使得不同指标之间具有可比性 例如 分析一个人的身高和体重对健康的影响 如果使用 米 m 和 千克 kg 作为单位 那么分析出来的结果显然会倾向于数值差别比较大的体重特征
  • python数据清洗 —— re.split()划分字符串

    需求 对于一行字符串 route views6 routeviews org 141694 2a0c b641 24f fffe 7 184891 CN apnic OTAKUJAPAN AS Otaku Limited CN 要将其划分成
  • 统计学习系列之参数估计

    参数估计 1 什么是参数估计 简单来说是 参数估计是指使用样本统计量估计总体的参数的 百度百科的解释如下 参数估计 parameter estimation 统计推断的一种 根据从总体中抽取的随机样本来估计总体分布中未知参数的过程 从估计形
  • 统计学习之方差分析

    零 案例说明 为了检验某小学六年级教学质量的差异 从该小学六年级的三个班级中分别选取一定数量的学生 分成三个组 三个样本 对他们期末考试的平均分进行统计分析 如果实验显示每个每组的均值相同 即三个班期末考试的成绩差异不大 则表明该小学六年级
  • 华为OD机试真题 Python,简单的解压缩算法,入栈出栈,队列

    def decoder s str gt str n len s A3B1 C 3 3 bracket pos stack 不是数字都入栈 def repeat stack pos num 弹栈次数 m len stack pos repe
  • 气候数据处理代码实现

    案例 根据站点降雨量日数据求月总降雨量 年总降雨量 月降雨天数 年降雨天数等 数据 部分数据如下 统计结果
  • UTSC-TK2016工具集使用笔记

    1 Pcap2Session ps1 对原始流量文件进行切分 以会话 所有层 会话 应用层 流 所有层 流 应用层的形式对原始流量文件进行切分 删除文件长度为0的数据 删除重复文件 生成2 Session文件夹 2 ProcessSessi
  • 什么是GPT?初学者如何使用GPT?GPT入门学习

    灵魂发问 GPT科研中没有那么神 GPT账号不能轻松使用 GPT怎样才融合到我的科研中 别人用的非常酷 为什么我用的不行 让GPT成为您的科研加速器 GPT对于每个科研人员已经成为不可或缺的辅助工具 不同的研究领域和项目具有不同的需求 如在

随机推荐

  • Hash函数

    Hash函数 1 数据完整性 2 Hash函数 1 Hash函数定义 2 Hash函数的应用 3 Hash函数的基本要求 4 Hash函数的安全性 5 随机预言机ROM 6 ROM中的三个算法 1 原像问题 2 第二原像问题 3 碰撞问题
  • uni-app ——小程序购物车基本功能的实现过程

    文章目录 前言 一 示例图 二 实现步骤 1 实现思路 2 静态页面的搭建 3 css样式 4 使用vuex操作相关数据 总结 一 示例图 二 实现步骤 1 实现思路 关于实现思路在初次使用JS实现购物车时就有所讲解 其实实现思路都大致相同
  • 【FFmpeg学习笔记一】FFmpeg简介

    Fmpeg简介 一 FFmpeg简介 二 FFmpeg函数库 三 FFmpeg用例 四 相关链接 一 FFmpeg简介 FFmpeg是一款自由软件 核心功能就是音视频编解码 其中的 FF 指的是 Fast Forward 快速前进 FFmp
  • Shamir秘密共享 与 ElGamal门限解密

    Secret sharing scheme 定义 秘密共享方案是可有效计算的是算法组 G C G C G C 定义为
  • (实验50)单片机,STM32F4学习笔记,代码讲解【串口IAP实验】【正点原子】【原创】

    文章目录 2023重新理解记录 其它文章链接 独家吐血整理 实验现象 主程序 IAP初始化程序 代码讲解 2023重新理解记录 BOOT APP Flash boot是通信使用 APP是功能代码 平时烧录的文件 hex时boot与app的结
  • canopen服务器协议,CANOpen协议如何保证通讯不丢帧?-通信/网络-与非网

    摘要 如何让现场总线通讯更加稳定可靠 不丢失 这向来都是工程师们难以解决的问题 本文将运用国际规范的通讯协议来展示怎样才能搭建好握手通讯 服务数据对象 SDO Service data object SDO 主要用于 CANopen 主站对
  • Android(安卓) 无线ADB调试手机(WiFi 调试、蓝牙调试)

    1 手机和电脑连接同一局域网 连同一个 WiFi 手机开热点电脑连接 电脑开热点手机连接 2 手机打开USB调试模式 3 查找你需要连接的Android 安卓 设备的ip 方式一 手机开热点电脑连接 手机分享蓝牙网络给电脑连接 1 电脑打开
  • template might not exist or might not be accessible by any of the configured Template Resolvers

    这个报错是找不到模板的存放路径 看配置 模板应该是在resource目录下 问题解决 参考 https blog csdn net qq 33605879 article details 107595510
  • ES(Elasticsearch)7.6.1安装教程

    Es elasticsearch 7 6 1安装教程 注意 除了最后启动ES的时候在es账户下执行 其他都是在root 下执行的 相关文件的下载 我这里都有 百度网盘链接 https pan baidu com s 1PxgINf6Q1UZ
  • Anaconda进出虚拟环境

    用了很多次还是总忘 记一下 查看Python环境 conda info env 代表当前环境 创建虚拟环境 pip create n py37 python 3 7或 conda create n py37 python 3 7 Windo
  • kibina 启动_kibana启动失败

    log 09 44 53 848 info listening server http Server running at http localhost 5601 log 09 44 53 864 error status plugin x
  • 给定区间[-2^31, 2^31]内的3个整数A、B和C,请判断A+B是否大于C。

    该题使用long double作为A B C的存储类型 都无法通过系统的测试 但是本地测试通过了 系统测试使用 BigInteger 通过测试了 为甚么会出现这个结果 这里面到底是什么原因 本人也没搞清楚 如有大神明白其中原理 希望多多指教
  • python装13的一些写法

    一些当你离职后 让老板觉拍大腿的代码 1 any in for in 判断某个集合元素 是否包含某个 某些元素 代码 if name main 判断 list1 中是否包含某个 某些元素 list1 1 2 3 4 a any x in 5
  • matlab 画折线图

    针对这篇博客里有些不够详细的地方 后期又写了一个稍微更详细的MATLAB画折线图 https blog csdn net Rhiney 97 article details 105000137 代码 效果图 x 1 1 5就是x轴上的数据
  • 模拟实现strstr函数

    目录 strstr函数介绍 使用strstr 出现 未出现 我的strstr模拟实现 代码 代码逻辑 现在来讲一下比较迷惑的点 结语 strstr函数介绍 在C语言的库函数里面有一个函数叫做strstr 这个函数的作用是在一个字符串中判断是
  • 【第59篇】RegNet:设计网络设计空间

    文章目录 摘要 1 介绍 2 相关工作 3 设计空间设计 3 1 设计空间设计的工具 3 2 AnyNet设计空间 3 3 RegNet设计空间 3 4 设计空间概化 4 分析RegNetX设计空间 5 与现有网络的比较 5 1 最先进的比
  • java基于SpringBoot+Vue+nodejs的高校自动排课系统 Element-UI

    自动排课系统也都将通过计算机进行整体智能化操作 对于自动排课系统所牵扯的管理及数据保存都是非常多的 例如 1 管理员 首页 个人中心 学生管理 教师管理 班级信息管理 专业信息管理 教室信息管理 课程信息管理 排课信息管理 系统管理 2 学
  • 微信外环境静态h5跳转小程序,如何传参?

    公司最近提了一个不常见的需求 就是在微信外环境静态h5跳转小程序并且还要传参 在查阅了大量资料后成功解决 官网地址 静态网站 H5 跳小程序 一 环境准备 1 开通微信云开发和静态网站 点击微信开发者工具中的云开发 现在是可以免费体验1个月
  • mysql中文乱码解决方案_Mysql中文乱码解决方案

    Mysql中文乱码解决方案 时间 2017 07 11 来源 华清远见JAVA学院 中文乱码问题一直是我们编程过程中比较常见又让人头疼的问题 但是只要按照标准进行配置 就能很好的避免出现中文乱码问题 今天小编就和大家分享下Mysql中文乱码
  • 统计学基础-数据的图表展示

    理论基础 什么是统计学 统计学分为描述统计和推理统计 统计学研究什么 统计学没有固定的研究对象 统计学研究的是来自各个领域的数据 靠解决其他领域内的工作而生存 我们并不能因此就看轻统计学 就好像计算机现在渗透在各行各业 我们生活中的方方面面