箱线图

2023-11-02

以前对箱线图一直一知半解,这次在网上找到一篇不错的文章。

首先,箱形图更多用于多组数据的比较,相对直方图不仅节省了空间,还可以展示出许多直方图不能展示的信息。单组数据则更适合采用直方图,使可视化效果更加直观。

文章来源于“镝次元”公众号,在此向作者表示感谢。

不会数学统计没关系——5分钟教你轻松掌握箱线图 | 图表家族#24

2018-01-22 19:00

编辑:王艺 版面:胡曼君

箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。

小小箱子,大大信息量

箱线图(Box plot)也称箱须图(Box-whisker Plot)、箱线图、盒图,可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围,因形状如箱子而得名。1977年,美国著名数学家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介绍了箱形图。

图片来源:CHAPTER 1. EXPLORATORY DATA ANALYSIS

注:

连续型数据:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的。例如,生产零件的规格尺寸,人体测量的身高、体重等,其数值只能用测量或计量的方法取得。可视化这类数据的图表主要有箱形图和直方图。

离散型数据:数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,数值一般用计数方法取得。大多数图表可视化的都是这类数据,比如柱状图、折线图等。

在箱线图中,箱子的中间有一条线,代表了数据的中位数。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。

由于箱线图不像柱状图、折线图那样简单常见,许多人都对它敬而远之。但只要我们搞清楚了以下几个统计学的基本概念,箱线图也可以变得“平易近人”。

01

四分位数

一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

02

偏态

与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。

魔法箱子,会用才是王道

箱线图包含的元素虽然有点复杂,但也正因为如此,它拥有许多独特的功能:

01

直观明了地识别数据批中的异常值

箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。

02

判断数据的偏态和尾重

对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

03

比较多批数据的形状

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。

凭借着这些“独门绝技”,箱线图在使用场景上也很不一般,最常见的是用于质量管理、人事测评、探索性数据分析等统计分析活动。

案例1:职员薪酬分布

下图是不同地区数据分析师的薪酬统计情况。

图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。

案例2:学生成绩分布

分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都出于80分以下。

有时候我们会发现箱形图的某一部分仿佛被隐藏了,比如下图的第一个箱子。

除此之外还有一些极端情况,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多异常值。这些情况的出现,有两个常见的原因。第一,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二,样本数据特别少,因此箱体受单个数据的影响被放大了。

案例3:运动员水平分析

下面是一个箱线图演变过来的案例。从图中我们可以看到,在速度、敏捷、爆发、力量和身体指标五个方面近十年NBA选秀体侧数据的最值、正常水平(盒身)和中值(中位数),其中黄色标注的是周琦的个人数据。

综合来看,周琦的体测数据基本达到了NBA中锋的正常水准。在绕桩变向和禁区折返跑这两项敏捷度测试中,周琦表现不俗,有着超越常规NBA中锋的水准。中锋最重要的垂直纵跳一项,周琦也超出了联盟中锋的正常范围。身体素质上,周琦的身高臂展以及体脂水平都可以算得上顶尖。然而从体重这一项我们可以推测,周琦最大的问题在于他的力量。他必须尽快增重,增强自己的身体对抗能力以适应NBA的对抗强度。

案例4:科学研究分析

箱形图最初的诞生无疑是为科研工作量身打造的,在诸多论文中都可以看到箱形图的使用。下图显示了世界各地地表水中29种不同个人护理产品的浓度分布情况。针对所测量的个人护理产品,中位数浓度通常在0.01和0.1 μg / L之间。

图片来源:著名科学传播网站AtlasfScience

箱子虽好,别傻傻分不清楚

1. 误差线

一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。

2. K线图

K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。具体含义如下:

值得注意的是,箱形图更多用于多组数据的比较,相对直方图不仅节省了空间,还可以展示出许多直方图不能展示的信息。单组数据则更适合采用直方图,使可视化效果更加直观。

更多镝数使用问题请参看以下文章,如果仍有无法解决的问题,请发送邮件至public@dydata.io或者直接在后台留言。

参考来源

https://atlasofscience.org/active-ingredients-in-personal-care-products-detected-throughout-the-environment/

https://www.bloomberg.com/news/articles/2014-07-14/whites-account-for-the-entire-jump-in-heroin-deaths

https://antv.alipay.com/zh-cn/vis/chart/k-chart.html

https://mp.weixin.qq.com/s/watt4veiF3NVw2cBpF3f8w

https://pdfs.semanticscholar.org/2f40/fd06bc9fd00a27437e14ed171e96e4fd9326.pdf

http://edu.dataguru.cn/forum.php?mod=viewthread&tid=270177

https://mp.weixin.qq.com/s/zmE299d5Qhb6_gAWm_8YKA

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

箱线图 的相关文章

  • Atitit. 有限状态机 fsm 状态模式

    Atitit 有限状态机 fsm 状态模式 1 有限状态机 1 2 状态表 和 状态轮换表 1 3 有限状态机概念 状态 State 事件 Event 转换 Transition 动作 Action 2 4 状态机的应用场景 2 4 1 有

随机推荐

  • 运行monkeyrunner报 ANDROID_SWT set error

    运行monkeyrunner报错 Please set ANDROID SWT to point to the folder containing swt jar for your platform 原因 monkeyrunner 找不到s
  • 《A Survey on Visual Transformer》阅读笔记

    文章目录 前言 一 用于视觉的transformer介绍 1 transformer发展的关键节点如下 视觉相关的transformer用红色标记 2 用于视觉的transformer代表性成果 二 transformer模型 1 原始tr
  • 【python爬虫】7.爬到的数据存到哪里?

    文章目录 前言 存储数据的方式 存储数据的基础知识 基础知识 Excel写入与读取 基础知识 csv写入与读取 项目 存储周杰伦的歌曲信息 复习 前言 上一关我们以QQ音乐为例 主要学习了如何带参数地请求数据 get请求 和Request
  • Web服务器、Servlet容器和Servlet

    1 什么是Web服务器 想要知道什么是Servlet容器 我们首先要知道什么是Web服务器 Web服务器使用HTTP协议来传输数据 最简单的一种情况是 用户在浏览器 客户端 client 中输入一个URL 如 www programcree
  • 「React 深入」一文吃透React v18 全部 Api(1.3w+ 字)

    点击上方 前端Q 关注公众号 回复加群 加入前端Q技术交流群 大家好 我是小杜杜 俗话说的好 工欲善其事必先利其器 什么意思呢 就是说你想玩转React就必须知道React有什么 无论是否运用到 首先都要知道 提升思维广度 其实React官
  • 教你如何测试局域网网速

    网络管理员最常遇到的问题就是网络连接问题 也许公司员工的计算机无法上网那么我们可以通过简单的几步就检测到问题所在 但有一种网络连接问题却让我们无所适从 那就是员工反映网络速度缓慢 因为决定网络速度的因素很多 不可能通过简单的操作检测出速度的
  • SpringBoot 将项目打包成 jar 包

    SpringBoot 将项目打包成 jar 包 一 项目打包成 jar 包 首先在 pom xml 文件中导入 Springboot 的 maven 依赖
  • java对redis的基本操作

    原文地址 http www cnblogs com edisonfeng p 3571870 html 一 server端安装 1 下载 https github com MSOpenTech redis 可看到当前可下载版本 redis2
  • SDN NSX-T 配置load balance

    配置负载均衡 创建一个T1网关 选择Edge池分配大小 配置T1服务接口 展开 服务接口 单击 设置 配置服务接口的名称 IP地址 连接的分段 配置完成后点击 保存 在NSX T Manager中 转到 网络 gt 网络服务 gt 负载均衡
  • 满二叉树等长路径

    满二叉树等长路径 给定一个深度为 n 的满二叉树 其 2n 11 个顶点的编号为 1 2n 11 树的根节点为 1 号节点 除根节点外 第 i 号节点的父节点为第 i2 号节点 例如 当 n 3 时 二叉树如下所示 树中每条边的长度已知 由
  • 图的广度优先搜索(bfs)

    图的广度优先搜索 Broad First Search 所谓的深度优先搜索 指的是在搜索时 如果遇到一个结点既有子结点 又有兄弟结点 那么先找兄弟结点 然后找子结点 类似于一个分层搜索的过程 广度优先遍历需要使用一个队列以保持访问过的结点的
  • 在浏览器输入URL后发生了什么?

    在浏览器输入URL并获取响应的过程 其实就是浏览器和该url对应的服务器的网络通信过程 从封装的角度来讲 浏览器和web服务器执行以下动作 简单流程 1 浏览器先分析超链接中的URL 分析域名是否规范 2 浏览器向DNS请求解析请求解析ht
  • 超低功耗摄像头 门锁 猫眼

    超低功耗摄像头 门锁 猫眼 简介 介绍一款超低功耗的CMOS 图像传感器 有着超低的功耗 非常适合用在电池供电的系统中 下面先贴一下具体核心参数 分辨率 324 244 传感器大小 1 11 图像 支持彩色 黑白 数据接口 DVP 输出格式
  • 2021年第十二届蓝桥杯省赛+国三C/C++B组参赛经历分享

    目录 一些流水账 备赛总结 语言选择 一些问题 牢骚 最近蓝桥杯报名又开始了 先预祝家人们能取得好成绩 一些流水账 按照惯例 先简单地自我介绍一下 本人就读于西南某不知名双非院校 计算机弱校 不是凡尔赛 专业为计科 参赛时为大二下学期 大二
  • 自动化点击操作:Python实现简易连点器及HTML测试

    这段Python代码实现了自动鼠标点击功能 通过调用pyautogui库和time库中的函数 实现了鼠标点击时间间隔的控制和延时操作 此外 借助threading库中的多线程技术 实现了点击操作和取消操作的同步执行 同时支持自动取消点击的功
  • 解决FATAL ERROR L250:CODE SIZE LIMIT IN RESTRICTED VERSION EXCEEDED ,

    按照网上的资料 解决FATAL ERROR L250 CODE SIZE LIMIT IN RESTRICTED VERSION EXCEEDED 没有成功 先说这个问题的根本是没配置好 思路一 具体当然还是要按照大部分的经验来试 以管理员
  • libevent 源码分析丨libevent组件构成以及编程要领

    1 前言 Libevent是一个轻量级的开源高性能网络库 使用者众多 研究者更甚 相关文章也不少 写这一系列文章的用意在于 一则分享心得 二则对libevent代码和设计思想做系统的 更深层次的分析 写出来 也可供后来者参考 文章较长 建议
  • python写几种base加解密

    源代码 import base64 def b64encode basec PlainText basec encode utf 8 a base64 b64encode PlainText CipherText a decode utf
  • 上面高度自定义,下面表格自适应的flex布局

    问题描述 整体布局为上面有自定义查询 高度变化 下面是封装的表格 分页组件 外布局不滚动 overflow hidden 表格高度固定死了导致分页无法显示 解决方法 用div包裹表格组件 内部表格与分页均设置position absolut
  • 箱线图

    以前对箱线图一直一知半解 这次在网上找到一篇不错的文章 首先 箱形图更多用于多组数据的比较 相对直方图不仅节省了空间 还可以展示出许多直方图不能展示的信息 单组数据则更适合采用直方图 使可视化效果更加直观 文章来源于 镝次元 公众号 在此向