数据分布的特征可以从集中趋势,离中趋势,偏态和峰态三个方面进行描述
一.集中趋势(位置)
是一组平均指标,它反映了总体的一般水平或分布
1.平均数
分为:简单平均数(均值),加权平均数,几何平均数
特点:是集中趋势最常用的测度值;是一组数据的均衡点所在;易受极端值影响;用于数值型数据,不能用于分类数据和顺序数据
简单平均数
加权平均数
几何平均数
主要用于计算平均增长率
2.中位数
排序后处于中间位置上的值
主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
不受极端值的影响
3.众数
一组数据中出现次数最多的数据值
一组数据可能没有众数或有多个众数
适合数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用
二.离中趋势(分散程度)
是一组变异指标,主要是用来刻画总体分布的变异状况或离散程度
1.极差
是一组数据的最大值和最小值之差
特点:极差越大,离散程度越大;离散程度最简单的测度值;易受极端值影响;未考虑数据的分布
2.平均差
是各变量与均值差的平均数,即平均差异,反映一组数据的离散程度
特点:各变量与均值差的绝对值的平均数;数学性质较差,实际应用较少;未考虑数据的分布
3.方差
反映的是各变量与均值差的平均差异,是数据离散程度最常用的测度值
总体方差:根据总体数据计算的
样本方差:根据样本数据计算的
4.标准差
是方差的算术平方根,也是数据离散程度常用的测度
5.变异系数
是标准差与其对应的均值之比
用于对不同组别的数据比较其离散程度
当比较两组数据离散程度时:如果他们的平均数相同,可以直接利用标准差来比较,标准差越大,离散程度越大;但如果平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(即变异系数)来比较
三.偏态和峰态(形状)
反映数据总体分布形态的指标
偏态:反映数据分布不对称的方向和程度
峰态:反映数据分布图的尖峭程度或扁平程度
1.偏态系数
是数据分布偏斜程度的测度
偏态系数 = 0时:对称分布
偏态系数 > 0时:右偏分布
偏态系数 < 0时:左偏分布
2.峰态系数
是数据分布尖峭程度的测度
峰态系数 = 0时:峰度适中
峰态系数 > 0时:尖峰分布
峰态系数 < 0时:偏平分布
四.数据标准化
定义:数据指数化
意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权
0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间
z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)