熊猫显示的百分位错误吗?

2024-01-04

我正在使用这个 WNBA 数据集here https://www.kaggle.com/jinxbe/wnba-player-stats-2017。我正在分析Height变量,下表显示了记录的每个高度值的频率、累积百分比和累积频率:

从表中我可以轻松得出结论,第一个四分位数(第 25 个百分位数)不能大于 175。

但是,当我使用Series.describe(),我听说第 25 个百分位数是 176.5。为什么会这样?

wnba.Height.describe()
count    143.000000
mean     184.566434
std        8.685068
min      165.000000
25%      176.500000
50%      185.000000
75%      191.000000
max      206.000000
Name: Height, dtype: float64

有多种方法可以估计分位数。
175.0 与 176.5 涉及两种不同的方法:

  1. 包括 Q1(给出 176.5)和
  2. 排除 Q1(给出 175.0)。

估计差异如下

#1
h = (N − 1)*p + 1 #p being 0.25 in your case
Est_Quantile =  x⌊h⌋ + (h − ⌊h⌋)*(x⌊h⌋ + 1 − x⌊h⌋)

#2
h = (N + 1)*p   
x⌊h⌋ + (h − ⌊h⌋)*(x⌊h⌋ + 1 − x⌊h⌋) 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

熊猫显示的百分位错误吗? 的相关文章

随机推荐