Pandas 用 NaN 描述 vs scipy.stats percentileofscore？

2024-01-17

我遇到了一个奇怪的情况，pd.describe 给我的百分位数标记与 scipy.stats percentileofscore 不一致，我认为是因为 NaN。

我的 df 是：

      f_recommend
0     3.857143
1     4.500000
2     4.458333
3          NaN
4     3.600000
5          NaN
6     4.285714
7     3.587065
8     4.200000
9          NaN

当我跑步时df.describe(percentiles=[.25, .5, .75]) I get:

       f_recommend
count     7.000000
mean      4.069751
std       0.386990
min       3.587065
25%       3.728571
50%       4.200000
75%       4.372024
max       4.500000

当我删除 NaN 运行时，我得到相同的值。

但是，当我想查找特定值时，当我运行时scipy.stats.percentileofscore(df['f_recommend'], 3.61, kind = 'mean')我得到：有 NaN 的第 28 个百分位，没有 NaN 的第 20 个百分位。

有什么想法可以解释这种差异吗？

ETA:

我不认为问题在于我们计算百分位数的方式不同。因为只有当您以不同的方式计算相同的两个数字的百分位数时，这才重要。但在这里，describe 给出的 25 个百分位为 3.72。所以 3.61 绝对不可能是第 28 个百分位。没有一个公式可以给出这一点。

特别是，当我对不带 NaN 的 6 个值使用描述时，我得到相同的值，因此忽略 NaN，这很好。但是当我在没有 NaN 的情况下运行分数百分位时，我得到一个不匹配的数字。

ETA 2:

更简单的例子：

In [48]: d = pd.DataFrame([1,2,3,4,5,6,7])

In [49]: d.describe()
Out[49]: 
              0
count  7.000000
mean   4.000000
std    2.160247
min    1.000000
25%    2.500000
50%    4.000000
75%    5.500000
max    7.000000

In [50]: sp.stats.percentileofscore(d[0], 2.1, kind = 'mean')
Out[50]: 28.571428571428573

“kind”参数并不重要，因为 2.1 是唯一的。

scipy.stats.percentileofscore不忽略nan，也不检查该值并以某种特殊方式处理它。它只是数据中的另一个浮点值。这意味着行为percentileofscore数据包含nan是未定义的，因为nan比较中：

In [44]: np.nan > 0
Out[44]: False

In [45]: np.nan < 0
Out[45]: False

In [46]: np.nan == 0
Out[46]: False

In [47]: np.nan == np.nan
Out[47]: False

这些结果都是正确的——就是这样nan应该表现得好。但这意味着，为了知道如何percentileofscore把手nan，你必须知道代码是如何进行比较的。这是您不必知道的实现细节，并且您不能依赖它在 scipy 的未来版本中相同。

如果您调查以下行为percentfileofscore，你会发现它的行为就像nan是无限的。例如，如果您替换nan如果值大于输入中的任何其他值，您将得到相同的结果：

In [53]: percentileofscore([10, 20, 25, 30, np.nan, np.nan], 18)
Out[53]: 16.666666666666664

In [54]: percentileofscore([10, 20, 25, 30, 999, 999], 18)
Out[54]: 16.666666666666664

不幸的是，您不能依赖这种行为。如果将来实施方式发生变化，nan最终可能表现得像负无穷大，或者有一些其他未指定的行为。

解决这个“问题”的办法很简单：不给percentileofscore any nan价值观。您必须先清理数据。请注意，这可以很简单：

result = percentileofscore(a[~np.isnan(a)], score)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 用 NaN 描述 vs scipy.stats percentileofscore？的相关文章

如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

java web 服务的推荐框架[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从一个文件绘制多个数据集

注意我可以控制数据文件的格式但它必须是单个文件我正在尝试使用 gnuplot 在同一个图表上绘制多个数据集理想情况下我想绘制这样的东西 data 1 0 0 data 2 0 0 data 1 1 1 data 2 0 1 data
解析json数组？

我有一个如下所示的 JSON agentsArray ID 570 picture 03803 png name Bob ID 571 picture 02103 png name Tina 现在我试图循环每个数组元素使用qt json图
如何在 C# 中同时将控制台输出到多个流？

我有一个程序它获取控制台输出并将其写入日志文件但它不再显示在控制台窗口中有没有办法将其保留在窗口中但也将其写入日志文件 Update appLogStream new FileStream logFile FileMode Appe
MacOSbrew安装libsndfile但仍然找不到

我刚刚从 Windows 切换到 Mac 并且尝试使用 brew 为我的一个 C 项目安装 libsndfile 但安装后仍然显示终端中找不到错误我似乎无法弄清楚为什么 brew install libsndfilelibsndfile
Azure - 在 Java Spring Boot 中使用用户管理身份访问 Key Vault：错误详细信息：ManagedIdentityCredential 身份验证不可用？

我有一个 Java Spring boot 应用程序仅从 Azure Key Vault 读取机密以下是使用的步骤创建了应用程序注册复制应用程序注册详细信息生成的秘密授予对 Azure Key Vault 的访问权限下面是我的
底部导航上方的底部工作表

我的目标是将底页放在BottomNavigationView像这样但它仍然保持以下方式两种观点都崩溃了这是我的主要活动的 xml
OAuth2 装饰器 oauth 感知强制身份验证

我对两者之间区别的理解oauth aware and oauth required就是它aware不强制授权同时required确实如此但这不是我在实践中看到的我有下面两个 webapp RequestHandlers 其中之一get
使用 .Net Socket 从 http 服务器下载并保存文件

大家好我想知道如何下载文件并将其保存到我的硬盘上特别是zip使用以下命令从 HTTP 服务器获取文件System Net Socket Sockets class 我知道有更简单的方法下载文件使用 Net 但我想知道该怎么做带插座当然
如何在 SQL Server Express Edition 中启动并运行分析服务

我被这个问题困扰得很厉害我正在运行 Microsoft SQL Server 2008 R2 和 Business Intelligence Development Studio 我被分配了一个分析项目现在碰巧我有一个 Express
支持 RavenDB 的 MVC4 会员系统

我创建了很多快速的概念验证 MVC 应用程序实际上我发现随 MVC4 模板一起提供的 SimpleMembership 提供程序非常方便因为它可以让我在几分钟内启动并运行用户注册和 OAuth 但是我已经开始使用RavenDb 在R
实现由 WebBrowser 控件调用的 IDispatch::Invoke

我正在尝试按照他们的解释去做this http msdn microsoft com en us library aa770041 28VS 85 29 aspx Controlling Download and Execution文章在C
Weka 的主成分分析

我刚刚在训练集上计算了 PCA Weka 返回了新属性及其选择和计算方式现在我想使用这些数据构建一个模型然后在测试集上使用该模型不知道有没有办法根据新的属性类型自动修改测试集您是否需要主成分进行分析或仅将其输入分类器如果不是只
为什么在活动之间访问变量时不首选 getter？

每天都会有很多这样的问题type https stackoverflow com questions 10978788 how to share variables between classes in java comment143390
将ApplicationDbContext注入到Startup中的Configure方法中

我正在使用 EntityFrameworkCore 2 0 0 preview2 final 我想将 ApplicationDbContext 注入 Startup 类中的 Configure 方法这是我的代码 public void C
如何将 Vite 构建包装在 IIFE 中，并且仍然将所有依赖项捆绑到单个文件中？

我正在使用 Vite 作为构建工具构建 chrome 扩展主要问题在缩小和修改过程中创建了很多全局变量将我的脚本注入页面后它们与窗口对象上已定义的变量发生冲突我想完美的解决方案是将我的整个脚本封装在 IIFE 中我尝试使用esb
在 XUL 中捕获可编辑的树更改

我有一个动态构建的可编辑 XUL 树问题是如何监听和捕捉变化的单元格我通过捕获来检测编辑值的提交blur事件的tree inputField 任何其他事件都不起作用至少它是有效的但是有没有一种简单的方法来检索新的价值呢它真的应该
按条件和列中的最小值过滤 Pandas 数据框

我有一个类似的数据框 test a test b metric e 0 OK NOK 12 1 OK OK 7 2 OK NOK 2 3 OK OK 55 我想按一个条件进行过滤这意味着test a OK并捕获最小值metric e 我可
php PDO::FETCH_ASSOC 在存储过程中备份后未检测到选择

我有一个存储过程它会进行备份然后在出现错误或类似情况时返回 1 或 0 Create procedure dbo sp IWBackup as begin declare route varchar 500 answer int 0 s
Pandas 用 NaN 描述 vs scipy.stats percentileofscore？

我遇到了一个奇怪的情况 pd describe 给我的百分位数标记与 scipy stats percentileofscore 不一致我认为是因为 NaN 我的 df 是 f recommend 0 3 857143 1 4 50000

Pandas 用 NaN 描述 vs scipy.stats percentileofscore？

Pandas 用 NaN 描述 vs scipy.stats percentileofscore？ 的相关文章

随机推荐

热门标签

Pandas 用 NaN 描述 vs scipy.stats percentileofscore？的相关文章