Python Pandas - 手动分位数计算

2023-12-28

我正在尝试手动计算列值的分位数，但与 Pandas 的结果输出相比，无法使用公式手动找到正确的分位数值。我四处寻找不同的解决方案，但没有找到正确的答案

In [54]: df

Out[54]:
    data1   data2       key1    key2
0 -0.204708 1.393406    a       one
1 0.478943  0.092908    a       two
2 1.965781  1.246435    a       one

In [55]: grouped = df.groupby('key1')
In [56]: grouped['data1'].quantile(0.9)
Out[56]:
key1
a 1.668413

使用公式手动查找，n为3，因为data1列中有3个值

quantile(n+1)

应用 df1 列的值

=0.9(n+1) 
=0.9(4)
= 3.6

所以第3.6位是1.965781，那么pandas如何给出1.668413呢？

功能quantile将根据您的数据范围分配百分比。

在你的情况下：

-0.204708 将被视为第 0 个百分位数，
0.478943 将被视为第 50 个百分位数，
1.965781 将被视为第 100 个百分位数。

因此，您可以通过以下方式计算第 90 个百分位数（使用第 50 个百分位数和第 100 个百分位数之间的线性插值：

>>import numpy as np

>>x =np.array([-0.204708,1.965781,0.478943])
>>ninetieth_percentile = (x[1] - x[2])/0.5*0.4+x[2]
>>ninetieth_percentile    
1.6684133999999999

请注意，值 0.5 和 0.4 来自以下事实：数据的两个点跨越了数据的 50%，而 0.4 表示高于您希望查找的 50% 的量 (0.5+0.4 = 0.9)。希望这是有道理的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

statistics

quantile

Python Pandas - 手动分位数计算的相关文章

使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa

随机推荐

可以将方程的表达式放在其图形表示附近吗？

当我在 Mathematica 中绘制一个函数时它是否有可能自动将其方程即 y 2x 或什至其他文本放在其附近乍一看我没有找到任何选项但如果有的话我想知道 Thanks 使用 Mathematica 6 或更高版本我经常使用Too
在不使用 strcmp 的情况下将 char* 与字符串进行比较

我正在尝试将 char 的内容与字符串进行比较我可以打印内容但无法比较它们 include
eclipse ubuntu 18.04安装java.lang.ClassNotFoundException：

安装了eclipse和Java8 但它不起作用当尝试运行它时会发生以下错误发生了错误看日志文件 home shield eclipse org eclipse platform 3 8 155965261 configuration
Laravel 资源通过 ajax 销毁

我可以通过ajax使用资源吗我有这个资源 Route resource dashboard DashBoardController js file ajax type delete dataType json data id id url
仅授予视图权限

我的数据库中有一个用户我想授予他只读一个视图的权限仅此而已没有表什么都没有我怎样才能做到这一点多谢 PS 我使用的是 MS SQL Server 2005 USE DB1 GRANT SELECT ON OBJECT View1
使用 Rspec 2 和 Devise 测试 Rails 3 中的助手

我的帮助程序代码如下所示并且工作正常 module ProvidersHelper def call to review provider if user signed in review Review find by provider
Android Studio 中的 R.java 文件在哪里？

Android Studio 中的 R java 文件在哪里有人可以帮忙解决这个问题吗我已经尝试过谷歌寻找答案但找不到任何解决方案 Based on the new stable release of Android Studio 3
ASP.NET WebApi 和部分响应

我正在开发一个 ASP NET WebApi 项目老板希望返回支持部分响应这意味着虽然数据模型可能包含 50 个字段但客户端应该能够请求响应的特定字段原因是如果他们要实现一个列表他们根本不需要所有 50 个字段的开销他们可能
NGINX 容器路由：Nginx 不会重定向到 docker 容器

我是网络服务器领域的新手我正在设置一个服务器 example de 为两个不同的 Docker 化应用程序提供服务暴露的端口3000 app1 和5000 app2 分别映射到服务器端口9000和9001 请求 url example
有没有办法使用 Visual Studio Code 查看 git diff 与 origin/master 的差异？

使用 Visual Studio Code 版本 1 11 2 我可以通过单击源代码控制左侧面板中的按钮但是一旦我将这些更改提交到本地存储库我就无法找到一种方法来查看与 origin master 相同的并排差异换句话说有没有办法
ReentrantLock.lock() 不会阻塞其他线程

我很难理解 ReentrantLock lock 的行为我有以下课程 import java util concurrent locks class BlockingClass private Lock lock new Reentran
休息框架“元组”对象没有属性“_meta”

Django 抛出下一个异常休息框架元组对象没有属性 meta Model class BDetail models Model lat models FloatField blank True null True lng model
如何批量更改系统区域设置

所以我试图制作一个 kirikiri 日本虚拟小说创作者但除非系统区域设置是日语否则小说不会运行我知道如何手动完成但我想创建一个批量写入的程序来加快速度您可以从像这样的命令行 http www oracle com technet
Android MediaPlayer 已暂停，音量按钮无法控制多媒体

我使用在 Internet 上找到的示例代码播放了示例音乐 mp3 代码是这样的 MediaPlayer mp new mp setDataSource mp setAudioStreamType mp prepare mp start 问
Chrome、Firefox 和 Safari 中的 DOCTYPE 和 BackCompat 模式与 CSS1Compat 模式有何区别？

我倾向于认为如果没有DOCTYPE IE 将会出现问题因为如果没有DOCTYPE 它会使用 IE 的盒子模型以 Quirk 模式渲染页面上的项目我知道我们应该始终放入DOCTYPE 但这里的关键问题是如果由于某种原因当我们分析第三
求解线性回归的梯度下降法和正规方程法给出了不同的解

我正在研究机器学习问题并希望使用线性回归作为学习算法我实现了两种不同的方法来查找参数theta线性回归模型梯度最速下降和正态方程对于相同的数据他们应该给出大致相等的theta向量然而他们没有 Both theta除了第一个元
无法确定元数据，因为语句“插入”

我有一个 select 语句其中创建了 2 个临时表并在从这些临时表中获取数据之前插入 select 在它们之间创建联接最终的选择就是我想要的元数据在 ssms 中它运行良好在 ssis 中我不知道为什么它会抛出该错误查询是这样
jquery datatables actionlink如何添加

我过去几个小时一直在搜索不幸的是我似乎找不到如何使用 net 和 MVC 使用操作编辑和删除链接列填充数据表的示例这是我到目前为止所拥有的如何添加操作链接我缺少什么 div div table table div div
Trie 与 B+ 树

Trie 树和 B 树在索引按字典顺序排序的字符串时如何比较大约数十亿它也应该支持范围查询从性能以及实现复杂性的观点我想说这取决于你的意思Range 如果你的范围表示为所有单词开头为那么一个Trie我想说的是正确的选择另一方面
Python Pandas - 手动分位数计算

我正在尝试手动计算列值的分位数但与 Pandas 的结果输出相比无法使用公式手动找到正确的分位数值我四处寻找不同的解决方案但没有找到正确的答案 In 54 df Out 54 data1 data2 key1 key2 0 0 20

Python Pandas - 手动分位数计算

Python Pandas - 手动分位数计算 的相关文章

随机推荐

热门标签

Python Pandas - 手动分位数计算的相关文章