Python Pandas - 手动分位数计算

2023-12-28

我正在尝试手动计算列值的分位数,但与 Pandas 的结果输出相比,无法使用公式手动找到正确的分位数值。 我四处寻找不同的解决方案,但没有找到正确的答案

In [54]: df

Out[54]:
    data1   data2       key1    key2
0 -0.204708 1.393406    a       one
1 0.478943  0.092908    a       two
2 1.965781  1.246435    a       one

In [55]: grouped = df.groupby('key1')
In [56]: grouped['data1'].quantile(0.9)
Out[56]:
key1
a 1.668413

使用公式手动查找,n为3,因为data1列中有3个值

quantile(n+1)

应用 df1 列的值

=0.9(n+1) 
=0.9(4)
= 3.6

所以第3.6位是1.965781,那么pandas如何给出1.668413呢?


功能quantile将根据您的数据范围分配百分比。

在你的情况下:

  • -0.204708 将被视为第 0 个百分位数,
  • 0.478943 将被视为第 50 个百分位数,
  • 1.965781 将被视为第 100 个百分位数。

因此,您可以通过以下方式计算第 90 个百分位数(使用第 50 个百分位数和第 100 个百分位数之间的线性插值:

>>import numpy as np

>>x =np.array([-0.204708,1.965781,0.478943])
>>ninetieth_percentile = (x[1] - x[2])/0.5*0.4+x[2]
>>ninetieth_percentile    
1.6684133999999999

请注意,值 0.5 和 0.4 来自以下事实:数据的两个点跨越了数据的 50%,而 0.4 表示高于您希望查找的 50% 的量 (0.5+0.4 = 0.9)。希望这是有道理的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python Pandas - 手动分位数计算 的相关文章

  • 使用python查找txt文件中字母出现的次数

    我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数 到目前为止 我已经能够在一行中打印内容 但计数有问题 有人可以指导吗 infile open grades txt content infile read for char
  • 将非常大的Python列表输出保存到mysql表中

    我想将 python 生成的列表的输出保存在 mysql 数据库的表中 该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码 在此输入图像描述 https
  • 将 numpy 数组合并为单个 int

    numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字 如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
  • 从 Azure ML 实验中访问 Azure Blob 存储

    Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块 但是 我需要将 JSON 文件写入 blob 存储 由于没有模块可以执行此操作 因此我尝试在Ex
  • 使用 Django 将文件异步上传到 Amazon S3

    我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
  • 无法在 selenium 和 requests 之间传递 cookie,以便使用后者进行抓取

    我用 python 结合 selenium 编写了一个脚本来登录网站 然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
  • 如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象?

    当对 Pandas groupby 操作的结果执行过滤时 它返回一个数据帧 但假设我想执行进一步的分组计算 我必须再次调用 groupby 这似乎有点绕 有更惯用的方法吗 EDIT 为了说明我在说什么 我们无耻地从 Pandas 文档中窃取
  • 使用 Paramiko 进行 DSA 密钥转发?

    我正在使用 Paramiko 在远程服务器上执行 bash 脚本 在其中一些脚本中 存在与其他服务器的 ssh 连接 如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用 以连接
  • Arcpy 模数在 Pycharm 中不显示

    如何将 Arcpy 集成到 Pycharm 中 我尝试通过导入模块但它没有显示 我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引 上不可用 因此无法通过 pip 安装 要使用 arcpy 您需要
  • python 中的 <> 运算符有什么作用?

    我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做 为什么不使用通常的
  • Python HMAC:类型错误:字符映射必须返回整数、None 或 unicode

    我在使用 HMAC 时遇到了一个小问题 运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
  • Python将文本文件解析为嵌套字典

    考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
  • 查找 Pandas DF 行中的最短日期并创建新列

    我有一个包含多个日期的表 有些日期将为 NaN 我需要找到最旧的日期 所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等 因此 对于每一行 一个或多个字段中都会有一个日期
  • 在骨架图像中查找线 OpenCV python

    我有以下图片 我想找到一些线来进行一些计算 平均长度等 我尝试使用HoughLinesP 但它找不到线 我能怎么做 这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
  • 使用另一个数据帧在数据帧中创建子列

    我对 python 和 pandas 很陌生 在这里 我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
  • Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

    我看不出以下两行之间有显着差异 然而第一个解析 而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
  • 如何在亚马逊 EC2 上调试 python 网站?

    我是网络开发新手 这可能是一个愚蠢的问题 但我找不到可以帮助我的确切答案或教程 我工作的公司的网站 用 python django 构建 托管在亚马逊 EC2 上 我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库 我有帐户信
  • Django 管理器链接

    我想知道是否有可能 如果可以的话 如何 将多个管理器链接在一起以生成受两个单独管理器影响的查询集 我将解释我正在研究的具体示例 我有多个抽象模型类 用于为其他模型提供小型的特定功能 其中两个模型是DeleteMixin 和GlobalMix
  • 带 Flask 的 RPI dht22:无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

    我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度 整个代码 from flask import Flask jsonify request from sds011 import SDS01
  • rpy2 无法加载外部库

    希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包 该包以 rJava 作为依赖项 venneuler 和 rJa

随机推荐

  • 可以将方程的表达式放在其图形表示附近吗?

    当我在 Mathematica 中绘制一个函数时 它是否有可能自动将其方程 即 y 2x 或什至其他文本放在其附近 乍一看我没有找到任何选项 但如果有的话我想知道 Thanks 使用 Mathematica 6 或更高版本 我经常使用Too
  • 在不使用 strcmp 的情况下将 char* 与字符串进行比较

    我正在尝试将 char 的内容与字符串进行比较 我可以打印内容 但无法比较它们 include
  • eclipse ubuntu 18.04安装java.lang.ClassNotFoundException:

    安装了eclipse和Java8 但它不起作用 当尝试运行它时 会发生以下错误 发生了错误 看日志文件 home shield eclipse org eclipse platform 3 8 155965261 configuration
  • Laravel 资源通过 ajax 销毁

    我可以通过ajax使用资源吗 我有这个资源 Route resource dashboard DashBoardController js file ajax type delete dataType json data id id url
  • 仅授予视图权限

    我的数据库中有一个用户 我想授予他只读一个视图的权限 仅此而已 没有表 什么都没有 我怎样才能做到这一点 多谢 PS 我使用的是 MS SQL Server 2005 USE DB1 GRANT SELECT ON OBJECT View1
  • 使用 Rspec 2 和 Devise 测试 Rails 3 中的助手

    我的帮助程序代码如下所示 并且工作正常 module ProvidersHelper def call to review provider if user signed in review Review find by provider
  • Android Studio 中的 R.java 文件在哪里?

    Android Studio 中的 R java 文件在哪里 有人可以帮忙解决这个问题吗 我已经尝试过谷歌寻找答案 但找不到任何解决方案 Based on the new stable release of Android Studio 3
  • ASP.NET WebApi 和部分响应

    我正在开发一个 ASP NET WebApi 项目 老板希望返回支持 部分响应 这意味着虽然数据模型可能包含 50 个字段 但客户端应该能够请求响应的特定字段 原因是 如果他们要实现一个列表 他们根本不需要所有 50 个字段的开销 他们可能
  • NGINX 容器路由:Nginx 不会重定向到 docker 容器

    我是网络服务器领域的新手 我正在设置一个服务器 example de 为两个不同的 Docker 化应用程序提供服务 暴露的端口3000 app1 和5000 app2 分别映射到服务器端口9000和9001 请求 url example
  • 有没有办法使用 Visual Studio Code 查看 git diff 与 origin/master 的差异?

    使用 Visual Studio Code 版本 1 11 2 我可以通过单击源代码控制左侧面板中的按钮 但是 一旦我将这些更改提交到本地存储库 我就无法找到一种方法来查看与 origin master 相同的并排差异 换句话说 有没有办法
  • ReentrantLock.lock() 不会阻塞其他线程

    我很难理解 ReentrantLock lock 的行为 我有以下课程 import java util concurrent locks class BlockingClass private Lock lock new Reentran
  • 休息框架“元组”对象没有属性“_meta”

    Django 抛出下一个异常 休息框架 元组 对象没有属性 meta Model class BDetail models Model lat models FloatField blank True null True lng model
  • 如何批量更改系统区域设置

    所以我试图制作一个 kirikiri 日本虚拟小说创作者 但除非系统区域设置是日语 否则小说不会运行 我知道如何手动完成 但我想创建一个批量写入的程序来加快速度 您可以从像这样的命令行 http www oracle com technet
  • Android MediaPlayer 已暂停,音量按钮无法控制多媒体

    我使用在 Internet 上找到的示例代码播放了示例音乐 mp3 代码是这样的 MediaPlayer mp new mp setDataSource mp setAudioStreamType mp prepare mp start 问
  • Chrome、Firefox 和 Safari 中的 DOCTYPE 和 BackCompat 模式与 CSS1Compat 模式有何区别?

    我倾向于认为 如果没有DOCTYPE IE 将会出现问题 因为如果没有DOCTYPE 它会使用 IE 的盒子模型以 Quirk 模式渲染页面上的项目 我知道我们应该始终放入DOCTYPE 但这里的关键问题是 如果由于某种原因 当我们分析第三
  • 求解线性回归的梯度下降法和正规方程法给出了不同的解

    我正在研究机器学习问题 并希望使用线性回归作为学习算法 我实现了两种不同的方法来查找参数theta线性回归模型 梯度 最速 下降和正态方程 对于相同的数据 他们应该给出大致相等的theta向量 然而他们没有 Both theta除了第一个元
  • 无法确定元数据,因为语句“插入”

    我有一个 select 语句 其中创建了 2 个临时表 并在从这些临时表中获取数据之前插入 select 在它们之间创建联接 最终的选择就是我想要的元数据 在 ssms 中它运行良好 在 ssis 中我不知道为什么它会抛出该错误 查询是这样
  • jquery datatables actionlink如何添加

    我过去几个小时一直在搜索 不幸的是我似乎找不到如何使用 net 和 MVC 使用操作编辑和删除链接列填充数据表的示例 这是我到目前为止所拥有的 如何添加操作链接 我缺少什么 div div table table div div
  • Trie 与 B+ 树

    Trie 树和 B 树在索引按字典顺序排序的字符串时如何比较 大约数十亿 它也应该支持范围查询 从性能 以及实现复杂性的观点 我想说这取决于你的意思Range 如果你的范围表示为所有单词开头为 那么一个Trie我想说的是正确的选择 另一方面
  • Python Pandas - 手动分位数计算

    我正在尝试手动计算列值的分位数 但与 Pandas 的结果输出相比 无法使用公式手动找到正确的分位数值 我四处寻找不同的解决方案 但没有找到正确的答案 In 54 df Out 54 data1 data2 key1 key2 0 0 20