pandas 中 groupby 中的排名

2024-03-13

我有一个典型的“面板数据”（在计量经济学术语中，不是 pandas 面板对象）。数据框有一个Date列和一个ID列，以及包含某些值的其他列。对于每个日期，我需要根据 V1 对 ID 进行横断面排名，分为 10 组（十分位数），并创建一个名为的新列rank_col（取值 1 到 10）来确定排名。然后汇集一段时间内的所有rank1、rank2、...rank10，以获得一些统计数据，例如平均值、标准差。

这可以通过以下代码在 SAS 中轻松完成，它也说明了我的目的：

proc sort data=df;
    by Date;
proc rank data=df out=df_ranked groups=10;
    var V1;
    ranks rank_col;
    by Date;
run;

df_ranked与df除了它有更多的列称为rank_col其中包含每行所属的排名组。

抱歉，我没有示例数据来显示结构，需要一个真正的长数据来说明。但 SAS 代码准确地表明了我所追求的。

感谢您的帮助！

我刚刚发现的一种方法：

def grouping(data):
    dec=pd.qcut(data['V1'],10,labels=False)
    data['ranks']=dec
    return data
df_ranked=df.groupby('Date').apply(grouping)

这假设dec保留每一行的正确位置。

如果您有更好的方法，请留言，或者指出该方法中的错误。

Thanks!

Edit：您可以只返回一个新的ranks如果您执行类似以下操作的列：

>>> df


         Date  id  V1
0  2013-01-01   1  10
1  2013-01-01   2   8
2  2013-01-01   3   6
3  2013-01-01   4  11
4  2013-01-01   5  13
5  2013-01-01   6   4
6  2013-01-01   7   2
7  2013-02-01   1   1
8  2013-02-01   2   3
9  2013-02-01   3   9
10 2013-02-01   4  11
11 2013-02-01   5   7
12 2013-02-01   6   4
13 2013-02-01   7   6
14 2013-02-01   8  14

>>> foo = lambda x: pd.Series(pd.qcut(x,10,labels=False),index=x.index)
>>> df['ranks'] = df.groupby('Date')['V1'].apply(foo)
>>> df

         Date  id  V1  ranks
0  2013-01-01   1  10      6
1  2013-01-01   2   8      4
2  2013-01-01   3   6      3
3  2013-01-01   4  11      8
4  2013-01-01   5  13      9
5  2013-01-01   6   4      1
6  2013-01-01   7   2      0
7  2013-02-01   1   1      0
8  2013-02-01   2   3      1
9  2013-02-01   3   9      7
10 2013-02-01   4  11      8
11 2013-02-01   5   7      5
12 2013-02-01   6   4      2
13 2013-02-01   7   6      4
14 2013-02-01   8  14      9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

pandas 中 groupby 中的排名的相关文章

在Python中不断寻找用户输入

我将如何编写一个始终寻找用户输入的 Python 程序我想我希望有一个等于输入的变量然后根据该变量的等于值会发生不同的情况因此如果变量是 w 那么它将执行某个命令并继续执行直到收到另一个输入例如 d 然后会发生不同的情况但直到
如何将 Google Cloud Storage 中的许多文件设为私有？

我进行了很多研究但无法为此提出解决方案以下是我用来在 GCP 中公开所有文件的代码 def make blob public bucket name blob name Makes a blob publicly accessible
如何仅选择数组中的第一列并对其求和？

这是我的代码 import numpy as np contrainte1 1080 0 65 minutes tous les jours contrainte2 720 0 55 minutes du lundi au vendredi
python blpapi安装错误

我试图根据 README 中的说明为 python 安装 blpapi 3 5 5 但是在运行时 python setup py install 我收到以下错误 running install running build running b
如何计算查询集中每个项目的两个字段的总和

假设我有以下模型结构 class SomeModel Model base price DecimalField commision DecimalField 我不想存储total price在我的数据库中为了数据一致性并希望将其计算为ba
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
Python ElementTree 获取带有命名空间的属性

我试图访问 XML 中的 def 所以在这个例子中我会得到Evolus Common PlainTextV2作为输出我似乎无法弄清楚如何获取具有名称空间的属性如果我想得到id它工作得很好 Python for content ns in
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
如何不断地将 STDOUT 发送到我的 python TCP 服务器？

我有简单的 python echo 服务器它使用套接字并向客户端回显随机数我有另一个程序每 2 秒将值打印到标准输出如果它只是一个脚本我可以像这样重定向 stdout python script py 并像这样在脚本中获取它da
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
Django - 使 ModelForm（ImageField 的）仅接受某些类型的图像

我将 Pillow 2 3 0 与 Django 一起使用并且在 models py 中有一个 ImageField 如下所示 class UserImages models Model user models ForeignKey Us
使用 os.forkpty() 创建一个伪终端以 ssh 到远程服务器并与其通信

我正在尝试编写一个 python 脚本它可以 ssh 到远程服务器并可以从 python 客户端执行 ls cd 等简单命令但是在成功 ssh 到服务器后我无法读取伪终端的输出任何人都可以在这里帮助我以便我可以在服务器上执行一
Python Tkinter 网格复选框

我想知道是否有一种简单的方法可以使用 Tkinter 创建复选框网格我正在尝试制作一个由 10 行和 10 列即 100 个复选框组成的网格以便每行只能选择两个复选框编辑我正在使用带有spyder的python 2 7 到目前为
在 Python 中将嵌套字典位置作为参数传递

如果我有一个嵌套字典我可以通过索引来获取键如下所示 gt gt gt d a b c gt gt gt d a b c 我可以将该索引作为函数参数传递吗 def get nested value d path a b return d
Pandas 中的数据透视表小计

我有以下数据 Employee Account Currency Amount Location Test 2 Basic USD 3000 Airport Test 2 Net USD 2000 Airport Test 1 Basic
Django：显示管理员验证错误的自定义错误消息

我正在使用 Django 1 2 4 我有一个模型其中有一个需要验证的字段当验证失败时我想向用户显示自定义错误消息模型编辑是在管理界面中完成的这就是我目前正在做的事情 def clean fields self exclude N
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
具有行业级约束的 SciPy 投资组合优化

尝试在这里优化投资组合权重分配通过限制风险来最大化我的回报函数我可以毫无问题地通过简单的约束所有权重之和等于 1 找到产生我的回报函数的优化权重并做出另一个约束即我的总风险低于目标风险我的问题是如何为每个组添加行业权重界限我
如何从 python 中的字符串中删除 ANSI 转义序列

这是包含我的字符串的片段 ls r n x1b 00m x1b 01 31mexamplefile zip x1b 00m r n x1b 01 31m 该字符串是从我执行的 SSH 命令返回的我无法使用当前状态下的字符串因为它包含 A
如何从Python枚举类中获取所有值？

我正在使用 Enum4 库创建一个枚举类如下所示 class Color Enum RED 1 BLUE 2 我要打印 1 2 作为某处的列表我怎样才能实现这个目标您可以执行以下操作 e value for e in Color

随机推荐

长时间运行 RTS 游戏多人注意事项

我正在开发一款实时太空策略游戏克隆游戏该游戏当时没有任何多人游戏选项我想添加多人游戏游戏本身的时间比较长大约需要10 15小时才能通关这很长我不想强迫玩家不间断地玩它或由于崩溃断电而失去游戏状态类似的游戏是如何解决此类问题
格式化代码片段以在 Blogger 上写博客 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的博客托管在 Blogger 上我经常在以下位置发布代码片段C C Java XML等等但我发现该片段被损坏是否有任何网站可以用来预先解析代
helper' aria-label=''####' 的未定义方法 `merge':string <%= form_for %> helper'> '####' 的未定义方法 `merge':string <%= form_for %> helper

我有一个表单当发布时会呈现另一个表单我想做的是将第一个表单中的参数传递到第二个表单的某些隐藏字段中第二种表单使用 form for 表单助手我想做的是让它接受发布给它的参数表格如下所示 div class found l div
Facebook 开放图私人群组提要请求

我想从图形 api 获取数据特别是我尝试从组中获取时间线例如让我们看一下 Facebook 开发人员概述中提供的请求 https graph facebook com 195466193802264 https graph faceb
(int)、Convert.ToInt32(x) 或 Int32.Parse(x) 哪个最快？

以下哪段代码对于转换某些对象 x 是最快最佳实践 int myInt int x or int myInt Convert ToInt32 x or int myInt Int32 Parse x 或者在字符串 s 的情况下 int my
将 .NET 表达式树链接到新程序集中

我正在尝试编写自己的玩具 My Toy Language gt MSIL 编译器以便更好地了解编译器的工作原理我的解析和词法分析工作正常我已经构建了表达式树并使用 System Linq Expressions 表达式树 API 我有
Realm 与 Firestore 上的大型集合同步 - 架构问题/问题

我在 Firestore 集合中有一个产品对象集合标题描述价格定量 urlString 等目前大约有 1000 件商品但可能会达到 10k 在我的 iOS 应用程序启动时我设置了一个集合侦听器 db collection pr
如何将 gt 表保存到 Excel 或 Word 文件

将我漂亮的表格提交给出版商后他们希望将其保存为 Word 或 Excel 文件有没有一种简单的方法可以将 gt 表保存为任一格式或者我最好在 Excel 中重做它们以下是将 gtsummary 表导出到 Excel 或 RTF 的一
spring 4 中的自定义 ExceptionTranslationFilter 来处理 REST AuthenticationException

我有一个由 Spring Security 保护的 Spring MVC RESTful 应用程序客户端是 Angular JS 但我的登录和注销页面是普通的 jsp 并且我进行基于表单的登录和注销成功完成完全身份验证后我加载我的安全
如何从 Firebase Cloud Functions 删除日志

我只是在玩Cloud Functions on Firebase并部署了一些随机函数来测试它现在我想删除所有logs on Firebase console但我找不到办法有没有CLI命令来做到这一点或者它会永远存在或者它们会随着年龄
如何在 Matlab 中计算 3D 网格的投影

我正在尝试使用 matlab 从不同视图计算 3d 网格的 2d 投影我现在使用的解决方案是绘制 3D 网格旋转它并制作屏幕截图我想知道是否有任何 matlab 内部函数或任何其他解决方案允许我在给定一组顶点和三角形的情况下计算投影而
为什么仅针对 POST 请求，Firebase 上托管的 NextJs 应用会收到“502 Gateway”错误？

我开始使用 NextJs 框架构建 API 我希望将其托管在 Firebase 上托管和功能只要我只发送 GET 请求一切就正常当我发送 POST 请求时我收到一个 502错误的网关 error 复制起来非常简单您只需下载并部署
从 ostream 获取 char* 而不进行复制

我有一个ostream并且数据已写入其中现在我想要该数据的形式char大批有没有办法在不复制所有字节的情况下获取字符缓冲区及其大小我的意思是我知道我可以使用ostringstream并打电话str c str 但会产生一个临时副本
在 SQL 中对包含数字的字符串列进行排序？

我正在尝试对字符串列进行排序包含数字 SELECT name FROM mytable ORDER BY name ASC name a 1 a 12 a 2 a 3 你看Mysql的自然排序算法是这样放置的a 12 after a 1
从驱动器号获取驱动器型号

我想从驱动器号中获取型号名称例如Crucial CT256MX100SSD1是我的驱动器型号C 可以使用简单的 WMI 查询来检索模型 var hdd new ManagementObjectSearcher SELECT FROM Wi
在 Ubuntu 20.04 上为 pandas 构建轮子需要 20 多分钟，但在 18.04 上不需要

我有一个 ERPNext 的安装脚本可以在 Ubuntu 18 04 上正常运行当我在 20 04 上运行相同的脚本时我不得不等待 20 多分钟才能完成而在 18 04 上则需要大约 30 秒我的脚本包括这两行 env bin p
如何让 vim 使用正确的缩进格式化项目符号列表

在 vim 中我可以设置 textwidth 选项然后将新文本格式化为换行我还可以使用 gq 命令显式换行文本然而项目符号列表的行为对我来说有点出乎意料 vim 文档讨论了使用带有连字符的项目符号列表当我尝试这样做时它开始正常
router-outlet 不是已知元素

以下代码有效 app module ts import NgModule from angular core import HttpModule from angular http import AppComponent from app
如何更改此 R 图中的字体系列？ [复制]

这个问题在这里已经有答案了我正在尝试将轴和图例的字体更改为衬线但添加family serif 没有为传奇工作我该怎么做呢 plot sort n cdf pch 3 cex 0 5 xlab Order ylab Cn family s
pandas 中 groupby 中的排名

我有一个典型的面板数据在计量经济学术语中不是 pandas 面板对象数据框有一个Date列和一个ID列以及包含某些值的其他列对于每个日期我需要根据 V1 对 ID 进行横断面排名分为 10 组十分位数并创建一个名为的新列

pandas 中 groupby 中的排名

pandas 中 groupby 中的排名 的相关文章

随机推荐

热门标签

pandas 中 groupby 中的排名的相关文章