Pandas 报告分组和枢轴中的前 n 名

2024-01-01

我试图通过沿单个维度 d1 分组并报告 d1 的每个元素的摘要统计信息来总结数据框。我特别对许多指标的前 n 个（索引和值）感兴趣。我想为 d1 的每个元素生成一行。

假设我有两个维度 d1、d2 和 4 个指标 m1、m2、m3、m4

1) 对于每个指标 m1 - m4，按 d1 分组并查找顶部 n d2 和指标值的建议方式是什么。

在 Wes 的书《Python for Data Analysis》中他建议（第 35 页）

def get_top1000(group):
 return group.sort_index(by='births', ascending=False)[:1000]
grouped = names.groupby(['year', 'sex'])
top1000 = grouped.apply(get_top1000)

这仍然是推荐的方式吗（我只对 1000 个中的前 5 个 d2 以及多个指标感兴趣） 2）现在下一个问题是我想旋转前 5 个元素（即 d1 的每个元素都有一行）

因此对于维度 d1、d2 和公制 m1，结果数据框应如下所示：索引 d1 以及 d2 的前 5 个值和 m1 的对应值的列

d1 d2-1 d2-2 d2-3 d2-4 d2-5 m1-1 m1-2 m1-3 m1-4 m1-5

....

因此，要进行旋转，我必须沿着 d2 创建排名（即 1 到 5 - 这是我的列字段）。如果我总是有 5 个条目，但对于给定的 d1 值，偶尔 d2 的元素少于 5 个，这会很容易。

那么有人可以建议如何将排名添加到分组中，以便我有正确的列索引来执行旋转

我没有任何可使用的玩具数据或可比较的预期结果，但我认为您需要以下内容：

N = 1000
names = my_fake_data_loader()
grouped = names.groupby(['year', 'sex'])
grouped.apply(lambda g: g.sort_index(by='births', ascending=False).head(N))

这将给出每组的前 1000 个元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pivottable

TopN

Pandas 报告分组和枢轴中的前 n 名的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

git 重新连接到远程存储库

我犯了一个巨大的错误导致我的项目的本地版本不再与其曾经关联的远程存储库连接是否有一些技巧可以重新建立连接关联而不破坏代码的本地版本你试过了吗 git remote add track master origin url to git
Linux 下双显示器设置上的 SDL 假全屏模式

使用SDL 1 3我想在linux下创建假全屏SDL Window 如果我只有一台显示器这很容易我刚刚获得当前显示模式并创建了一个窗口 SDL GetDesktopDisplayMode 0 mode SDL Window win SD
Java 有 uudecoding 的标准机制吗？

我正在编写一个 Java 程序来从 POP3 电子邮件下载附件最初如果内容类型经过验证我会通过获取 MimePart 的输入流来实现此目的然后我可以简单地通过 FileOutputStream 将输入流写入本地文件然而我遇到的一
使用 JSTL 循环遍历 Map [重复]

这个问题在这里已经有答案了我正在寻找 JSTL 循环Map
如何在 Firebase 中按应用版本阻止用户

我有一个 Android 应用程序它使用 Firebase 作为一般聊天室用户输入昵称并开始聊天实施没有问题我的应用程序运行良好但问题在于数据使用由于实施错误数据使用率过高在应用程序版本 14 中我正在获取聊天室中的所有数
如果双引号字符串以转义反斜杠结尾，则词法分析器规则会保持匹配字符，就好像它们是带引号字符串的一部分一样

如果双引号字符串以转义的反斜杠结尾则词法分析器规则会变得贪婪并保持匹配字符就好像它们是带引号的字符串的一部分一样然后词法分析器认为实际开始下一个带引号的字符串的双引号正在结束第一个字符串并在后面的字符上给出语法错误我们需要调整词法
检查用户是否更改了 Android 中的生物识别/指纹

我正在寻找一种在用户更改指纹时收到通知的方法我看到了这个答案here https stackoverflow com questions 44515668 android fingerprint detect new finger add
包括实体框架 TPH 类的导航属性

我有一个 EF 层次结构大大简化如下所示 class Room EntityCollection
无锁队列实现最终会在压力下产生循环

我有用 C 语言编写的无锁队列其形式为链表其中包含来自多个线程的请求这些请求发布到单个线程并在单个线程中处理经过几个小时的压力后我最终让最后一个请求的下一个指针指向自身这创建了一个无限循环并锁定了处理线程该应用程序在 Linu
如何让 rmagick 在带有 Rails 3.1 和 Carrierwave 的 Windows 7 64 位上工作？

我无法让 rmagick 在 Windows 上工作有谁知道如何让它正常工作更好的是希望以一种与生产环境兼容的方式尽管我会尽我所能 C gt gem install rmagick platform ruby with opt li
为什么Eclipse无法写入资源

Eclipse 无法签署我的应用程序但旧版本工作正常它只是在下面显示警告这是 juno 版本中的错误吗无法写入资源 META INF MANIFEST MF 重复的 zip 条目 ARMPlugin jar META INF MAN
CAS 冲突的 CPU 内部特征是什么？

我正在尝试了解 x86 x64 上 CAS 的低级机制我非常感谢一些帮助见解我一直在思考这个问题的原因是我试图推理指数退避并原则上找出正确的退避延迟单位应该是什么如果我查看无锁空闲列表基准测试没有指数退避我会发现随着线程数量的
DataTables 根据 TD 属性值对 html 表进行排序

我正在使用 DataTables jquery 库来显示简单的 HTML 表标记即不使用 Ajax 或 JSON 一切都运行良好只是我有一些列我想对原始数据进行排序而不是对显示的格式化数据进行排序我想向我的 TD 标签添加一个属性
OAuth 2.0授权码Grant中“code”的生命周期

授权代码授予我知道该代码是与真正的长期访问令牌交换的短期令牌我已经经历了认证2 0 https www rfc editor org rfc rfc6749 section 4 1 1但找不到此信息所以在这里询问代码的生命周期是怎样
从会话到成员文件夹的身份验证

我之前在 c asp net webforms 中设置了成员文件夹仅允许某些用户并在用户未经身份验证时进行重定向我想知道这是否可能如何根据会话变量存在填充值的天气来实现身份验证或者如果会话为空则不进行身份验证我希望类似的事情能
使依赖对象属性可绑定为静态资源？

如何使依赖对象属性数组可绑定以便以后绑定为静态资源我现在拥有的代码似乎是我的DependencyObject绕过依赖属性系统我有以下课程 public class ValueMarker DependencyObject public
'+' 已弃用：混合类型加法在 Swift 3.1 中已弃用

当我直接将整数值即 1 2 3等与另一个整数变量相加时 let arr Array One Two var valueT Int64 0 value arr count 1 in this line 我收到以下警告 is depreca
如何使用 APNs Auth Key 和标准 CLI 工具发送 APNs 推送消息？

Apple 最近向 APNS 添加了一种新的身份验证方法 Apple 推送通知身份验证密钥沙盒和生产 https stackoverflow com questions 39671902 apple push notification a
rstudio 0.98.501 中 knit html 按钮背后的代码是什么？

我听从了 Rstudio 的建议自定义 Markdown 渲染 https www rstudio com ide docs authoring markdown custom rendering 并在项目目录的根目录下创建了一个 Rpro
Pandas 报告分组和枢轴中的前 n 名

我试图通过沿单个维度 d1 分组并报告 d1 的每个元素的摘要统计信息来总结数据框我特别对许多指标的前 n 个索引和值感兴趣我想为 d1 的每个元素生成一行假设我有两个维度 d1 d2 和 4 个指标 m1 m2 m3 m4 1

Pandas 报告分组和枢轴中的前 n 名

Pandas 报告分组和枢轴中的前 n 名 的相关文章

随机推荐

热门标签

Pandas 报告分组和枢轴中的前 n 名的相关文章