pandas groupby 操作缺少数据

2024-06-19

在 pandas 数据框中，我有一列如下所示：

0         M
1         E
2         L
3       M.1
4       M.2
5       M.3
6       E.1
7       E.2
8       E.3
9       E.4
10      L.1
11      L.2
12    M.1.a
13    M.1.b
14    M.1.c
15    M.2.a
16    M.3.a
17    E.1.a
18    E.1.b
19    E.1.c
20    E.2.a
21    E.3.a
22    E.3.b
23    E.4.a

我需要将第一个元素所在的所有值分组E, M, or L然后，对于每个组，我需要创建一个子组，其中索引为1, 2, or 3其中将包含每个的记录lowercase letter（a、b、c、...）该解决方案可能适用于任意数量的级别连接元素（在本例中，级别数为 3（例如：A.1.a））

0    1    2
E    1    a
          b
          c
     2    a
     3    a
          b
     4    a
L    1
     2
M    1    a
          b
          c
     2    a
     3    a

我尝试过：

df.groupby([0,1,2]).count()

但结果缺少L level因为它在最后一个子级别没有记录

解决方法是添加一个虚拟变量，然后将其删除......例如：

df[2][(df[0]=='L') & (df[2].isnull()) & (df[1].notnull())]='x'
df = df.replace(np.nan,' ', regex=True)
df.sort_values(0, ascending=False, inplace=True)
newdf = df.groupby([0,1,2]).count()

这使：

0    1    2
E    1    a
          b
          c
     2    a
     3    a
          b
     4    a
L    1    x
     2    x
M    1    a
          b
          c
     2    a
     3    a

然后我处理dummy entry x稍后在我的代码中...

如何避免这种令人讨厌的使用方式groupby ?

假设所考虑的列由s，我们可以：

分裂于"."分隔符以及expand=True产生一个扩展的DF.
fnc：检查分组框架的所有元素是否仅包含None，然后用虚拟条目替换它们""这是通过建立列表理解。稍后在过滤列表上调用系列构造函数。任何None随后使用删除此处的内容dropna.
Perform groupby w.r.t. 0 & 1列名称并应用fnc to 2.

split_str = s.str.split(".", expand=True)
fnc = lambda g: pd.Series(["" if all(x is None for x in g) else x for x in g]).dropna()
split_str.groupby([0, 1])[2].apply(fnc)

产生：

0  1   
E  1  1    a
      2    b
      3    c
   2  1    a
   3  1    a
      2    b
   4  1    a
L  1  0    
   2  0    
M  1  1    a
      2    b
      3    c
   2  1    a
   3  1    a
Name: 2, dtype: object

为了获得一个扁平化的DF，重置索引与用于分组的级别相同DF before:

split_str.groupby([0, 1])[2].apply(fnc).reset_index(level=[0, 1]).reset_index(drop=True)

产生：

    0  1  2
0   E  1  a
1   E  1  b
2   E  1  c
3   E  2  a
4   E  3  a
5   E  3  b
6   E  4  a
7   L  1   
8   L  2   
9   M  1  a
10  M  1  b
11  M  1  c
12  M  2  a
13  M  3  a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

pandas groupby 操作缺少数据的相关文章

如何使用类似 KDnuggets 风格的 PDF 绘制比较箱线图

在经历了解 KDnuggets 文章中的箱线图 https www kdnuggets com 2019 11 understanding boxplots html 我找到了带有概率密度函数的箱线图的详细图 pdf 我正在尝试绘制比较箱线
如何融化数据框以获取范围内的所有日期？

我有一个这样的数据集 import pandas as pd pd DataFrame col1 1 2 start date 1 3 2019 1 10 2019 end date 1 5 2019 1 12 2019 我想为开始日期和结
在 Pycharm 中使用 scikit-learn 未解析的属性引用“predict()”

当使用 scikit learn 中的决策树分类器时 docs http scikit learn org stable modules tree html展示您将存储分类器的变量重新分配给其自身的输出调用fit method clf t
根据 cron 规范计算下一个计划时间

在给定当前时间和 cron 规范的情况下计算事件下一次运行时间的有效方法是什么我正在寻找每分钟循环检查是否符合规范以外的东西规格示例可能是每月1日 15日15 01 每小时整点的 10 20 30 40 50 分钟 Python
如何在 pandas 中添加堆叠条形图孵化？（...或者如何在 pandas 绘图与 matplotlib 中获得 BarContainer 与 AxesSubplot ？）

我有一个使用的代码示例matplotlib pyplot plot 这是可行的我想复制它以在堆叠条形图上制作阴影条形段然而我一直在使用pandas DataFrame plot 代替matplotlib pyplot plot 并且也
\ufeff 标识符中的无效字符

我有以下代码 import urllib request try url https www google com search q test headers usag Mozilla 5 0 Macintosh Intel Mac OS
Pandas 中的 Vlookup 具有近似匹配

我需要对两个 pandas 数据框进行 vlookup 样式操作 Excel 中的 Vlookup 函数有一个额外的参数是否应查找近似匹配或精确匹配为了精确匹配我知道我可以使用 join 函数但是我该如何进行近似匹配以找到下一个更大
使用 Flask 测试客户端请求传递 cookie 标头

我在让 Flask 测试客户端传递 cookie 时遇到问题这段代码曾经有效我认为我的环境中的某些内容发生了变化这打破了这一点我最近创建了一个新的 Python 3 7 virtualenv 并安装了 Flask 1 0 2 fro
Scipy - 求矩阵列空间的基数

我正在尝试编写一个简单的单纯形算法其第一步是找到一个基本的可行解决方案选择 A 的线性独立列的一组 B 将 x 中与不在 B 中的列相对应的所有分量设置为零求解 m 个所得方程以确定 x 的分量这些是基本变量我知道解决方案将涉及使
强制 shell 在 SunGrid 引擎中使用 conda 变量中的 python [重复]

这个问题在这里已经有答案了我正在尝试在 SunGrid 引擎中执行 python 文件并且从 anaconda3 环境变量中执行它我的代码很简单 from future import print function import url
使用 spaCy 添加多个 EntityRuler（ValueError：'entity_ruler' 已存在于管道中）

下列link https stackoverflow com questions 57477852 spacy matcher with entities spanning more than a single token展示如何在实体跨越
如何使用python在ID3v2 mp3文件上添加SYLT（同步歌词）标签？

我想使用 python 在我的 mp3 文件上添加来自 vtt 的同步歌词我尝试使用诱变模块但它没有按预期工作 from mutagen id3 import ID3 USLT SLT import sys import webvtt
与正在运行的进程通信

We have 基于Python的服务器 A 正在运行的命令行应用程序在同一台 Linux 机器上能够读取stdin 计算一些东西并将输出提供给stdout B 将输入从 A 发送到的最佳最优雅方式是什么 stdin B 的并等待
使用 Opencv 屏蔽水平线和垂直线

我正在尝试删除该图像中的水平线和垂直线以便拥有更清晰的文本区域我正在使用下面的代码它遵循这个guide https docs opencv org 3 2 0 d1 dee tutorial moprh lines detection
python pandas 将两行或多行文本合并为一行

我有包含文本数据的数据框如下所示 name address number 1 Bob bob No 56 2 gmail com 3 Carly email protected cdn cgi l email protection No
django 返回记录的最近日期

我正在尝试从用户的多个记录中返回最近的日期当用户创建文档时创建日期存储在 CreatedDocumentDetails 模型中我无法返回用户最近创建的文档的日期我问这个关于SO的问题 https stackoverflow com
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点
Python：装饰器可以确定函数是否在类中定义吗？

我正在编写一个装饰器出于各种烦人的原因 0 检查它所包装的函数是独立定义还是作为类的一部分定义以及新类是哪些类的子类是很方便的例如 def my decorator f defined in class print r s f de
创建将一把小提琴按色调分割的小提琴图的正确方法是什么？

创建将一把小提琴分开的小提琴图的正确方法是什么hue 我尝试了不同的方法似乎唯一的方法是创建一个为数据集中的每个条目共享相同值的功能并将该功能的名称传递为x fig plt figure figsize 20 8 fig add sub
Pandas 如何删除包含所需字符串的行

我想删除包含所需字符串的所有行假设我有以下数据框 A B C 1 a x w g n 3 l p j p v 我想删除包含字符串的所有行p 我已经搜索过它但大多数答案都是基于列名称就我而言我不会知道它可以出现在任何列中输出数据帧应

随机推荐

单击输入字段会触发窗口调整大小

我有一个带有徽标菜单和搜索的标题当我在桌面上时我会按该顺序显示所有元素但如果我的窗口宽度小于 980 像素菜单会隐藏有一个切换按钮并且徽标会与nav并附在徽标之后如果宽度更大则徽标将再次分离并附加到 DOM 中的旧位置 w
Jquery UI 日期选择器设置默认日期

我使用 jQuery UI 作为日期选择器我想在字段中显示当前日期作为默认值以下是我的代码请帮助 From Date
如何将 NSSecureCoding 与 id 对象一起使用

我正在创建一个链接列表并使用容器对对象下一个和上一个属性进行分组就像基金会收藏一样我希望它能够实现NSSecureCoding 这是声明 interface ListContainer NSObject
通过单个 GPIO 引脚转储闪存

我正在使用 Infineon 的 XMC4500 Relax Kit 并尝试通过单个 GPIO 引脚提取固件我非常天真的想法是通过 GPIO 引脚一次转储一位然后用逻辑分析仪以某种方式嗅探数据伪代码 while word by w
如何检测 UISwipeGestureRecognizer 的结束？

来自苹果文档滑动是一种离散手势因此每个手势仅发送一次关联的操作消息 void touchesEnded NSSet touches withEvent UIEvent event 当我使用 UISwipeGestureRecognize
使用 QWT 构建时出错

我收到一个错误 undefined reference to QwtPlot QwtPlot QWidget 当我尝试构建我的项目时即使设置中一切看起来都很好在我的 CmakeLists txt 中我有 include director
如何在一段特定时间后在后台运行 ajax 调用？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在一段特定的时间后显示警报消息您想继续吗如果用户同意则 ajax 调用必须在后台运行否则取消 ajax 调用那么请告诉我
TRACKER：错误TRK0005：无法找到：“CL.exe”。该系统找不到指定的文件

我尝试在 Windows 8 上的 Node js 项目中执行以下命令 npm 安装电子邮件受保护 cdn cgi l email protection 但我收到一个错误我不知道如何处理 TRACKER 错误TRK0005 无法找到 C
使用 AJAX 或多线程加速页面加载

我的页面有 5 个部分每个部分大约需要 1 秒来渲染 Page Load RenderSection1 1 sec RenderSection2 1 sec RenderSection3 1 sec RenderSection4 1 se
如何将 WordPress 类别选择限制为只有一个？

我有一个自定义帖子类型和一个自定义分类设置非常标准的东西但是我想知道如何限制我的客户在每个帖子中选择多个分类类别我不介意他们能够创建和删除分类类型但我不希望他们选择多个分类类型因为这些是复选框所以它们可以也许单选按钮可以工作
在 Google 表格应用程序中进行身份验证

我有一个类似批处理的应用程序由调度程序定期调用无需人类用户参与它使用 PerlNet Google 电子表格 http metacpan org pod Net Google Spreadsheets包通过从数据库获取的数据来更新 G
Rails 递归地包含 javascripts 资源文件夹

我了解如何将一个 JavaScript 文件添加到 Rails 资产管道中只需添加 require filename 到 application js 但是如何在一个文件夹下包含多个 javascript 文件 vendor assets
Java：使用 Java.util.concurrent 线程访问读取线程串行端口

我正在尝试编写一个 Java 串行设备驱动程序并想使用对我来说是新的 java util concurrent包裹我有一种发送数据包然后等待 ACK 的方法我打算有炭接收在不同的线程中运行如果接收线程收到 ACK 它应该使用发送数
返回 int& 的函数[重复]

这个问题在这里已经有答案了我在网上查了一下发现一篇试图解释的文章std move和右值 http thbecker net articles rvalue references section 01 html并发现了一些我实在无法掌握的东
Swift 3：如何访问48字节CFData中matrix_float3x3的值？

我正在尝试访问内在矩阵answer https stackoverflow com a 48159895 9296667 通过运行下面的命令我能够得到一个 48 字节的任意对象 https developer apple com docu
表单提交后 Angular2 更新视图

我正在使用 Angular2 创建一个简单的 CRUD 应用程序该应用程序由一个列出当前记录的表格和一个用于提交新记录的表格组成提交表单后更新表格以反映新记录的正确方法是什么这是我到目前为止所拥有的 export class Pers
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
在运行时设置 DataGridView 上的 DataFormatString？

是否可以在运行时设置 ASP NET DataGridView 中的列或单元格的 DataFormatString 属性这应该有效 BoundField priceField grid Columns 0 as BoundField pr
Reporting Services 在哪里存储其日志文件

最相关的谷歌结果似乎表明为了访问日志我们必须将您自己的日志表部署到数据库并制作报告服务写入它 http technet microsoft com en us library ms157403 aspx 简而言之 Reporting S
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15

pandas groupby 操作缺少数据

pandas groupby 操作缺少数据 的相关文章

随机推荐

热门标签

pandas groupby 操作缺少数据的相关文章