在 groupby 之后将组与一个数据帧合并

2024-03-25

我试图回答这个问题 https://stackoverflow.com/questions/47117982/insert-missing-category-for-each-group-in-pandas-dataframe通过组级合并。下面是同一问题的稍作修改的版本，但我需要组级合并的输出。

以下是输入数据帧：

df = pd.DataFrame({ "group":[1,1,1 ,2,2],
                   "cat": ['a', 'b', 'c', 'a', 'c'] ,
                   "value": range(5),
                   "value2": np.array(range(5))* 2})

df

cat group   value value2
a   1         0   0
b   1         1    2
c   1         2    4
a   2         3    6
c   2         4    8

categories = ['a', 'b', 'c', 'd']
categories =  pd.DataFrame(['a', 'b', 'c', 'd'], columns=['cat'])
print(categories)

    cat
0   a
1   b
2   c
3   d

这是预期的输出：

cat group   value  value2
a   1         0    0
b   1         1    2
c   1         2    4
d   NA        NA   NA
a   2         3    6
c   2         4    8
b   NA        NA   NA
d   NA        NA   NA

问题：

我可以通过for循环实现我想要的。有没有熊猫的方法可以做到这一点？

（我需要在之间执行外连接categories以及每组的groupby结果df.groupby('group'))

grouped = df.groupby('group')

merged_list = []
for g in grouped:
    merged = pd.merge(categories, g[1], how = 'outer', on='cat')
    merged_list.append(merged)

out = pd.concat(merged_list)

I think groupby + merge这只是过于复杂的方法。

所以使用速度更快reindex http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.html by MultiIndex:

mux = pd.MultiIndex.from_product([df['group'].unique(), categories], names=('group','cat'))
df = df.set_index(['group','cat']).reindex(mux).swaplevel(0,1).reset_index()
#add missing values to group column
df['group'] = df['group'].mask(df['value'].isnull())
print (df)
  cat  group  value  value2
0   a    1.0    0.0     0.0
1   b    1.0    1.0     2.0
2   c    1.0    2.0     4.0
3   d    NaN    NaN     NaN
4   a    2.0    3.0     6.0
5   b    NaN    NaN     NaN
6   c    2.0    4.0     8.0
7   d    NaN    NaN     NaN

可能的解决方案：

df = df.groupby('group', group_keys=False)
       .apply(lambda x: pd.merge(categories, x, how = 'outer', on='cat'))
  cat  group  value  value2
0   a    1.0    0.0     0.0
1   b    1.0    1.0     2.0
2   c    1.0    2.0     4.0
3   d    NaN    NaN     NaN
0   a    2.0    3.0     6.0
1   b    NaN    NaN     NaN
2   c    2.0    4.0     8.0
3   d    NaN    NaN     NaN

Timings:

np.random.seed(123)
N = 1000000
L = list('abcd') #235,94.1,156ms

df = pd.DataFrame({'cat': np.random.choice(L, N, p=(0.002,0.002,0.005, 0.991)),
                   'group':np.random.randint(10000,size=N),
                   'value':np.random.randint(1000,size=N),
                   'value2':np.random.randint(5000,size=N)})
df = df.sort_values(['group','cat']).drop_duplicates(['group','cat']).reset_index(drop=True)
print (df.head(10))

categories = ['a', 'b', 'c', 'd']

def jez1(df):
    mux = pd.MultiIndex.from_product([df['group'].unique(), categories], names=('group','cat'))
    df = df.set_index(['group','cat']).reindex(mux, fill_value=0).swaplevel(0,1).reset_index()
    df['group'] = df['group'].mask(df['value'].isnull())
    return df

def jez2(df):
    grouped = df.groupby('group')
    categories =  pd.DataFrame(['a', 'b', 'c', 'd'], columns=['cat'])
    return grouped.apply(lambda x: pd.merge(categories, x, how = 'outer', on='cat'))



def coldspeed(df):
    grouped = df.groupby('group')
    categories =  pd.DataFrame(['a', 'b', 'c', 'd'], columns=['cat'])
    return pd.concat([g[1].merge(categories, how='outer', on='cat') for g in grouped])

def akilat90(df):
    grouped = df.groupby('group')
    categories =  pd.DataFrame(['a', 'b', 'c', 'd'], columns=['cat'])
    merged_list = []

    for g in grouped:
        merged = pd.merge(categories, g[1], how = 'outer', on='cat')
        merged['group'].fillna(merged['group'].mode()[0],inplace=True) # replace the `group` column's `NA`s by mode
        merged.fillna(0, inplace=True)
        merged_list.append(merged)

    return pd.concat(merged_list)

In [471]: %timeit jez1(df)
100 loops, best of 3: 12 ms per loop

In [472]: %timeit jez2(df)
1 loop, best of 3: 14.5 s per loop

In [473]: %timeit coldspeed(df)
1 loop, best of 3: 19.4 s per loop

In [474]: %timeit akilat90(df)
1 loop, best of 3: 22.3 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

在 groupby 之后将组与一个数据帧合并的相关文章

scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

从 OSX lion 上的版本浏览器恢复不起作用...有什么想法吗？

我正在尝试从 Lion 上的先前版本恢复基于文档的应用程序当我选择恢复版本时文本视图不反映更改但是如果我关闭应用程序并重新打开更改就会出现我正在使用 NSDocument 的文件包装器变体那么如何使文本视图的文本存储反映立
Liquibase：如何禁用 FILENAME 列检查？

对于我们的应用程序我们使用 liquibase 我们需要从命令行在生产中手动运行数据库迁移并在应用程序启动时自动运行数据库迁移测试环境等问题是 Liquibase 将整个文件名视为变更集身份的一部分因此如果路径不同它会尝试重
Java重载和继承规则

我一直在学习因为我有考试而且我对 Java 的大部分内容都没有太多问题但我偶然发现了一条我无法解释的规则这是一个代码片段 public class A public int method Object o return 1 publ
两个 Div 彼此相邻，然后堆叠响应式更改

我正在努力实现一些我确信应该比我现在做的更容易的事情我正在使用 Skeleton 响应式框架到目前为止一切都很好这是我想要实现的目标的图表这将被放置在一列中一旦该列的大小减小我希望它按照图中的第二个示例堆叠 div 我尝试了几种
从 tfs 构建中排除测试

我想从持续集成构建中排除一些测试但我还没有找到这样做的方法我尝试过的事情之一是将这些测试的优先级设置为 2 然后在构建中我指定最低测试优先级 1 但它仍然运行这些测试任何帮助将不胜感激您应该使用测试类别方法而不是使用已描述的
如何永久清除在启用软删除的情况下创建的整个 azure keyvault？

当您创建启用了软删除的 azure keyvault 时即使您将其删除并从头开始重新创建该 keyvault 仍会保留启用软删除后标记为已删除资源的资源将保留指定时间段默认为 90 天该服务还提供了一种恢复已删除对象的机制本质
如何将水平滚动视图移动到特定位置？

我使用的scrollView没有任何listView或gridview 我刚刚向其中添加了相同的视图但知道我想以编程方式滚动到特定位置这可能吗请帮助我使用水平滚动你可以使用这个方法 horizontalScrollView scro
Angular Jasmine FormControl 单元测试 valueChanges

我想对以下方法进行单元测试 this boxValue subscribeToFilterChanges void this filterBox valueChanges subscribe data gt if data this box
加入 PIG 对阵 COGROUP

当我在 pig 中使用 COGROUP 而不是 JOIN 时有什么优势性能没有地图减少吗 http developer yahoo com hadoop tutorial module6 html http developer ya
Kotlin 网站上的“返回 Unit 的方法的构建器风格用法”让我感到困惑

The IdiomsKotlin 官方文档的部分包含这个例子 http kotlinlang org docs reference idioms html builder style usage of methods that return
Kotlin 中带有新参数的 Paging 3.0 列表

我有以下代码 val history Flow
轻微破坏的意义

在 C 17 中新的std optional要求它可以轻易被破坏如果T在 Optional object dtor 中是可以轻易破坏的 optional 1 Effects If is trivially destructible v
sizeof(x) 和 sizeof(p_x) 之间有什么区别

你能告诉我两者有什么区别吗sizeof x and sizeof p x 在下面的代码中 int x 10 p x p x int malloc 10 sizeof int sizeof x 给出数组使用的字节数x sizeof p x 给
程序退出时如何删除文件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有没有办法注册一个文件以便在Python退出时将其删除无论它如何退出我正在使用长期存在的临时文件并希望确保它们被清理该文件必
启动屏幕故事板迁移问题

我有一个用 Objective C 构建的应用程序它使用启动屏幕图像集作为启动画面根据最近苹果公司的新指南适用于 iPhone 或 iPad 的应用程序必须使用 iOS 13 SDK 或更高版本构建并且使用 Xcode 故事板提供
如何检查同一个java程序的两个实例是否正在运行？

您好我正在制作一个将通过 javaw exe 运行的程序因此它不直接可见现在我的问题是有时意外地用户可能会运行同一应用程序的多个实例例如输入javaw myProgram两次在这种情况下如果程序已经在运行有什么方法可以阻止
Bootstrap Popover 一键点击即可工作 - JavaScript

我有一些引导按钮单击按钮时应该显示一个弹出窗口 usernameL onclick function e e currentTarget id popover html true 当网站加载并且我第一次单击按钮时没有任何反应如果我第二
AlamoFire 在后台会话中下载

我在新应用程序中使用 Alamofire 基于 Alamofire 的下载管理器示例我需要一些有关使用后台会话下载文件的说明我需要重写 SessionDelegate 才能使其正常工作吗要不就backgroundCompletionH
NoClassDefFoundError：android.support.v7.widget.helper.ItemTouchHelper$3

嗨我想创建滑动删除RecyclerView结果是崩溃看着那这build gradle 我导入了所需的所有库在代码中我可以使用ItemTouchHelper类但是当我想刷一个项目时它崩溃了 build gradle compile c
在 groupby 之后将组与一个数据帧合并

我试图回答这个问题 https stackoverflow com questions 47117982 insert missing category for each group in pandas dataframe通过组级合并下面

在 groupby 之后将组与一个数据帧合并

在 groupby 之后将组与一个数据帧合并 的相关文章

随机推荐

热门标签

在 groupby 之后将组与一个数据帧合并的相关文章