将 DataFrameGroupBy 对象中的每个分组列转换为列表

2023-12-21

这是数据：

df = pd.DataFrame({
    'date':[1,1,2,2,2,3,3,3,4,5],
    'request':[2,2,2,3,3,2,3,3,3,3],
    'users':[1,3,7,1,7,3,4,9,7,9],
    'count':[1,1,2,3,1,3,1,2,1,1]
})

df

   count  date  request  users
0      1     1        2      1
1      1     1        2      3
2      2     2        2      7
3      3     2        3      1
4      1     2        3      7
5      3     3        2      3
6      1     3        3      4
7      2     3        3      9
8      1     4        3      7
9      1     5        3      9

这个想法是分组依据count and date，并将每隔一列转换为分组值列表。我以为这就像打电话一样简单dfgp.agg但事实并非如此。

这就是我想做的：

   date  request   count   users
0     1        2  [1, 1]  [1, 3]
1     2        2     [2]     [7]
2     2        3  [3, 1]  [1, 7]
3     3        2     [3]     [3]
4     3        3  [1, 2]  [4, 9]
5     4        3     [1]     [7]
6     5        3     [1]     [9]

我就是这样做的：

grouped_df = df.groupby(['date', 'request'])

df_new = pd.DataFrame({ 'count' : grouped_df['count'].apply(list), 'users' : grouped_df['users'].apply(list) }).reset_index()

它有效，但我相信必须有一种更好的方法......一个可以工作的方法all分组对象中的列。例如，我应该只分组date并且解决方案应该有效。我的解决方案将依赖于对列进行硬编码，但我不喜欢这样做，因此在这种情况下它将失败。

这是一直困扰我的事情。这应该是一个明显的解决方案，但我找不到它。有没有更好的办法？

_{Calling all my Pandas MVPs...}

更好的答案
查找重复发生的位置，相应地拆分和过滤

dups = df.duplicated(['request', 'date'], 'last').values
i = np.where(~dups[:-1])[0] + 1
r, d, c, u = (df[c].values for c in df)

d1 = pd.DataFrame(
    np.column_stack([r[~dups], d[~dups]]), columns=['request', 'date'])
d2 = pd.DataFrame(
    np.column_stack([np.split(c, i), np.split(u, i)]), columns=['count', 'users'])

d1.join(d2)

   date  requeset   count   users
0     1         2  [1, 1]  [1, 3]
1     2         2     [2]     [7]
2     2         3  [3, 1]  [1, 7]
3     3         2     [3]     [3]
4     3         3  [1, 2]  [4, 9]
5     4         3     [1]     [7]
6     5         3     [1]     [9]

回答我感觉很好！
Yay! defaultdict

from collections import defaultdict

d = defaultdict(list)

s = df.set_index(['date', 'request']).stack()
[d[k].append(v) for k, v in s.iteritems()];

pd.Series(d).unstack().rename_axis(['date', 'requeset']).reset_index()

   date  requeset   count   users
0     1         2  [1, 1]  [1, 3]
1     2         2     [2]     [7]
2     2         3  [3, 1]  [1, 7]
3     3         2     [3]     [3]
4     3         3  [1, 2]  [4, 9]
5     4         3     [1]     [7]
6     5         3     [1]     [9]

旧答案

f = lambda x: pd.Series(x.values.T.tolist(), x.columns)
df.groupby(['request', 'date'])[['count', 'users']].apply(f).reset_index()

   request  date   count   users
0        2     1  [1, 1]  [1, 3]
1        2     2     [2]     [7]
2        2     3     [3]     [3]
3        3     2  [3, 1]  [1, 7]
4        3     3  [1, 2]  [4, 9]
5        3     4     [1]     [7]
6        3     5     [1]     [9]

郁闷回答！
鞋拔agg

from ast import liter_eval

df.groupby(['request', 'date']).agg(
    lambda x: str(list(x))
).applymap(literal_eval).reset_index()

   request  date   count   users
0        2     1  [1, 1]  [1, 3]
1        2     2     [2]     [7]
2        2     3     [3]     [3]
3        3     2  [3, 1]  [1, 7]
4        3     3  [1, 2]  [4, 9]
5        3     4     [1]     [7]
6        3     5     [1]     [9]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

将 DataFrameGroupBy 对象中的每个分组列转换为列表的相关文章

Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

如何在 C# 中按类型查找 .cs 文件的路径

如何按类型查找 cs 文件的路径函数原型 string FindPath Type 返回类似 C Projects MyClass cs 的内容在 Net 4 5中你可以使用CallerFilePath反射属性来自MSDN using
需要帮助创建 YouTube 视频列表

我想访问 Youtube 视频并在 ListView 中显示视频的缩略图及其标题单击缩略图后应播放视频任何人都可以建议一些与我的需求或链接相关的示例程序这是我使用 URL 播放 youtube 视频的代码这可能无法满足您的完整要求
并行读取和顺序写入？

我有以下代码可以读取和写入每个id依次 async def main while id lt 1000 data await read async id await data write async f id csv id 1 read
子集化时的逻辑条件未给出正确的值

我想对数据框进行子集化project我正在使用逻辑我得到了一个矛盾的结果逻辑前面的部分ROLL NO 论证与问题无关抱歉我无法给出可重现的示例请告诉我如何使这个问题可重现而不必在我的数据框中显示相关列的全部 393 个条目 D1
部署时出现 AWS Lambda 和 IAM 错误：Lambda 无法承担为函数定义的角色

在我的 AWS 项目中我使用无服务器框架来部署 lambda 函数和 IAM 角色因此我创建了 6 个 lambda 函数全部使用下面相同的 IAM 角色 functions auto delete identity handler
对象、参数、jquery
与传单协调反射问题

祝大家节日快乐我在尝试使用 L geoJson 绘制多边形图层时注意到一个有趣的行为怪癖考虑以下代码 var polygonCoords type Feature properties group Violations geometry
在 Python 中为 Django Choice 字段创建智能循环列表

所以以下内容不是很聪明 MONTHS Jan Jan Feb Feb Mar Mar Apr Apr May May Jun Jun Jul Jul Aug Aug Sep Sep Oct Oct Nov Nov Dec Dec YEA
Qt：QGraphicsScene 在我期望的时候没有更新

好的我有一个QGraphicsScene在一个叫做眼睛的课程中我调用一个函数 void eye playSequence int sequenceNum for int i 0 i
如何从 mysql 表中转储 blob 字段

我正在尝试从 mysql 表中转储 BLOB 字段但是当我使用 sqlYog 转储 blob 记录时我得到了无价值的数据如何备份 BLOB 类型字段 Note BLOB 字段有图像参数十六进制斑点当您打算将其导入到另一个数据库如
枚举与强类型枚举

我是 C 编程的初学者今天遇到一个新话题强类型enum 我已经研究了一些但到目前为止我无法找出为什么我们需要这个以及它有什么用例如如果我们有 enum xyz a b c a 0 b 1 c 2 Typical C format
matplotlib：直方图和 bin 标签

I m trying to plot a histogram with bar chart and I m having difficulties figuring out how to align the x axis labels wi
按住按键时 Swing 中的文本输入字段在 OS X 上停止工作

我发现 OS X Yosemite 使用 Oracle JDK 8 上的 Swing 文本输入字段存在一个奇怪的问题当我在文本输入字段获得焦点时按住任何字母或数字键时我之后就无法再在当前 JFrame 的任何字段中输入任何内容然后我必
直接在浏览器中使用 jquery/flash 录制网络摄像头视频？

我想让用户通过网络摄像头录制视频然后通过浏览器将录制的视频上传到网站这是一个完全按照我希望的网站工作方式工作的示例只不过它似乎不捕获视频而只是捕获图像 http www xarg org project jquery webcam
新版本 Hibernate 的 hibernate3-maven-plugin 依赖项

我想将 hibernate 3 5 1 Final 与此插件一起使用这里我的依赖项应该是什么它似乎正在拿起一组旧的罐子但现在失败了
无法获取项目参考的依赖项

我有一个包含网站项目和 C 库的 C 解决方案编译解决方案时网站给出消息无法获取项目引用 MyLibrary 的依赖项当此错误消息使构建失败时这不会停止网站编译和运行直到我尝试使用 TFS 构建来构建它这是什么意思我该如何解
我如何在 VBA 中调用 WebView2 和其他现代 winmd 功能

我想在旧式 VBA 用户窗体中嵌入现代 WebView2 组件 Edge Chromium 浏览器控件我推测我需要在系统上安装以下内容 Edge Chromium 浏览器 Webview2 SDK 虽然我安装了 Edge Chromium
提交日志增长的问题

我有一台机器提交日志不断增加到 7 8 GB 并且仍在增长我检查了一个属性commitlog total space in mb 8192这是在 cassandra yaml 中注释的我怀疑它必须是默认的 1 增加提交日志大小有什么问
Spark 结构化流 - 对不同的 GroupBy 键使用不同的 Windows

目前我通过 Spark 结构化流媒体读取 Kafka 主题后得到了下表 key timestamp value key1 2017 11 14 07 50 00 0000 10 key1 2017 11 14 07 50 10 0000
将 DataFrameGroupBy 对象中的每个分组列转换为列表

这是数据 df pd DataFrame date 1 1 2 2 2 3 3 3 4 5 request 2 2 2 3 3 2 3 3 3 3 users 1 3 7 1 7 3 4 9 7 9 count 1 1 2 3 1 3 1

将 DataFrameGroupBy 对象中的每个分组列转换为列表

将 DataFrameGroupBy 对象中的每个分组列转换为列表 的相关文章

随机推荐

热门标签

将 DataFrameGroupBy 对象中的每个分组列转换为列表的相关文章