Python 中 Pivot 和 Transpose 的组合

2023-12-06

我正在做一些文本分析，并且有一个看起来像这样的数据

**TABLE 1**
C1   C2          C3

A1  TEXT1   ANOTHER_TEXT1
A2  TEXT1   ANOTHER_TEXT1
B1  TEXT2   ANOTHER_TEXT1
B2  TEXT2   ANOTHER_TEXT1
B3  TEXT2   ANOTHER_TEXT1
D1  TEXT3   ANOTHER_TEXT2
D2  TEXT3   ANOTHER_TEXT2

我真正需要的是一个数据集，汇总C2，以及内容C1作为不同的列。本质上，什么是df.transpose应该做的。但问题是，如果我转置，它不会聚合C2 and C3.

本质上，这就是我正在查看的结构

**TABLE 2**
 C1              C2    CT1  CT2  CT3

ANOTHER_TEXT1   TEXT1   A1   A2   NA
ANOTHER_TEXT1   TEXT2   B1   B2   B3
ANOTHER_TEXT2   TEXT3   D1   D2   NA

我在尝试df.pivot_table(index=['C2','C3'], aggfunc='count')，它给出了出现次数，这是正确的（如下所示）。

**TABLE 3**
 C1              C2    CT1
ANOTHER_TEXT1   TEXT1   2
                TEXT2   3
ANOTHER_TEXT2   TEXT3   2

那么，我如何得到我想要的结构（表2）？这有可能吗？

如果没有，我还有什么选择？比如，哪种结构最接近我想要的结构。

您可以使用cumcount对于新列，然后重塑set_index with unstack, last add_prefix:

df['g'] = df.groupby(['C2','C3']).cumcount() + 1
df = df.set_index(['C2','C3', 'g'])['C1'].unstack().add_prefix('CT').reset_index()
print (df)
      C2             C3 CT1 CT2   CT3
0  TEXT1  ANOTHER_TEXT1  A1  A5    A2
1  TEXT2  ANOTHER_TEXT1  B1  B2    B3
2  TEXT3  ANOTHER_TEXT2  D1  D2  None

另一种解决方案是groupby，对于新列使用Series构造函数：

df = df.groupby(['C2','C3'])['C1'] \
       .apply(lambda x: pd.Series(x.values)) \
       .unstack() \
       .rename(columns=lambda x: 'CT{}'.format(x+1)) \
       .reset_index()
print (df)
      C2             C3 CT1 CT2   CT3
0  TEXT1  ANOTHER_TEXT1  A1  A5    A2
1  TEXT2  ANOTHER_TEXT1  B1  B2    B3
2  TEXT3  ANOTHER_TEXT2  D1  D2  None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

pandas

Python 中 Pivot 和 Transpose 的组合的相关文章

切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
根据 pandas 列中的字符串值从 DataFrame 中选择行

如何根据pandas列中的字符串值从DataFrame中选择行我只想显示全部大写的状态各州拥有城市总数 import pandas as pd import matplotlib pyplot as plt pylab inline d
如何正确设置 statsmodels.tsa.ar_model.AR.predict 函数的开始/结束参数

我有一个来自不规则间隔时间序列的项目成本数据框我想尝试应用该数据框statsmodelAR模型对抗 http www statsmodels org stable generated statsmodels tsa ar model AR
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
从 MySQL 将 500 万行加载到 Pandas 中

我在本地网络上的 MySQL 数据库中有 500 万行连接速度非常快而不是在互联网上与数据库的连接工作正常但如果我尝试这样做 f pd read sql query SELECT FROM mytable engine inde
计算元组中与模式匹配的元素

我有一个矩阵m我想计算零的数量 m 2 0 2 2 4 4 5 4 0 9 4 8 2 2 0 0 我当前的代码如下 def zeroCount M return item for row in M for item in row coun
Pycharm 中的 Traitlets.traitlets.TraitError

我是Python的初学者我面临以下问题每当我启动 pycharm 社区版版本 5 0 3 时 Python 控制台无法启动并显示以下错误 usr bin python2 7 usr lib pycharm community help
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
如何提高大规模数据帧上 lambda 函数的性能

我有一个df超过数亿行 latitude longitude time VAL 0 39 20000076293945312500 140 80000305175781250000 1972 01 19 13 00 00 1 2000000
使用 Pandas 读取 CSV 时如何删除 .0

我有一个 CSV 文件正在读入 pandas 数据帧所有数字都没有任何小数位但是当我将其读入 dframe 时它会在带小数的数字中添加尾随零 1205 变为 1205 0 如何在 pd read csv 期间去掉 0 我知道我可以在
Ansible 列表未排序

我有一个正在循环的列表问题是它给出了一个奇怪的顺序 param yml 文件 my list a val1 b val2 c val3 d val3 这是我的简单调试循环 name debug debug msg item loop my
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
为什么python+sqlite3特别慢？

我尝试使用 Python 2 7 4 sqlite3 和 Firefox SQLite Manager 0 8 0 处理对同一数据库的相同请求在小型数据库 8000 条记录上 Python 和 Firefox 都运行得很快并且给出了相同
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157

随机推荐

如何提高 boost Interval_map 查找的性能

我正在使用一个boost icl interval map将字节范围映射到一组字符串该地图是从已排序的磁盘文件加载的然后我使用下面的代码进行查找问题是查找速度非常慢在我的测试中我在地图中插入了 66425 个范围我分析了代码
如何在多索引 Pandas 数据框中按组更新前 N 行的值？

我正在尝试更新多索引数据框中的前 N 行但在寻找解决方案时遇到了一些麻烦所以我想为它创建一个帖子示例代码如下 Imports import numpy as np import pandas as pd Set Up Data Fra
AWS Cloudformation 中 UserData 中的参考参数值

我在参数部分有这个 Parameters PlatformSelect Description Cockpit platform Select Type String Default qa 1 AllowedValues qa 1 qa 2
使用 javascript 播放以 Base64 编码的 .wav 声音文件

我能够通过以下方式用 javascript 播放声音 var snd new Audio sound wav snd play 这会播放所需的声音但有时加载速度很慢甚至可能根本不加载所以我用 Base 64 对声音进行编码并尝试以这种
找不到添加到 xcode 7 的自定义字体的名称

我在获取自定义字体的名称时遇到问题我将字体添加到我的项目中并选中如果需要则复制选项我将字体名称添加到应用程序提供的 info plist 标签 Fonts 中我将字体添加到复制捆绑资源中该字体出现在自定义选项卡下的情节提要中
FileStore 4.2.1 分步示例

我想要上传 csv 文件验证它然后上传到现有模型中然而我正在使用 ATK4 2 1 发现 google 搜索到的示例代码要么缺少一些步骤要么与版本 4 2 1 不相关为此在我的第一步中我尝试混合和匹配代码试图让文件存储启动
mod_rewrite：删除尾部斜杠（只有一个！）

我使用 mod rewrite htaccess 来获得漂亮的 URL 我使用此条件规则来消除尾随斜杠或者更确切地说通过 301 重定向重写到非尾随斜杠 URL 我这样做是为了避免重复内容因为我喜欢没有尾随斜杠的 URL更好的 Re
为什么 Canvas API 在循环中使用错误的颜色填充这些路径的部分内容？

我创建了一个JSFiddle所有代码均处于活动状态并正在运行相关JS在这里 const canvas document getElementById base const ctx canvas getContext 2d const cW
Lambda 未加载加密共享库

我正在使用 AWS Lambda 中的加密库我已在 Amazon Linux VM 中使用 pip 编译了该包我已将包作为图层上传不管怎样每次我调用库时我都会遇到一个根本不具有描述性的错误 Unable to import mod
如何在Python PyQt5中将变量分配给工作线程？

我使用pyqt5设计了一个GUI程序我有一个主线程和一个工作线程当 GUI 启动时我会从用户那里获得一些输入例如年龄姓名并且我想在工作人员中处理这些输入例如我如何发送我使用的输入self ui firstname text 给
Silverlight：从 silverlight 控件创建图像

是否可以从 silverlight 控件生成图像以便该控件将自身及其内容渲染到图像中以便我可以对图像进行相同的像素操作在 Silverlight 2 中无法实现此目的我见过人们通过将 XAML 发布到服务器来解决此限制该服务器将使
如何在 C# 中反序列化包含可变数量对象的 json 对象并将它们作为键值集合？

如何反序列化以下 JSON 对象并获取 Dictionary 的集合其中键字符串应该是方法名称对象是 C 中的详细信息 methods password 2 title Password CustomerID type passwo
使用 iText 将标题添加到 pdf

如何使用 iText 5 0 5 将页眉添加到每个 PDF 页面这涵盖在 iText 实践第二版第 5 章代码示例均可在线免费获取尤其电影国家1 and 电影史2两者都处理page页眉和页脚归结为使用PdfPageEvent实现
拼写错误：找不到合适的拼写检查程序

虽然功能aspell标配utils包它似乎不适合我我不断收到同样的错误 aspell love Error in aspell love No suitable spell checker program found 有什么想法吗 gt
使用 GAS AT&T 指令计算引导扇区的填充长度？

所以我想在引导扇区添加填充比方说目前只有一个无限循环 jmp 该扇区的长度需要为 512 字节还有神奇的数字0xaa55需要在最后添加 jmp skip 508 0 word 0xaa55 但是如果我想打印一些内容但不想计算所有
如何在iOS Reachability中检测网络信号强度

我正在 iOS 中创建一个新的旅行应用程序该应用程序高度依赖于地图并且将包含两个地图当用户有较强的网络信号时我的第一个地图将起作用 Apple 地图我的第二张地图将在没有任何网络或信号非常低时使用离线地图框为什么一个应用程序
处理上传的文本文件后在 Google 云端硬盘中创建新文档

我成功地将文本文件上传到谷歌云端硬盘并且编写了一种方法可以成功地将文本翻译为猪拉丁语现在我尝试在 Google Drive 中创建一个新文档来输出翻译后的文本但是我总是收到消息发生错误当我检查我的云端硬盘时我只有原始上传的文
AccountManager：如何让用户使用对话框选择帐户

在 AccountManager 教程中记住您的用户建议如果有多个Account在数组中你应该呈现一个对话框要求用户选择一个最好的方法是什么我心中有一个解决方案但如果社区中有其他好的示例那么这似乎是一种可以由其他人共享和轻松
为什么 Android Studio 3.0.0 在 APK 上设置 FLAG_TEST_ONLY？

我已经通过 3 0 0 rcX 来自 Canary 渠道到达 Android Studio 3 0 0 来自稳定渠道当我启动一个全新的应用程序并构建它时以下代码应用程序内部显示设置了 FLAG TEST ONLY 标志 Log e
Python 中 Pivot 和 Transpose 的组合

我正在做一些文本分析并且有一个看起来像这样的数据 TABLE 1 C1 C2 C3 A1 TEXT1 ANOTHER TEXT1 A2 TEXT1 ANOTHER TEXT1 B1 TEXT2 ANOTHER TEXT1 B2 TEXT2

Python 中 Pivot 和 Transpose 的组合

Python 中 Pivot 和 Transpose 的组合 的相关文章

随机推荐

热门标签

Python 中 Pivot 和 Transpose 的组合的相关文章