重复条目并重命名 pandas 数据透视表中的列行而不进行聚合

2023-11-29

我正在尝试将这个示例数据帧从长格式重塑为宽格式，而不聚合任何数据。

import numpy as np
import pandas as pd

df = pd.DataFrame({'SubjectID': ['A', 'A', 'A', 'B', 'B', 'C', 'A'], 'Date': 
['2010-03-14', '2010-03-15', '2010-03-16', '2010-03-14', '2010-05-15', 
'2010-03-14', '2010-03-14'], 'Var1': [1 , 12, 4, 7, 90, 1, 9], 'Var2': [ 0, 
0, 1, 1, 1, 0, 1], 'Var3': [np.nan, 1, 0, np.nan, 0, 1, np.nan]})

df['Date'] = pd.to_datetime(df['Date']); df

    Date    SubjectID   Var1    Var2    Var3
0   2010-03-14  A   1   0   NaN
1   2010-03-15  A   12  0   1.0
2   2010-03-16  A   4   1   0.0
3   2010-03-14  B   7   1   NaN
4   2010-05-15  B   90  1   0.0
5   2010-03-14  C   1   0   1.0
6   2010-03-14  A   9   1   NaN

为了解决重复值，我按"Date"列并获取每个值的累积计数。然后我制作一个数据透视表

df['idx'] = df.groupby('Date').cumcount()

dfp = df.pivot_table(index = 'SubjectID', columns = 'idx'); dfp 

    Var1    Var2    Var3
idx 0   1   2   3   0   1   2   3   0   2
SubjectID                                       
A   5.666667    NaN NaN 9.0 0.333333    NaN NaN 1.0 0.5 NaN
B   90.000000   7.0 NaN NaN 1.000000    1.0 NaN NaN 0.0 NaN
C   NaN NaN 1.0 NaN NaN NaN 0.0 NaN NaN 1.0

但是，我想要idx列索引是来自的值"Date"列，我不想聚合任何数据。预期输出是

     Var1_2010-03-14 Var1_2010-03-14 Var1_2010-03-15 Var1_2010-03-16 Var1_2010-05-15 Var2_2010-03-14    Var2_2010-03-15 Var2_2010-03-16 Var2_2010-05-15 Var3_2010-03-14 Var3_2010-03-15 Var3_2010-03-16 Var3_2010-05-15
SubjectID                                       
A   1   9   12  4   NaN 0   1   0    1.0    NaN NaN NaN 1.0 0.0 NaN
B   7.0 NaN NaN NaN 90  1   NaN NaN  1.0    NaN NaN NaN NaN NaN 0.0
C   1   NaN NaN NaN NaN 0   NaN NaN  NaN    NaN 1.0 NaN NaN NaN NaN

我怎样才能做到这一点？最终，我将合并两个列索引dfp.columns = [col[0]+ '_' + str(col[1]) for col in dfp.columns].

您走在正确的道路上：

# group
df['idx'] = df.groupby('Date').cumcount()

# set index and unstack
new = df.set_index(['idx','Date', 'SubjectID']).unstack(level=[0,1])

# drop idx column
new.columns = new.columns.droplevel(1)
new.columns = [f'{val}_{date}' for val, date in new.columns]

我认为这是你的预期输出

Using map看起来会快一点：

df['idx'] = df.groupby('Date').cumcount()
df['Date'] = df['Date'].astype(str)
new = df.set_index(['idx','Date', 'SubjectID']).unstack(level=[0,1])
new.columns = new.columns.droplevel(1)
#new.columns = [f'{val}_{date}' for val, date in new.columns]
new.columns = new.columns.map('_'.join)

这是一个 50,000 行测试示例：

#data
data = pd.DataFrame(pd.date_range('2000-01-01', periods=50000, freq='D'))
data['a'] = list('abcd')*12500
data['b'] = 2
data['c'] = list('ABCD')*12500
data.rename(columns={0:'date'}, inplace=True)

# list comprehension:
%%timeit -r 3 -n 200
new = data.set_index(['a','date','c']).unstack(level=[0,1])
new.columns = new.columns.droplevel(0)
new.columns = [f'{x}_{y}' for x,y in new.columns]

# 98.2 ms ± 13.3 ms per loop (mean ± std. dev. of 3 runs, 200 loops each)

# map with join:
%%timeit -r 3 -n 200
data['date'] = data['date'].astype(str)
new = data.set_index(['a','date','c']).unstack(level=[0,1])
new.columns = new.columns.droplevel(0)
new.columns = new.columns.map('_'.join)

# 84.6 ms ± 3.87 ms per loop (mean ± std. dev. of 3 runs, 200 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

TimeSeries

Pivot

重复条目并重命名 pandas 数据透视表中的列行而不进行聚合的相关文章

将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA
在seaborn barplot之前隐藏文本[重复]

这个问题在这里已经有答案了我正在尝试使用seaborn打印条形图 plt figure figsize 16 6 g sns barplot x A y B data df g set xticklabels g get xticklab
如何在日志中查看MySqlHook结果

我在用MySqlHook建立连接气流数据库并且我正在执行一些查询但我需要在某处查看查询的结果比如说日志我怎样才能看到这是示例代码 t1 MySqlOperator task id basic mysql mysql conn id
python：动态添加属性到内置类

为什么它不适用于内置类使用子类是修复它的最佳方法还是会遇到一些隐藏的问题 a a p 1 raises AttributeError class B dict pass b B b p 1 works 编辑我最初的评论是它不起作用b不
将 float64 列转换为日期时间 pandas 时出错

我需要将 float64 类型转换为日期时间格式以20181219 0数据为例我想要的是2018 12 19 我尝试过通用代码 df1 ACT DATE1 pd to datetime df1 ACT DATE1 format Y m
如何使用 str.replace 一次替换多个对？ [复制]

这个问题在这里已经有答案了目前我使用以下代码进行替换有点麻烦 df1 CompanyA df1 CompanyA str replace df1 CompanyA df1 CompanyA str replace df1 Company
Python 3.4.3 tkinter - 程序在声明 IntVar 或任何其他 tkinter 数据类型时冻结

上一主题 Python 3 4 tkinter checkbutton变量处理不起作用响应 https stackoverflow com questions 33711472 python 3 4 tkinter checkbutton
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
将数据框列打包到 pandas 中列出

我需要将 pandas DataFrame 列打包到包含列表的一列中例子 For gt gt gt df a b c 0 81 88 1 1 42 7 23 2 8 37 63 3 18 22 20 制作列表栏 list col 0 81
避免在列表理解中计算相同的表达式两次[重复]

这个问题在这里已经有答案了我在列表理解中使用一个函数和一个 if 函数 new list f x for x in old list if f x 0 令我恼火的是这个表达f x 在每个循环中计算两次有没有办法以更清洁的方式做到这一点
使用 Pandas 和 Group By 绘制堆叠直方图

我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图我希望每个图有两个堆叠的直方图每个性别一个这是文档中的堆叠直方图如果存在
Pandas 替换特定列上的值

我知道这两个类似的问题熊猫替换值 https stackoverflow com questions 27117773 pandas replace values Pandas 替换数据框中的列值 https stackoverflow
如何将 Pandas 数据帧的多列弹出到新数据帧中？

假设我有以下内容 df pd DataFrame a range 2 b range 2 c range 2 d range 2 我想将两列 c 和 d 从数据框中弹出到一个新的数据框中将 a 和 b 留在原始 df 中以下不起作用
如何在 Visual Studio 代码中的奇点/docker 图像中使用 python 解释器

我希望能够在 Visual Studio 代码的奇点图像中使用 python 解释器似乎将 VSCODE 指向 python 解释器的所有选项都涉及直接路径但在图像中使用 python 需要一个命令 singularity exec p
每次运行神经网络代码时结果都会改变

我通过运行此链接中提供的代码得到了结果神经网络预测多个变量的值 https stackoverflow com questions 58071836 neural network predicting values of multiple
如何将不同的函数应用于pandas数据框的不同列

我想在 pandas 数据帧上使用 groupby 但我想获取某些列的平均值和其他列的总和假设我们有以下数据框 ID A B C 1 1 1 0 1 2 3 1 1 3 6 1 4 3 2 1 4 4 1 0 6 5 1 0 6 6 6
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe

随机推荐

音频和视频等大文件的数据库

我的应用程序创建了大量文件每个文件最大 100MB 目前我们将这些文件存储在运行良好的文件系统中但我想知道是否有更好的解决方案将文件存储在某种文件数据库中数据库的一个简单优点是它可以分割文件并存储在小块中而不是一个 100mb 的文
使用 shebang 通过 subprocess.call 执行 python 脚本

我正在用 Python 3 编写一个某种程度上模块化应用程序我想从中运行任意程序该程序是在运行时指定的而不一定是 python 脚本所以我用例如 subprocess call spam i eggs o ham If spam
带有自定义标签的 CSS 宽度

我无法获取适用于我的自定义标签的宽度和高度属性请参阅下面的代码 CSS x slider width 1000px height 300px border 1px black solid background color 0000ff H
在.NET中获取用户的Exchange服务器和电子邮件地址

嗨我想知道我的用户的 Exchange 服务器的地址假设她位于典型的 Windows 办公网络中这是在 C 应用程序中我已经有了用户的电子邮件地址我在以下位置找到了它System DirectoryServices Account
类依赖工具

我正在寻找一个最好是开源工具在给定大量 C C 代码的情况下该工具将生成类 C 和或文件 C 之间依赖关系的可视化或 XML 图表这个想法是如果您必须将代码转换为另一种语言您希望能够首先编译最低级别的类然后从那里开始构建
在 Apache Flink 中使用 DynamoDB 流

有人尝试过在 Apache Flink 中使用 DynamoDB 流吗 Flink 有一个 Kinesis 消费者但我正在寻找如何直接使用 Dynamo 流 DataStream
Windbg：是否可以在我自己的程序中嵌入Windgb引擎？

我想编写一个调试诊断工具它可以调用 Windbg 函数来检查转储文件而不是编写 Windbg 扩展这可能吗有什么参考吗多谢您可以使用 dbghelp dll 中实现的调试 API 而不是 WinDbg 它记录在MSDN 该参考
用指针修改字符串[重复]

这个问题在这里已经有答案了这两个代码必须改变字符2在角色中 4 int main int argc char argv char s hello s 2 4 printf s n s return 0 当我运行此命令时我会遇到分段错误
Python 和 MySQLdb：表替换导致语法错误

我需要时不时地动态更改表和变量所以我写了一个像这样的python方法 selectQ SELECT FROM s WHERE s s self db execute selectQ self table self columnSpecNa
F# 中“>>”运算符的语义

在微软的F 样本他们使用 gt gt 运算符如下所示 test gt Seq iter any to string gt gt printfn line s gt gt 运算符在这种情况下做什么序列中的每个项目在本例中为数组是否被
.NET 异步流读/写

我一直在尝试解决这个并发编程考试练习 C 知道Stream类包含int Read byte buffer int offset int size and void Write byte buffer int offset int siz
Html / Php 表单未添加到 SQL 数据库

我已经为此工作了几个小时包括重建我的整个代码我无法弄清楚出了什么问题 HTML 表单应该填充患者 SQL 数据库但它不起作用我在网站的另一部分使用了一个类似的表格该表格可以完美地工作但这个表格似乎不起作用并且无法弄清楚为什么
MySQL REPEATABLE-READ Workbench 事务级别未设置

我们在 my ini 文件中设置了以下内容 mysql 事务隔离已提交读我们假设此设置将是所有用户会话的默认设置使用 PHPMyAdmin 登录时 tx isolation 设置正确并且按预期工作然而当使用 MySQL Workb
拖放在 C# 中不起作用

我在 C 中创建了一个拖放控件以允许人们将文件拖放到我的表单上这是我遇到的问题调试时工作正常但是当以管理员模式运行我的程序时它不起作用这有什么原因吗这是我的代码 private void panel1 DragEnter o
.NET 24 小时格式时间的正则表达式

我可以在 NET 中有一个正则表达式吗它只允许文本框中使用 24 小时时间格式 Thanks 此致多发性硬化症正则表达式时间 hh mm 验证 24 小时格式 0 1 d 2 0 3 0 5 d 如果你也需要几秒钟 0 1 d 2
使用 HTML 的 PHP 表格

我的目标是使用一个 txt 文件其中包含填写表单的特定响应所需的数据该表格应该有用户名和密码此外还可以在表单上设置价格范围参数用户名可以任意大小写但密码区分大小写我已经创建了我将使用的 html 表单 txt 文件中的数据包含
使用函数参数进行回文条件检查[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心这是使用函数参数来检查字符串是否回文的 php 代码
Java 日期之间的天数（作业）

当我运行该程序时这是几天的休息时间对我做错了什么有什么建议吗我知道有一种更简单的方法可以做到这一点但为此我试图展示查找之间的天数的所有实际步骤家庭作业因此不能使用日期时间库 public class DaysBetween pu
Spring REST 模拟上下文路径

我尝试使用以下代码片段设置 Spring Rest 模拟的上下文路径 private MockMvc mockMvc Before public void setUp this mockMvc MockMvcBuilders webAppC
重复条目并重命名 pandas 数据透视表中的列行而不进行聚合

我正在尝试将这个示例数据帧从长格式重塑为宽格式而不聚合任何数据 import numpy as np import pandas as pd df pd DataFrame SubjectID A A A B B C A Date 201

重复条目并重命名 pandas 数据透视表中的列行而不进行聚合

重复条目并重命名 pandas 数据透视表中的列行而不进行聚合 的相关文章

随机推荐

热门标签

重复条目并重命名 pandas 数据透视表中的列行而不进行聚合的相关文章