将长表转换为宽表并根据行创建列

2024-01-06

我有一个如下所示的数据框：

Customer_ID     Category   Products 
  1               Veg         A
  2               Veg         B
  3              Fruit        A   
  3              Fruit        B
  3               Veg         B 
  1              Fruit        A
  3               Veg         C 
  1              Fruit        C

我想找出每个类别的每个客户 ID 购买了哪些产品，并相应地为每个产品创建一个列。输出如下所示：

Customer_ID     Category    Pro_1    Pro_2     Pro_3
  1               Veg        A        NA         NA
  1              Fruit       A        NA         C
  2               Veg        NA       B          NA
  3               Veg        NA       B          C
  3              Fruit       A        B          NA

Use groupby http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html with unstack http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.unstack.html，但是如果重复的行数据连接在一起：

df = df.groupby(['Customer_ID','Category','Products'])['Products'].sum().unstack()
df.columns = ['Pro_{}'.format(x) for x in range(1, len(df.columns)+1)]
df = df.reset_index()
print (df)
   Customer_ID Category Pro_1 Pro_2 Pro_3
0            1    Fruit     A  None     C
1            1      Veg     A  None  None
2            2      Veg  None     B  None
3            3    Fruit     A     B  None
4            3      Veg  None     B     C

另一个带有辅助列的解决方案，三元组必须是唯一的：

#if not unique triples remove duplicates
df = df.drop_duplicates(['Customer_ID','Category','Products'])

df['a'] = df['Products']
df = df.set_index(['Customer_ID','Category','Products'])['a'].unstack()
df.columns = ['Pro_{}'.format(x) for x in range(1, len(df.columns)+1)]
df = df.reset_index()
print (df)
   Customer_ID Category Pro_1 Pro_2 Pro_3
0            1    Fruit     A  None     C
1            1      Veg     A  None  None
2            2      Veg  None     B  None
3            3    Fruit     A     B  None
4            3      Veg  None     B     C

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

pandas

pivottable

将长表转换为宽表并根据行创建列的相关文章

如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name

随机推荐

igraph/visNetwork with R：如何禁用前向链接？

以下代码生成一个漂亮的网络图 library igraph library visNetwork library dplyr set seed 123 nnodes lt 10 nnedges lt 20 nodes lt data fra
如何使用 Python (Windows Vista) 检索列表中文件的标签？

我想为我拥有的各种文件夹制作一个标签云但不幸的是我似乎找不到在 Windows Vista 中访问文件标签的方法我尝试查看 win32 模块和 os stat 但我似乎找不到方法我可以得到一些帮助吗我使用 win32 扩展包以及我
使用 Python 3 中的 Pipeline 获取 RFE 的支持和排名属性

到目前为止我的代码如下并且运行良好但是我想打印以下内容RFE每个测试特征的属性 rfe support i rfe ranking i 和所选功能的名称由于 i 指的是索引因此第一个属性返回 True 或 False 如果列被选择
通过 css-loader 3.4.2 中的 localsConvention 将 kebab-case 转换为camelCase 不起作用

出于测试学习的目的我使用的是弹出版本create react app 3 4 1附带css loader 3 4 2 我正在尝试重现这些结果 https github com webpack contrib css loader nam
错误：使用WCF客户端访问另一台计算机上的服务时无法从http://172.16.70.125:8080/获取元数据

我是 WCF 的新手事情是这样的我有两个系统一个运行 wcf 服务另一个运行客户端我能够 ping 通该服务的 IP 并且当我将其放入浏览器时也能够看到该链接它显示服务已启动并正在运行但是当我尝试从 cmd 运行 wcfte
在 VS2010 中动态链接 Boost 1.51.0 时出现链接器错误 LNK2019

我正在使用 BoostPro 计算安装程序安装的 boost 库我在 Windows 7 64 位计算机上使用 VS 2010 我想动态链接到boost 所以我选择了安装程序中的前两个选项多线程调试DLL和多线程DLL 我相信它们被称为
无法加载 exp:// 出了问题

我使用 Expo XDE 创建了一个项目我检查了这个无法加载博览会应用程序出了问题 https stackoverflow com questions 43002144 cant load expo app something went
ViewHolder 不工作

我正在关注这个教程http xjaphx wordpress com 2011 06 16 viewholder pattern caching view efficiently http xjaphx wordpress com 2011
Spring - 拦截器/过滤器中给定请求的 get 方法

Various RequestMapping我里面的方法 Controller类具有我想在运行时分析的自定义注释 E g Controller RequestMapping bla RequireCommunityLevel Another
无法下载nltk数据

import nltk nltk download 表明 SSL CERTIFICATE VERIFY FAILED 的情况下requests一个可以使用verify False 但是这里该怎么办 UPDATE 此错误在 Mac OS X
在多态继承层次结构中强制执行类型安全的最佳实践[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我似乎经常遇到这种情况但尚未找到我认为可以接受的解决方案我经常会遇到并行继承层次结构其中一个层次结构中的方法会从另一个层次结构中将匹配的类
如何将数据从 Amazon DynamoDB 导出到 MySQL 服务器

我没有处理 Amazon AWS DynamoDB 等 Nosql 数据库的经验我有一些数据存储在 Amazon AWS DynamoDB 中是否可以将数据从 DynamoDB 导出到 MySQL 服务器如果是这样如何实现这一目标
间歇性 RequireJS 加载错误

我有一个相当大的 Backbone js 项目它使用 RequireJS 随着项目规模的增长这里的规模指的是独立模块文件的数量间歇性错误开始出现大多数时候这是一个对象错误 Uncaught TypeError object i
验证损失远高于训练损失

我对深度学习模型非常陌生并尝试使用 LSTM 和 Keras Sequential 来训练多个时间序列模型 50 年中每年有 25 个观测值 1250 个样本因此不确定是否可以将 LSTM 用于如此小的数据然而我有数千个特征变量不
将 UICollectionView 滚动到底部

我想将 UICollectionView 滚动到底部以便最后一个项目位于视图中我尝试使用scrollToItemAtIndexPath 但它似乎不起作用我希望在使用 Parse com 完成查询后发生这种情况 Thanks var q
更改导入模块的日志级别

假设您的代码正在使用一个模块使用日志语句logging info来自模块而不是logger info来自记录器实例并且您无法控制修改正在使用的模块是否可以只为导入的模块自定义日志记录级别而无需请求维护人员更改代码这些问题描述了更改
无法将 System.Net.Http 包安装到 Windows Phone 7.1 Silverlight 项目中

我使用 Nuget 安装 Microsoft ASP NET Web API 客户端库来获取最新的 System Net Http 程序集以便在 Windows Phone 7 1 XNA 和 Silverlight 项目中使用它可以
指定 Pandas get_dummies 的可能值列表

假设我有一个如下所示的 Pandas DataFrame 并且我正在编码 categorical 1 以在 scikit learn 中进行训练 data numeric 1 12 1 3 2 5 5 6 8 9 9 categorical
Java 8 并行 forEach 进度指示

出于性能原因我想使用并行 Lambda 流的 forEach 循环来处理Collection在爪哇因为这是在后台运行的Service我想使用updateProgress double double 方法以便通知用户当前进度为了指示当
将长表转换为宽表并根据行创建列

我有一个如下所示的数据框 Customer ID Category Products 1 Veg A 2 Veg B 3 Fruit A 3 Fruit B 3 Veg B 1 Fruit A 3 Veg C 1 Fruit C 我想找出每

将长表转换为宽表并根据行创建列

将长表转换为宽表并根据行创建列 的相关文章

随机推荐

热门标签

将长表转换为宽表并根据行创建列的相关文章