从长到宽的数据。熊猫

2024-03-24

我试图将我的数据框从长格式（其中有一列带有分类变量）转换为宽格式（其中每个类别都有自己的价格列）。目前，我的数据如下所示：

date-time            date       vendor    payment_type   price
03-10-15 10:00:00    03-10-15     A1            1          50
03-10-15 10:00:00    03-10-15     A1            2          60
03-10-15 10:00:00    03-11-15     A1            1          45
03-10-15 10:00:00    03-11-15     A1            2          70
03-10-15 10:00:00    03-12-15     B1            1          40
03-10-15 10:00:00    03-12-15     B1            2          45
03-10-15 10:00:00    03-10-15     C1            1          60
03-10-15 10:00:00    03-10-15     C1            1          65

我的目标是为每个供应商的价格和每种付款类型创建一列，每天一行。当每天有多个值时，我想使用最大值。最终结果应该是这样的。

Date       A1_Pay1   A2_Pay2 ... C1_Pay1   C1_Pay2
03-10-15     50        60    ...   65        NaN
03-11-15     45        70    ...   NaN       NaN
03-12-15     NaN       NaN   ...   NaN       NaN

我尝试使用unstack和pivot，但我要么没有得到我想要的东西，要么收到关于日期不是唯一索引的错误。

有任何想法吗？

您可以使用pivot_table http://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html:

#convert column payment_type to string
df['payment_type'] = df['payment_type'].astype(str)

df = pd.pivot_table(df, index='date', columns=['vendor', 'payment_type'], aggfunc=max)

#remove top level of multiindex
df.columns = df.columns.droplevel(0)

#reset multicolumns
df.columns = ['_Pay'.join(col).strip() for col in df.columns.values]

print df
            A1_Pay1  A1_Pay2  B1_Pay1  B1_Pay2  C1_Pay1
date                                                   
2015-03-10       50       60      NaN      NaN       65
2015-03-11       45       70      NaN      NaN      NaN
2015-03-12      NaN      NaN       40       45      NaN

EDIT:

如果您需要其他统计数据，可以将它们添加为列表aggfunc:

#convert column payment_type to string
df['payment_type'] = df['payment_type'].astype(str)
df = pd.pivot_table(df, index='date', columns=['vendor', 'payment_type'], 
                                      aggfunc=[np.mean, np.max, np.median])
print df
              mean                    amax                 median              \
             price                   price                  price               
vendor          A1      B1        C1    A1      B1      C1     A1      B1       
payment_type     1   2   1   2     1     1   2   1   2   1      1   2   1   2   
date                                                                            
2015-03-10      50  60 NaN NaN  62.5    50  60 NaN NaN  65     50  60 NaN NaN   
2015-03-11      45  70 NaN NaN   NaN    45  70 NaN NaN NaN     45  70 NaN NaN   
2015-03-12     NaN NaN  40  45   NaN   NaN NaN  40  45 NaN    NaN NaN  40  45   



vendor          C1  
payment_type     1  
date                
2015-03-10    62.5  
2015-03-11     NaN  
2015-03-12     NaN 
#remove top level of multiindex
df.columns = df.columns.droplevel(1)
#reset multicolumns
df.columns = ['_Pay'.join(col).strip() for col in df.columns.values]

print df
            mean_PayA1_Pay1  mean_PayA1_Pay2  mean_PayB1_Pay1  \
date                                                            
2015-03-10               50               60              NaN   
2015-03-11               45               70              NaN   
2015-03-12              NaN              NaN               40   

            mean_PayB1_Pay2  mean_PayC1_Pay1  amax_PayA1_Pay1  \
date                                                            
2015-03-10              NaN             62.5               50   
2015-03-11              NaN              NaN               45   
2015-03-12               45              NaN              NaN   

            amax_PayA1_Pay2  amax_PayB1_Pay1  amax_PayB1_Pay2  \
date                                                            
2015-03-10               60              NaN              NaN   
2015-03-11               70              NaN              NaN   
2015-03-12              NaN               40               45   

            amax_PayC1_Pay1  median_PayA1_Pay1  median_PayA1_Pay2  \
date                                                                
2015-03-10               65                 50                 60   
2015-03-11              NaN                 45                 70   
2015-03-12              NaN                NaN                NaN   

            median_PayB1_Pay1  median_PayB1_Pay2  median_PayC1_Pay1  
date                                                                 
2015-03-10                NaN                NaN               62.5  
2015-03-11                NaN                NaN                NaN  
2015-03-12                 40                 45                NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

从长到宽的数据。熊猫的相关文章

minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Django 1.7 应用程序配置导入错误：没有名为 appname.apps 的模块

我正在尝试按照以下文档为我的一个名为文章的 Django 应用程序设置自定义应用程序配置https docs djangoproject com en dev ref applications https docs djangoproj
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
更改用作函数全局作用域的字典

我想做一个 purePython 的装饰器其中一部分是能够有选择地禁止访问函数的全局范围有没有一种方法可以以编程方式更改哪个字典事物充当函数的全局外部作用域因此例如在下面我希望能够拦截对f in h并抛出错误但我想允许访问g因为
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1

随机推荐

这样做的目的是什么(MyJobject as ILocalObject).GetObjectID

在delphi Tokyo源代码中我看到这两种不同的方式来检索服务经理 var FLocationManager JLocationManager FLocationManager TJLocationManager Wrap TAnd
express-jwt 不尊重未受保护的路径

有关express jwt模块的信息可以在这里找到 https github com auth0 express jwt https github com auth0 express jwt https www npmjs com pack
让笑话在故事书中全球可用

我在用 storybook react 6 in a create react app项目我对所有商店对象等进行了数千次测试和模拟这些模拟利用jest fn 我想在我的故事书故事中重复使用这些模拟但它说jest is not def
neo4j 使用选项卡加载 CSV

我正在尝试使用以下命令加载 csv 并在 neo4j 2 1 0 中创建节点使用定期提交从 file c temp listings TXT 加载 CSV AS 行 FIELDTERMINATOR t CREATE p person i
mmap 与 fileinput 的优点

我读到 mmap 比 fileinput 有优势因为它会将页面读入内核页面缓存并在用户地址空间中共享该页面而 fileinput 实际上将一个页面带入内核并将一行复制到用户地址空间因此文件输入会产生额外的空间开销所以我打算转向
如何在 PostgreSQL 的函数内编写WITH(CTE)

我正在尝试使用 WITH 它是 PostgreSQL 函数中的公共表表达式以下是示例 Example Create or replace function withFunction returns void as Body Begin W
变换比例导致间隙/线条

我目前正在构建一个网站但遇到了问题transform scale 我有一个按钮当用户将鼠标悬停在它上面时会发生两件事背景沿对角线扫过按钮标签颜色改变按钮稍微变大我已经完成了这个工作看起来非常好但是在实施之后3 当按钮变大
dlclose 上不会调用共享库中全局静态变量的析构函数

在主程序中我dlopen and dlclose LoadLibrary and FreeLibrary分别一个共享库共享库包含一个实例化的静态变量dlopen 并销毁于dlclose 此行为在 MSVC 2008 和 2013 GC
如何分割逗号分隔的字符串，同时忽略转义逗号？

我需要编写 StringUtils commaDelimitedListToStringArray 函数的扩展版本它获取一个附加参数转义字符所以打电话给我的 commaDelimitedListToStringArray test t
Docker 用户无法写入已安装的文件夹

我有以下设置 selenium chrome image selenium node chrome debug 3 141 59 neon container name chrome e2e depends on selenium hub
如何在 Cloudformation 模板中使列表项成为条件？

我有以下创建代码管道的云形成模板该管道分为三个阶段 Stages Name Source Actions Name Source ActionTypeId Category Source Owner ThirdParty Version
如何在tf-slim中使用evaluation_loop和train_loop

我正在尝试实现一些不同的模型并在 CIFAR 10 上训练它们我想使用 TF slim 来做到这一点看起来 TF slim 有两个在训练期间有用的主要循环 train loop 和 evaluation loop 我的问题是使用这些循
mod_deflate 与 Django GZipMiddleware，使用哪一个进行部署？

我们正在使用 Apache 2 2 mod wsgi 部署 Django 应用程序我们应该在 Apache 中启用 mod deflate 还是使用 Django 的 GZipMiddleware 哪个选项表现更好你可能应该测试一下才能
Directory.GetFiles 查找不存在的文件

我刚刚偶然发现了一个没有记录的行为GetFiles中的方法System IO Directory 每当searchPattern传递给该方法的参数包含保留的 Windows 设备名称例如 nul or aux bmp 该方法返回一个包含不
在android中将图像和视频发送到服务器

我正在创建一个用于拍摄照片和视频的 Android 应用程序捕获图像后我想将带有日期和一些文本的图像发送到网络服务器在服务器端我正在使用这些图片和视频制作一个应用程序拍摄的图像将保存在存储卡中如何使用 JSON 发送带有文本的图
如何获取Jupyter Notebook的路径？

有没有获取Notebook路径的函数我在谷歌上搜索了一些关于这个主题的信息但没有找到一个简单的方法我想获得笔记本的路径这样我就可以在其他地方使用它这样我就可以在与笔记本相同的路径中保存使用文件而不必担心它的保存位置现在我的解
如何在没有机器人的情况下在node.js中接收我自己的电报消息

我想在nodejs 一个例子中有一个非常简单的客户端它可以接收来自我的电报联系人的消息我刚刚在互联网上搜索但只得到了机器人样本我想接收群组消息但我无权向我的机器人授予权限因此我想知道我是否可以在没有机器人作为中介的情况下接收自
将 pandas 中一个时间序列的值替换为另一个时间序列的值

我有两个数据框 s1 time X1 0 1234567000 96 32 1 1234567005 96 01 2 1234567009 96 05 s2 time X2 0 1234566999 23 88 1 1234567006 2
rmarkdown 表的单个单元格中的多行

我想使用 RMarkdown 创建一个在单个单元格中包含多行的表格本页提到了多行和网格表格单元格 http rmarkdown rstudio com authoring pandoc markdown html http rmarkdo
从长到宽的数据。熊猫

我试图将我的数据框从长格式其中有一列带有分类变量转换为宽格式其中每个类别都有自己的价格列目前我的数据如下所示 date time date vendor payment type price 03 10 15 10 00 00 0

从长到宽的数据。熊猫

从长到宽的数据。熊猫 的相关文章

随机推荐

热门标签

从长到宽的数据。熊猫的相关文章