Pandas：将操作应用于多索引中的重复列

2023-12-29

我有 MultiColumns：第二级重复包含Job Openings and Hires。我想为每个顶级列减去一个，但我所做的一切都会让我陷入索引错误或切片错误。我怎样才能计算它？

样本数据：

>>> df.head()
Out[25]: 
           Total nonfarm              Total private               
                   Hires Job openings         Hires Job openings   
date                                                               
2001-01-01          5777         5385          5419         4887   
2002-01-01          4849         3759          4539         3381   
2003-01-01          4971         3824          4645         3424   
2004-01-01          4827         3459          4552         3153   
2005-01-01          5207         3670          4876         3358

预期输出：

Out[25]: 
           Total nonfarm   Total private              
              difference      difference   
date                                                               
2001-01-01          1234            5678          
2002-01-01          1234            5678          
2003-01-01          1234            5678         
2004-01-01          1234            5678      
2005-01-01          1234            5678

其中数字显然不正确。

特别是在 apply() 中

为了有一个普遍适用的方式，我试图建立

def apply(group):
    result = group.loc[:, pd.IndexSlice[:, 'Job openings']].div(group.loc[:, pd.IndexSlice[:, 'Hires']].values)
    result.columns = pd.MultiIndex.from_product([[group.columns.get_level_values(0)[0]], ['Ratio']])
    return result.values
foo = df.groupby(axis=1, level=0).apply(apply)

它存在两个问题：

我需要欺骗.values为了得到正确的划分
foo不是一个正确的数据框：

住宿和餐饮服务 [[0.76]、[0.480349344978]、[0.501388888889]、[... 艺术、娱乐和休闲 [[0.558139534884]、[0.46017699115]、[0.2483221... 建设 [[0.35], [0.274881516588], [0.267260579065], [...

我首先尝试返回result，代替result.values，但这只会导致一个充满了的数据框NaN

特别是使用列名

我不喜欢得票最高的答案是它需要.diff() or .div()- 黑客行为，使得代码难以阅读，并且当子级别有两列以上时难以实现。

Setup

import pandas as pd

df = pd.DataFrame(
    [
        [5777, 5385, 5419, 4887],
        [4849, 3759, 4539, 3381],
        [4971, 3824, 4645, 3424],
        [4827, 3459, 4552, 3153],
        [5207, 3670, 4876, 3358],
    ],
    index=pd.to_datetime(['2001-01-01',
                          '2002-01-01',
                          '2003-01-01',
                          '2004-01-01',
                          '2005-01-01']),
    columns=pd.MultiIndex.from_tuples(
        [('Total nonfarm', 'Hires'), ('Total nonfarm', 'Job Openings'),
         ('Total private', 'Hires'), ('Total private', 'Job Openings')]
    )
)

print df

           Total nonfarm              Total private             
                   Hires Job Openings         Hires Job Openings
2001-01-01          5777         5385          5419         4887
2002-01-01          4849         3759          4539         3381
2003-01-01          4971         3824          4645         3424
2004-01-01          4827         3459          4552         3153
2005-01-01          5207         3670          4876         3358

Try:

df.T.groupby(level=0).diff(-1).dropna().T

           Total nonfarm Total private
                   Hires         Hires
2001-01-01         392.0         532.0
2002-01-01        1090.0        1158.0
2003-01-01        1147.0        1221.0
2004-01-01        1368.0        1399.0
2005-01-01        1537.0        1518.0

要应用其他变换（例如比率），您可以执行以下操作：

print df.T.groupby(level=0).apply(lambda x: np.exp(np.log(x).diff(-1))).dropna().T

           Total nonfarm Total private
                   Hires         Hires
2001-01-01      1.072795      1.108860
2002-01-01      1.289971      1.342502
2003-01-01      1.299948      1.356600
2004-01-01      1.395490      1.443704
2005-01-01      1.418801      1.452055

Or:

print df.T.groupby(level=0).apply(lambda x: x.div(x.shift(-1))).dropna().T

           Total nonfarm Total private
                   Hires         Hires
2001-01-01      1.072795      1.108860
2002-01-01      1.289971      1.342502
2003-01-01      1.299948      1.356600
2004-01-01      1.395490      1.443704
2005-01-01      1.418801      1.452055

要重命名列并与原始数据框合并，您可以：

df2 = df.T.groupby(level=0).diff(-1).dropna().T
df2.columns = pd.MultiIndex.from_tuples(
    [('Total nonfarm', 'difference'),
     ('Total private', 'difference')])
pd.concat([df, df2], axis=1).sort_index(axis=1)

好像：

           Total nonfarm                         Total private               \
                   Hires Job Openings difference         Hires Job Openings   
2001-01-01          5777         5385      392.0          5419         4887   
2002-01-01          4849         3759     1090.0          4539         3381   
2003-01-01          4971         3824     1147.0          4645         3424   
2004-01-01          4827         3459     1368.0          4552         3153   
2005-01-01          5207         3670     1537.0          4876         3358   

           difference  
2001-01-01      532.0  
2002-01-01     1158.0  
2003-01-01     1221.0  
2004-01-01     1399.0  
2005-01-01     1518.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas：将操作应用于多索引中的重复列的相关文章

如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
使用 matplotlib 在图像数据之上对线网格进行像素精确定位

我试图在 python 库 matplotlib 显示的图像网格顶部精确地覆盖 1 像素宽线的网格不幸的是我似乎无法对结果进行足够精细的控制以实现线网格与数据网格的正确对齐如下面的代码所示结果似乎总是很接近但并不完全正确我尝试
使用 Flask 从 Jinja 模板中的 settings.py 文件获取变量

假设我有 settings py 文件其中包含一堆常量将来可能会更多如何访问 Jinja 模板中的这些变量 Flask 会自动将您的应用程序的配置包含在标准上下文 http flask pocoo org docs templatin
numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
pandas：使用运算符链接过滤 DataFrame 的行

大多数业务在pandas可以通过操作符链接来完成 groupby aggregate apply等但我发现过滤行的唯一方法是通过普通的括号索引 df filtered df df column value 这没有吸引力因为它需要我分配d
如何在 Google App Engine 中为模型定义唯一属性？

我需要一些独特的属性我怎样才能实现这个目标有没有类似的东西unique True 我正在使用适用于 Python 的 Google App Engine Google 提供了执行此操作的函数 http code google com a
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
检查对象是否是字符串列表的列表？

是什么elegant检查对象是否是字符串列表列表的方法没有嵌套循环也许这里必须是构造结构化迭代的常规方法 UPD 像这样的东西 l a b c d 1 3 e 2 f def recurse iterable levels result
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
如何使用 Python Flask-Security 使用 bcrypt 加密密码？

我正在尝试使用 Flask Security 文档中的标准基本示例并使其正常工作除了密码以明文形式存储之外我知道这一行 user datastore create user email email protected cdn cgi
Django：上传前调整图像大小

我想调整图像大小 Pillow 在上传之前我在下面编写了代码但不起作用并得到错误 myapp list 处的属性错误坚定的请求方式 POST 请求网址 http 127 0 0 1 8000 myapp list http 127
Django 中同一个模型的多个多对多关系

给定以下具有两个多对多关系的模型 class Child models Model name models CharField max length 80 class Foo models Model bar models ManyToMa
带参数的 Python 列表过滤

python中有没有一种方法可以在列表上调用过滤器其中过滤函数在调用期间绑定了许多参数例如有没有办法做这样的事情 gt gt def foo a b c return a lt b and b lt c gt gt myList 1 2
Django 1.6：如何在视图中访问静态文件

我已经尝试过解决方案here https stackoverflow com questions 11721818 django get the static files url in view这对我不起作用我正在为 Python 创建一
如何下载和使用对象检测数据集（例如 coco 或 pascal）

我对物体检测领域非常陌生我想知道是否有人可以帮助我下载和使用对象检测数据集例如 coco 或 pascal 当我下载数据集后访问他们的网站时我觉得我不知道应该如何处理它们我知道这个问题很愚蠢但是开始的提示可能非常有用谢谢我正在
将glade接口放入python中

我在 Glade 中制作了一个 gui 我想将其放入 python 程序中我正在调整我在网上找到的教程中的说明以将其加载到我的林间空地文件中 http www pygtk org articles pygtk glade gui Cre
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore

随机推荐

以编程方式使用尺寸类别

我希望观看了所有相关的 WWDC2014 会议视频并阅读了文档所以这个问题主要是为了证实我的怀疑但请赐教我想做的是使用自动布局为视图添加动画效果这本身并不是问题但这些动画的端点随着不同的方向而变化我想我也许可以使用尺寸类来自
无法配置 Firebase InstanceID

您好我正在尝试在我的应用程序中包含 firebase 并遵循文档当我尝试进行 google 登录时出现无法配置 Firebase InstanceID 错误请建议如何克服此错误有两件事需要检查希望其中一项能为您解决确保您的捆绑
无法从 Xcode 运行 Instruments

我最近升级到 Snow Leopard 从那以后我很难运行 Instrument 来从 Xcode 检测我的应用程序录制按钮将变灰并且什么也不会发生 Xcode 的控制台中也没有消息告诉我出了什么问题我曾经能够将其附加到进程或从仪器
如何使用 jQuery 在 IE 中附加样式表？

大家好我只是想创建一个插件我需要它对用户友好所以我想append the 标签上的head加载我的插件时用户页面的一部分它适用于所有其他浏览器不确定 IE9 IE7 和 IE6 但不适用于 IE8 我不知道我的插件出了什么问题所
在 CakePHP 中重写 php 应用程序

因此我很想使用 php 框架重写我的应用程序因为我认为这会让人们更容易参与并改进应用程序的设计 CakePHP 看起来是最好的 PHP Web 框架有人有这方面的经验吗从手动编写 PHP 到使用框架我应该考虑哪些注意事项不取决
写入 Mac OS X 10.7 中的“~/Library/Application Support”文件夹

我可以使用 NSFileManager 在 Mac OS X 10 5 和 10 6 中的 Library Application Support 中创建 XYZ 文件夹然而在 10 7 中它显示您无权将 XYZ 保存在文件夹应用
Enterprise Library 5.0 - 将自定义标记添加到 TextFormatter

我创建了一个自定义异常其中包含与我们的应用程序相关的数据我想确保在引发异常时记录这些数据并将其记录到事件日志中我尝试创建一个正在调用的自定义 TextFormatter 但不确定如何访问当前异常以便我可以将自定义信息添加到日志条目中
Google Vision ocr：垂直和水平线文本识别

我们正在使用 google Vision ocr 来收集收据中的文本在某些情况下收据上有一些垂直书写的文本例如增值税信息等问题是谷歌视觉仅有效地读取主方向例如水平方向的文本并丢弃在同一收据中以垂直方向而不是水平方向写入的所有
向下滚动并双击最后一个展开/折叠箭头时，TreeTableView 项目消失

在与一个TreeTableView我意识到当您向下滚动表格并双击最后一个展开折叠箭头时所有项目都会消失但是当您再次滚动时所有项目都会重新出现当然当你有足够的物品时就会发生这种情况因此垂直ScrollBar活跃以前有人遇到
为什么结构类型的编译时生成技术会阻止单独编译？

我正在读好吧略读杜博切特和奥德斯基的在 JVM 上编译结构类型 http infoscience epfl ch record 138931 files 2009 structural pdf并对以下说法感到困惑 Generative
Scala 隐式转换陷阱

EDIT好的 Drexin 提出了一个很好的观点使用隐式转换器时类型安全性的损失令人惊讶的结果一个不太常见的转换怎么样不会与 PreDef 隐式发生冲突例如我正在 Scala 中使用 JodaTime 很棒的项目在定义隐式的同
如果某些数据包含空格，如何读取逗号分隔的数据文件

我正在尝试读取使用逗号作为分隔符的数据文件如下所示 IPE 80 764 80 14 8 49 IPE 100 1030 171 15 92 但是如果我阅读使用 READ 1 var1 var2 var3 var4 它将 IPE 和 80
如何为 ASP.NET Core Web API 应用程序的程序和启动 cs 文件编写单元测试

有没有办法编写单元测试ProgramASP NET Core Web API 的 cs 文件以及类似的startup类只是为了显示整个应用程序的更多代码覆盖率目前显示覆盖率为 0 您可以在单独的调用中提取配置并将它们公开到 func 中
当我使用requirements.txt时，pip没有从virtualenv中安装到site-packages目录

我对使用 virtualenv 运行 Python 还比较陌生所以这可能是一个简单的解决方案但我一生都无法弄清楚发生了什么我运行的是 Windows 7 professional x64 安装了 Python 2 7 5 我已经安装了
MatLab 分类数据中的缺失数据处理

我正在尝试将我的数据集放入 MATLAB ranked weights relieff X Ylogical 10 categoricalx on 函数对我的预测特征的重要性进行排名这dataset
使用 Powershell 配置 IIS - 启用表单身份验证

我的 IIS 看起来像这样 Sites gt Default Web Site gt MyWebApp 那么问题是如何在 MyWebApp 上启用表单身份验证我设法更改或编辑匿名访问基本和 Windows 身份验证然而 Forms
pandas：具有多索引的布尔索引

这里有很多具有类似标题的问题但我找不到解决这个问题的问题我有来自许多不同来源的数据帧我想逐个过滤当布尔系列与过滤后的数据帧大小相同时使用布尔索引效果很好但当该系列的大小与更高级别的索引过滤后的数据帧简而言之假设我有这个数据框
如何迭代查询结果

我正在用 pgsql 脚本语言创建一个函数此时我想做的是迭代查询的结果并为每一行执行特定的操作我当前的尝试如下其中temprow被声明为temprow user data users rowtype 有问题的代码如下 FOR tem
显示与 main.cpp 不同的类

我是qt新手我有一个有多种表格的申请我试图从 main cpp 中选择特定的表单但它只是闪烁了表单但我正在获取表单的调试值并且表单是不可见的我的main cpp代码 include dialog h include design
Pandas：将操作应用于多索引中的重复列

我有 MultiColumns 第二级重复包含Job Openings and Hires 我想为每个顶级列减去一个但我所做的一切都会让我陷入索引错误或切片错误我怎样才能计算它样本数据 gt gt gt df head Out 25