Pandas groupby 多个字段然后 diff

2024-04-07

所以我的数据框看起来像这样：

         date    site country  score
0  2018-01-01  google      us    100
1  2018-01-01  google      ch     50
2  2018-01-02  google      us     70
3  2018-01-03  google      us     60
4  2018-01-02  google      ch     10
5  2018-01-01      fb      us     50
6  2018-01-02      fb      us     55
7  2018-01-03      fb      us    100
8  2018-01-01      fb      es    100
9  2018-01-02      fb      gb    100

Each site根据不同的情况有不同的分数country。我正在尝试找出 1/3/5 天的差异scores 为每个site/country组合。

输出应该是：

          date    site country  score  diff
8  2018-01-01      fb      es    100   0.0
9  2018-01-02      fb      gb    100   0.0
5  2018-01-01      fb      us     50   0.0
6  2018-01-02      fb      us     55   5.0
7  2018-01-03      fb      us    100  45.0
1  2018-01-01  google      ch     50   0.0
4  2018-01-02  google      ch     10 -40.0
0  2018-01-01  google      us    100   0.0
2  2018-01-02  google      us     70 -30.0
3  2018-01-03  google      us     60 -10.0

我首先尝试排序site/country/date，然后按分组site and country但我无法集中精力从分组对象中找出差异。

首先，对 DataFrame 进行排序，然后你所需要的就是groupby.diff():

df = df.sort_values(by=['site', 'country', 'date'])

df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)

df
Out: 
         date    site country  score  diff
8  2018-01-01      fb      es    100   0.0
9  2018-01-02      fb      gb    100   0.0
5  2018-01-01      fb      us     50   0.0
6  2018-01-02      fb      us     55   5.0
7  2018-01-03      fb      us    100  45.0
1  2018-01-01  google      ch     50   0.0
4  2018-01-02  google      ch     10 -40.0
0  2018-01-01  google      us    100   0.0
2  2018-01-02  google      us     70 -30.0
3  2018-01-03  google      us     60 -10.0

sort_values不支持任意排序。如果您需要任意排序（例如，Google 在 Facebook 之前），您需要将它们存储在集合中并将列设置为分类。然后 sort_values 将尊重您在那里提供的顺序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby

Pandas groupby 多个字段然后 diff 的相关文章

从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

在 Windows 虚拟机中运行 Docker

Using 适用于 Windows 10 的 Docker 桌面 MobaXterm 到 RDP 到 Windows 10 VM 硒 3 141 59 我目前正在尝试在 docker 容器中运行 selenium Grid 但遇到了一些问题
如何在 jQuery 中设置文本框值？

如何使用 jQuery 将某个值正确加载到文本框中尝试了下面的但我得到了 object Object 作为输出请告诉我这一点我是 jQuery 的新手 proc function x y var str1 pid value var
使用整数作为模板参数时出现编译错误

下面这段代码有什么问题 template
lxml 更改 Unicode 字符

我正在使用 lxml 读取 xml 文件并更改一些详细信息但是运行时我发现即使我只是使用lxml读取文件然后再次写出来如下所示 fil iTunes Music Library XML tre etree parse fil tre
Bootstrap 图标未显示在已发布的 ASP.NET MVC 应用程序中

注意请前往编辑 2 部分查看摘要我有一个 ASP NET MVC 4 应用程序我将 twitter Bootstrap 集成到其中 Bootstrap 工作正常但当我发布应用程序时图标无法正确显示我尝试重新发布该应用程序但没有
在 XAML 中设置命令目标

我很难理解 RoutedCommand 的 CommandTarget 属性基本上我有一些在用户控件而不是窗口中实现的静态命令我在用户控件中创建命令绑定如果我在用户控件中声明按钮那么我就可以使用我的路由事件但是当按钮位于用
C++0x 右值引用和临时值

我在 comp std c 上问了这个问题的变体但没有得到答案为什么调用f arg 在此代码中调用 const ref 重载f void f const std string less efficient void f std stri
我不应该调用 HostingEnvironment.UnregisterObject 吗？

在尝试在我的 ASP Net MVC 3 应用程序中通过 smtp 实现异步电子邮件时我遇到了问题SO SmtpClient SendAsync 阻止我的 ASP NET MVC 请求 https stackoverflow com qu
使用 dplyr 连接组内的所有行

假设我有一个像这样的数据框 hand id card id card name card class A 1 p alpha A 2 q beta A 3 r theta B 2 q beta B 3 r theta B 4 s gamma
在msbuild中过滤项目的元数据

我想使用修改后的元数据创建一个新的项目集合例如更改 ClCompile AdditionalIncludeDirectories 的分隔符为此我首先从AdditionalIncludeDirectories 元数据创建一个项目集合
如何更改 Scalatra 应用程序的“webapp”目录位置？

默认情况下 Scalatra 期望 webapp 目录位于src main webapp 如何将其更改为例如content doc root sbt 允许使用如下内容自定义其默认目录 scalaSource lt lt baseDirec
获取 iPhone 上当前的系统音量级别

有什么方法可以获取 iPhone 上当前的系统音量级别吗我在想也许有一种方法可以制作MPVolumeView并从中获取价值 musicPlayer MPMusicPlayerController iPodMusicPlayer curre
我如何知道我正在使用哪个版本的 OpenGL？

我开始使用 GLFW 和 OpenGL 用 C 目前编写程序我的问题是我如何知道我的程序将使用哪个版本的 OpenGL 我的笔记本电脑显示我的显卡支持 OpenGL 3 3 输入 glxinfo grep i opengl 返回 Op
从现有虚拟机创建 docker 镜像

我需要使用 CentOS 和 MySQL 创建 docker 基础镜像但我已经有这样的虚拟机没有docker 如何从现有的虚拟机创建基础 docker 镜像并在另一台带有 docker 的机器上使用它虽然其他评论者正确地指出将虚拟机
如何获取 pandas .plot(kind='kde') 的输出

当我绘制我的 pandas 系列的密度分布时我使用 plot kind kde 是否可以获得该图的输出值如果是的话该怎么做我需要绘制的值 plot kind kde https pandas pydata org docs refer
确定选择哪个 JRadioButton 的最佳方法是什么？

目前我正在以这种方式获取选定的按钮但如果这是正确最好的方法我不会也许有比这更简单或更面向对象的东西 private int getFilterType JRadioButton buttons for int i 0 n butto
使用 Angular 将日期转换为东部时区

我从服务器获取数据如下 2015 03 05T16 51 56 00 00 使用 Angular 我想将此日期时间显示为东部时间日期有没有办法用 Angular 指定不同的时区我正在做类似的事情 myDate date medium
Android 持久内容观察者

Android 中的内容观察者是否持久如果我在活动中创建内容观察者该观察者是否会继续运行直到我删除该观察者基本上我正在创建一项短信服务在接收和发送时我将短信发布到网络服务这样我就可以在没有手机的情况下检查我的消息如果内容观
libAdIdAccess.a 位置？

按照说明在 iOS 上将 IDFA 与 Google Analytics 结合使用 https developers google com analytics devguides collection ios v3 optional fea
Pandas groupby 多个字段然后 diff

所以我的数据框看起来像这样 date site country score 0 2018 01 01 google us 100 1 2018 01 01 google ch 50 2 2018 01 02 google us 70 3 2

Pandas groupby 多个字段然后 diff

Pandas groupby 多个字段然后 diff 的相关文章

随机推荐

热门标签