确定分组数据框中值的变化

2023-11-29

假设有一个像这样的数据集（最初是从 .csv 读取的）：

data = pd.DataFrame({'id': [1,2,3,1,2,3],
                     'time':['2017-01-01 12:00:00','2017-01-01 12:00:00','2017-01-01 12:00:00',
                          '2017-01-01 12:10:00','2017-01-01 12:10:00','2017-01-01 12:10:00'],
                     'value': [10,11,12,10,12,13]})

    id  time                    value
0   1   2017-01-01 12:00:00     10
1   2   2017-01-01 12:00:00     11
2   3   2017-01-01 12:00:00     12
3   1   2017-01-01 12:10:00     10
4   2   2017-01-01 12:10:00     12
5   3   2017-01-01 12:10:00     13

每个观察周期内所有 ID 的时间都是相同的。该系列以这种方式进行多次观察，即每十分钟一次。

我想要的总变化数value连续时间之间按 id 排列的列。例如：对于 id=1，没有变化（结果：0）。对于 id=2，有一项更改（结果：1）。受这篇文章的启发，我尝试采取差异：确定 pandas 数据框中列值何时更改

这是我到目前为止所提出的（没有按预期工作）：

data = data.set_index(['id', 'time']) # MultiIndex 
grouped = data.groupby(level='id') 
data['diff'] = grouped['value'].diff()
data.loc[data['diff'].notnull(), 'diff'] = 1
data.loc[data['diff'].isnull(), 'diff'] = 0
grouped['diff'].sum()

但是，这只是每个 id 出现次数的总和。

由于我的数据集很大（并且无法装入内存），因此解决方案应该尽可能快。（这就是为什么我在 id + time 上使用 MultiIndex 的原因。我期望显着的加速，因为最佳情况下数据不再需要被打乱。）

此外，我遇到了 dask 数据帧，它与 pandas dfs 非常相似。利用它们的解决方案将是非常棒的。

你想要这样的东西吗？

data.groupby('id').value.apply(lambda x: len(set(x)) - 1)

You get

编辑：正如@COLDSPEED提到的，如果要求将更改捕获回某个值，请使用

data.groupby('id').value.apply(lambda x: (x != x.shift()).sum() - 1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby

pandasgroupby

确定分组数据框中值的变化的相关文章

为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
在 Windows 中安装 IPOPT 求解器以与 pyomo 一起使用

如何安装 IPOPT 求解器以在 Windows 中与 pyomo 一起使用我尝试了 pip install ipopt 但收到此错误错误为 ipopt 构建轮子失败我正在使用 Windows 10 和 Python 3 7 4 在
在ubuntu中安装pyinterval

我正在尝试安装 python 库 pyinterval 它需要 crlibm C 标头我已安装该标头没有错误但似乎是问题的根源当我跑步时 sudo easy install pyinterval 我得到以下信息 Searching
如何在Tensorflow中读取json文件？

我正在尝试编写一个函数用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
从两个列表中查找总和等于 x 的 2 个数字的最快方法

我的代码 n 3 a1 0 b1 10 a2 2 b2 2 if b1 gt n b1 n if b2 gt n b2 n diap1 x for x in range a1 b1 1 diap2 x for x in range a2 b
对训练和测试数据帧使用相同的标签编码器

我有 2 个不同的 csv 其中包含训练数据和测试数据我从这些 train features df 和 test features df 创建了两个不同的数据帧请注意测试和训练数据有多个分类列因此我需要对它们应用 labelEnco
Laravel 显示按年或月分组的记录详细信息

我刚刚迁移到 Laravel 框架并开始迁移一些遗留站点但我遇到了 SQL 或 Blade 的问题不知道是哪个我必须显示大量的运动类别行这些行按年份和月份分组每个人都需要出勤等我不确定继续走哪条路我能够显示所有行并按日期
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
如何使用 BeautifulSoup 排除表中的某些行？

我已经从表格中获得了所需的数据但不想要各个玩家统计数据之间的缩写 Rk Pos Name 等如何在保留所需数据的同时排除这些数据包含缩写的行被归类为 thead 但我不知道如何使用该信息来跳过它我知道玩家的数据都被压缩在一起但现在
如何设置 pandas DataFrame _repr_html_ 方法的默认样式？

我有一个 pandas DataFrame 其中有一列是 url 并且我编写了以下格式化程序以将其作为链接呈现在我的笔记本中 def make clickable val target blank to open new window re
python中matlab find函数的替换

我正在尝试寻找合适的python函数来替代matlabfind在我的脚本和一些谷歌搜索中我看到np where 大多数时候都能解决目的但在双重条件的情况下我有不同的输出有人可以告诉我这种方法有什么问题以及如何继续吗示例代码和差异如下
如何在Python中生成0-1矩阵的所有可能组合？

如何生成大小为 K N 的 0 1 矩阵的所有可能组合例如如果我取 K 2 和 N 2 我会得到以下组合 combination 1 0 0 0 0 combination 2 1 0 0 0 combination 3 0 1 0 0
重置Keras模型的所有权重

我希望能够重置整个 Keras 模型的权重这样我就不必再次编译它编译模型目前是我的代码的主要瓶颈这是我的意思的一个例子 import tensorflow as tf model tf keras Sequential tf kera
当使用 cx_Freeze 和 tkinter 时，我得到：“DLL 加载失败：找不到指定的模块。” （Python 3.5.3）

当使用 cx Freeze 和 Tkinter 时我收到以下消息 File C Users VergilTheHuragok AppData Local Programs Python Python35 32 lib tkinter in
使用 Cython 扩展模块分发共享库和一些 C 代码

我正在尝试从大型 C 共享库 libbig so 中获取一些函数并通过 Cython 将它们公开给 Python 为此我有一个小 C 文件 small cpp 它为我需要的共享库的功能提供了一个薄包装器从而可以轻松地通过 Cython
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
是否可以通过 Python 使用 Cocoa API？

我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
Android Systrace 没有这样的文件或目录

这是错误消息 D Programming Tools ADT bundle sdk platform tools systrace gt python systrace py Traceback most recent call last
Dash ImportError：无法从“werkzeug.debug.tbtools”导入名称“get_current_traceback”

我正在尝试在 Pycharm 的 conda 环境中运行一个简单的破折号应用程序但是我遇到了标题中的错误奇怪的是我在互联网上找不到提到这个错误的地方除了here https community plotly com t dash w
Doctest 返回失败，但“预期”和“得到”完美匹配

我正在尝试做列表部分的第二个练习 http www openbookproject net thinkcs python english2e ch09 html exercises 如何像计算机科学家一样思考一书的内容我基本上必须将给定

随机推荐

使用 GSON 解析没有特定字段结构的 JSON

我正在使用 EmpireAvenue API 开发 Android 应用程序 API 使用 JSON 我使用 GSON 库来解析来自 API 的数据问题是这样的我有一个像这样的 JSON 结构 type earnings info ea
在 Android 中使用 Serialized 不好吗？

我读过很多帖子和文章称赞 Parcelable 的速度比 Serialized 快我已经使用两者通过意图在活动之间传递数据有一段时间了但在两者之间切换时尚未注意到任何速度差异我必须传输的典型数据量是 5 到 15 个嵌套对象每个对
有没有一种方法可以在一个元素上使用两个 CSS3 框阴影？

我正在尝试在 Photoshop 模型中复制一个按钮样式该模型上有两个阴影第一个阴影是内部打火机框阴影 2px 第二个阴影是按钮本身外部的投影 5px 在 Photoshop 中这很简单内阴影和投影在 CSS 中我显然可以拥有其中
SQL 键，MUL 与 PRI 与 UNI

有什么区别MUL PRI and UNI在 MySQL 中我正在使用以下命令进行 MySQL 查询 desc mytable 其中一个字段显示为MUL键其他显示为UNI or PRI 我知道如果有一把钥匙PRI 每个表只能有一条记录与该
Bootstrap 4：如何创建一个带有手风琴的下拉菜单？

我实际上面临一些问题让引导手风琴在下拉菜单中工作我用 google 搜索了很多还在这里找到了一些 StackOverflow 线程但它们已经有好几年了并且依赖于 bootstrap 3 或 bootstrap 2 就像这里的这个
Android 和 J2ME

谁能澄清我对 Android 编程与 J2ME 有什么关系的疑问吗 Android 开发是否属于 J2ME 平台因为 J2ME 基本上用于移动应用程序 Android 也是如此如果有人知道请告诉我除了使用核心 Java 语言之外 An
使用 system.data.oracleclient 构建良好的搜索查询

我正在一个类中构造一个搜索函数供我们的几个 asp 页面使用这个想法很简单从用户那里获取搜索词并在数据库中查询该项目目前我这样做的方式是错误的这很容易受到 SQL 注入攻击并且ELMAH如果出现问题就在那里拯救世界 Publi
WebBrowser - 无法检索和设置名为的 .asp 页面中的 HTML 元素

这是针对 Visual Studio Express 2012 中的桌面 C 应用程序我正在使用 webBrowser 控件登录到各个网站但是我无法检索和设置此特定网站的属性该网站的登录属性位于由 HTML 调用的 asp 页面中
在haskell中计算数组的长度 - 非详尽模式错误[重复]

这个问题在这里已经有答案了我在这里和网上进行了一般搜索但找不到任何似乎可以回答这个问题的内容我刚刚开始在大学的一个模块中使用 Haskell 并且在定义一个计算数组长度的函数本质上是预先存在的长度函数时遇到了问题在我的讲义中该
从我的网站通过 C# 发送电子邮件

我使用以下代码发送电子邮件 public static bool SendEmail string To string ToName string From string FromName string Subject string Bod
Chrome 本地主机 cookie 未设置

我正在不同的配置中设置 ASP NET Core 身份验证使用 Google Chrome 作为开发和测试工具本地一切正常但突然就停止了我检查了 http 标头发现Set Cookie我的里面有一个POST响应但在下一个请求中以
使用堆栈算法进行括号/括号匹配

例如如果括号方括号在以下内容中匹配等等但如果括号方括号不匹配则应返回 false 例如等等您能检查一下这个代码吗 public static boolean isParenthesisMatch String str Sta
从类中的静态方法 Python 填充一次静态变量

我在 Python 中有一个 A 类我想填充一个调用静态方法的静态变量例如 Class A arr staticmethod def FillArr do more stuff but for semplicity A arr 2 2
在记事本中使用正则表达式删除标签之间的文本

我有以下 xml 标签
在 Vaadin Flow Web 应用程序中动态更改字体、字体大小、字体颜色等

In 瓦丁流版本 10 及更高版本是否有某种方法可以动态更改 Vaadin 布局中小部件的字体字体大小字体颜色等我确实知道以下基础知识CSS 但了解不多SASS或 CSS 的其他超集尽管我愿意学习我不知道 Vaadin Flo
HadoopReducer：如何使用推测执行输出到多个目录？

我有一个reducer 需要将结果输出到不同的目录以便我们稍后可以将输出用作Hive 的输入作为分区表 Hive 根据文件夹名称创建分区为了写入到这些位置我们目前没有使用任何 Hadoop 框架来完成此操作可以这么说我们只是写入到
for-each 内 if 语句的简单 xsl 问题

这是我的代码 table cellspacing 0 cellpadding 0 tbody tr tr tbody table
使用 ES6 箭头函数时，D3.js 事件监听器无法访问“this”[重复]

这个问题在这里已经有答案了我尝试将 D3 js 事件侦听器与箭头函数一起使用但它似乎不起作用 this绑定到不明确的我怎样才能访问this使用ES6箭头函数 ES5 svg selectAll circle data data ent
使用 FirebaseUI 的应用程序配置不允许给定 URL

使用 Firebase 和FirebaseUI Android 应用用于演示身份验证 Facebook 登录失败并出现以下错误应用程序配置不允许给定的 URL 应用程序的设置不允许一个或多个给定的 URL 要使用此 URL 您必须在应用程
确定分组数据框中值的变化

假设有一个像这样的数据集最初是从 csv 读取的 data pd DataFrame id 1 2 3 1 2 3 time 2017 01 01 12 00 00 2017 01 01 12 00 00 2017 01 01 12 00

确定分组数据框中值的变化

确定分组数据框中值的变化 的相关文章

随机推荐

热门标签

确定分组数据框中值的变化的相关文章