Python 中的 R group_by() + rleid() 等效项

2024-01-05

我在 Python 中得到了以下数据框：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1]})

首先，在由以下定义的每个组中object，我想将 id 分配给唯一的运行measurement_id and var列。如果这些列的任何值发生变化，它将开始新的运行，并应分配新的 ID。所以

df['rleid_output'] = [1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 3]

然后，对于由以下定义的每个组rleid_output我想检查一下需要多少分钟（min专栏）跑步持续给了我expected_output column:

df['expected_output'] = [2, 2, 2, 2, 1, 1, 2, 3, 2, 3, 1, 3]

如果是R，我会按如下方式进行：

df <- data.frame(measurement_id = rep(1:2, each = 6),
           min = rep(rep(1:3, each = 2), 2),
           object = rep(LETTERS[1:2], 6),
           var = c(1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1))
df %>% 
  group_by(object) %>% 
  mutate(rleid = data.table::rleid(measurement_id, var)) %>% 
  group_by(object, rleid) %>% 
  mutate(expected_output = last(min) - first(min) + 1)

所以我主要需要的是Rdata.table::rleid与 Python 兼容的等效项pd.DataFrame.groupby条款。有什么想法如何解决这个问题吗？

@Edit：新的、更新的数据框示例：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 2, 2, 1, 1, 2, 1, 2, 1, 1, 1]})
df['rleid_output'] = [1, 1, 2, 1, 3, 2, 4, 3, 4, 3, 5, 3]
df['expected_output'] = [1, 2, 1, 2, 1, 1, 2, 3, 2, 3, 1, 3]

更新答案

问题是min每组中的列measurement_id, obj, var应维持秩序。我们可以通过 group by 来检查这一点measurement_id, obj, var然后检查是否存在差异min列大于1。如果是这样，我们将其标记为唯一的持续时间expected_output:

df['grouper'] = (df.groupby(['measurement_id', 'obj', 'var'])['min']
                 .apply(lambda x: x.diff().fillna(1).eq(1))
                )

df['expected_output'] = (
    df.groupby(['measurement_id', 'obj', 'var'])['grouper'].transform('sum').astype(int)
)

df = df.drop(columns='grouper')

    measurement_id  min obj  var  expected_output
0                1    1   A    1                1
1                1    1   B    2                2
2                1    2   A    2                1
3                1    2   B    2                2
4                1    3   A    1                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

旧答案，遵循OP的逻辑

我们可以通过使用来实现这一点GroupBy.diff得到你的rleid_output，基本上每次都有一个唯一的标识符var每个的变化measurement_id& obj

之后使用GroupBy.nunique来测量的量minutes:

rleid_output = df.groupby(['measurement_id', 'obj'])['var'].diff().abs().bfill()
df['expected_output'] = (df.groupby(['measurement_id', 'obj', rleid_output])['min']
                         .transform('nunique'))

    measurement_id  min obj  var  expected_output
0                1    1   A    1                2
1                1    1   B    2                2
2                1    2   A    1                2
3                1    2   B    2                2
4                1    3   A    2                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

pandas

runlengthencoding

Python 中的 R group_by() + rleid() 等效项的相关文章

Python - 为什么这段代码被视为生成器？

我有一个名为 mb 的列表其格式为 Company Name Rep Mth 1 Calls Mth 1 Inv Totals Mth 1 Inv Vol Mth 2 等等在下面的代码中我只是添加了一个包含 38 个 0 的新列表这
R 中自定义函数的等高线图

我正在使用一些自定义函数我需要根据参数的多个值为它们绘制轮廓这是一个示例函数我需要画这样的等高线图任何想法 Thanks 首先你构造一个函数 fourvar它将这四个参数作为参数在这种情况下您可以使用 3 个变量来完成此操作其
Python 3.x 中的 PIL ImageTk 等效项

我正在使用 Tkinter 开发一个应用程序它使用以下数据库png图标的图像文件为了在应用程序中使用所述图像我使用 PIL 打开它们Image open 运行它通过ImageTk PhotoImage函数然后将其传递给小部件构造函数
打印一个 Jupyter 单元中定义的所有变量

有没有一种更简单的方法来以漂亮的方式显示单个单元格中定义的所有变量的名称和值我现在做的方式是这样的但是当有30个或更多变量时我浪费了很多时间您可以使用whos http ipython readthedocs io en stable
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
R 中带有变音符号的字符列表

我试图将字符串中的电话字符出现次数制成表格但变音符号单独作为字符制成表格理想情况下我有一个国际音标的单词列表其中包含大量变音符号以及它们与基本字符的几种组合我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
获取 zeep.exceptions.ValidationError：缺少与 suds 一起使用的方法的元素

我正在移植开发的代码suds 0 6到zeep 2 4 0 以前的泡沫代码 client Client WSDLfile proxy proxy faults True config client factory create perUse
将带有两层分隔符的字符串转换为字典 - python

给定一个字符串 s x t1 ny t2 nz t3 我想转换成字典 sdic x 1 y 2 z 3 我通过这样做让它工作 sdic dict tuple j split t for j in i for i in s split n F
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
if/else 在 while 循环内正确缩进[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我开始学习 Python 编程大约几周了我遇到了一些麻烦下面的代码是一个小程序用于检查列表中是否有偶数如果找到第一个偶数
Python：使用列表创建二叉搜索树

我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中然后使用该列表创建二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率中的每个单词只能包含字母数字或我无法用我的初学者编程知识来做的部分是使用我拥有的
从 subprocess.Popen 获取整个输出

我通过调用 subprocess Popen 得到了一个有点奇怪的结果我怀疑这与我对 Python 的陌生有很大关系 args cscript USERPROFILE tools jslint js USERPROFILE tools j
Pandas - 分割大的Excel文件

我有一个大约有 500 000 行的 Excel 文件我想将其拆分为多个 Excel 文件每个文件有 50 000 行我想用熊猫来做这样它会是最快和最简单的有什么想法如何制作吗感谢您的帮助假设您的 Excel 文件只有一个第
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
在 R 的 stargazer 表中设置注释格式

我在用stargazer包来生成回归输出表一切都在奇迹般地进行直到我开始编辑笔记 First 换行很难但是 Bryansuggests https stackoverflow com questions 21720264 star
带有整数的 np.sqrt 和 where 条件返回错误结果

当我将 numpy sqrt 方法应用于带有 a 的整数数组时我得到了奇怪的结果where健康状况见下文对于整数 a np array 1 4 9 np sqrt a where a gt 5 Out 3 array 0 0 5 3
有条件地将字符串转换为特定数值

我确信对此有一个简单的答案但我已经扫描了堆栈溢出但无法找到解决方案似乎 sapply 和 ifelse 函数的组合可能可以完成这项工作但我不确定所以我有一个包含字符的数据框除了一列是数值 Create dataframe whi
如何指定一个变量作为类或类实例的成员变量？

在最新的 Python 2 7 x 中给定类定义内的任何成员变量该成员变量是否始终处于类级别因为它是由该类的所有实例共享的单个变量在类的定义中如何指定类定义中的哪些成员变量属于该类因此由该类的所有实例共享以及哪些属于该类的
将笔记本生成的 HTML 片段转换为 LaTeX 和 PDF

在我的笔记本里有时会有 from IPython display import display HTML display HTML h3 The s is important h3 question of the day 但当我后来将笔记本

随机推荐

Laravel：不同路径的不同 api 速率限制

我需要为不同的路径设置不同的速率限制敌人的例子 On path users我希望每分钟 60 个请求的速率限制而路径 stats我希望速率限制为每分钟 5 个请求我尝试了下一种方法 Route group middleware gt
在这种代码中“Select 0 from”在做什么？

有人可以帮我理解从以下位置选择 0 是什么意思吗 delete from table1 where cond1 and cond2 and cond3 and not exists select 0 from table2 where c
读取空行 C++

我遇到的情况是我有一个循环每次它读取一个字符串但我不知道如何读取空白输入即如果用户什么都不输入并按回车键它会保留在那里我想将其读取为字符串并移至下一个输入下面是代码 int times 4 while times string
如何在 JSON 模式中使用定义 (draft-04)

我正在使用的其余服务响应类似于以下示例我在这里仅包含 3 个字段但还有更多字段 results type Person name Mr Bean dateOfBirth 14 Dec 1981 type Company name Pi
指定 wct-local 测试的浏览器位置

Polymer 入门套件包含用于对自定义元素进行单元测试的 Web 组件测试器 In wct conf json您可以指定运行测试的浏览器 suites app test plugins local browsers firefox 不幸的
Android AGP 8 + Gradle 8 + Kotlin 1.8 导致 Kapt 出现错误

我刚刚更新到Android Studio Flamingo 2022 2 1 现在我得到这个错误 Execution failed for task app kaptGenerateStubsDebugKotlin gt compileDe
如何用git“分割”文件

如果我必须遵循我的文件发展 branch file rb class Code def methodA aA1 end def methodB bB2 end end 但在我的master分支我想将方法分成不同的文件 in file rb
如何使用 org.hibernate.action.spi.AfterTransactionCompletionProcess？

我发现我真的很想使用这个类 org hibernate action spi AfterTransactionCompletionProcess http docs jboss org hibernate orm 3 6 javadocs
如何在 PerfView 中查看昂贵的方法

我创建了一个简单的控制台应用程序并通过 Run Command gt PerfMonTest exe 从 PerfView 执行它我获取日志文件并查看应用程序的进程正如预期的那样它很昂贵 99 CPU 但是当我想深入研究昂贵的方法时
xpath - 如何选择此提交按钮？

我怎样才能选择这个提交按钮 li class action input action li
JsonDeserializer 不适用于类，仅适用于类的单个元素

我创建了一个新的反序列化器能够将空字符串写为 null public class CustomDeserializer extends JsonDeserializer
如何在 UserControl 中绑定集合依赖属性

这不是重复的当我失败时我尝试查看类似的帖子但没有成功我不明白为什么OnUCItemsSourceChanged是不是叫我很确定我错过了一些简单的东西但我找不到它 I have Window其中包含UserControl1它附加了
在 Flex/AS3 中，您会使用什么来对数字进行零填充？

重复的this https stackoverflow com questions 611873 ruby like question make this function shorter actionscript 3 611961 611
如何创建在全屏应用程序上显示的 Javascript/Chrome 通知

我有一个 Web 应用程序 HTML5 CSS3 JQuery 它使用两种方法显示通知类似咆哮的 jquery 插件 javascript html 或使用 Chrome 通知 API 仅当您使用 Chrome 时我想要的是创建一个类似
XML 文件中的条件替换

我正在使用 PowerShell 递归地替换 XML 文件中的文本该脚本在替换时工作正常但是 XML 文件也有不应替换的文件路径这是当前正在使用的脚本 if content match web site web site conten
线性规划优化和梯度下降优化之间有什么区别？

在线性规划问题中我们制定两个线性函数和一个优化函数我们找到两个线性函数相交的点并将这些值替换到优化函数中以获得最大值或最小值这与梯度优化有什么不同任何人都可以从数学上详细说明这一点两种方法都达到全局最大值或最小值吗哪个更好线
了解稳定基线模型中的total_timesteps参数

我正在阅读原版PPO纸 https arxiv org pdf 1707 06347 pdf并尝试将其与输入参数相匹配稳定基线 PPO2 https stable baselines readthedocs io en master mod
需要帮助：“错误的架构”导致应用程序在 iOS 7 中启动时崩溃，但在 iOS 8 中运行良好

我的应用程序在 iOS 7 1 中启动时崩溃但在 iOS 8 1 中运行良好我得到的错误是这样的 dyld 库未加载 System Library Frameworks AVKit framework AVKit 参考自 MY APP原
WorkManager google api：每个定期工作程序执行等待 15 分钟？

有没有办法测试PERIODICWorkManager Google API 的工作人员无需每次执行等待至少 15 分钟我的意思是它是一个调试应用程序我通过 Android Studio 运行它我不想等待这么长时间来测试我的功能 Yo
Python 中的 R group_by() + rleid() 等效项

我在 Python 中得到了以下数据框 df pd DataFrame from dict measurement id np repeat 1 2 6 6 min np concatenate np repeat 1 2 3 2 2 2

Python 中的 R group_by() + rleid() 等效项

Python 中的 R group_by() + rleid() 等效项 的相关文章

随机推荐

热门标签

Python 中的 R group_by() + rleid() 等效项的相关文章