给定一个如下所示的数据框
GROUP VALUE
1 5
2 2
1 10
2 20
1 7
我想计算每组内最大值和最小值之间的差异。也就是说,结果应该是
GROUP DIFF
1 5
2 18
在 Pandas 中执行此操作的简单方法是什么?
对于大约 200 万行和 100 万组的数据框,在 Pandas 中执行此操作的快速方法是什么?
使用@unutbu的df
每个时间
unutbu 的解决方案最适合大型数据集
import pandas as pd
import numpy as np
df = pd.DataFrame({'GROUP': [1, 2, 1, 2, 1], 'VALUE': [5, 2, 10, 20, 7]})
df.groupby('GROUP')['VALUE'].agg(np.ptp)
GROUP
1 5
2 18
Name: VALUE, dtype: int64
np.ptp docs https://docs.scipy.org/doc/numpy/reference/generated/numpy.ptp.html#numpy.ptp返回数组的范围
timing
small df
large df
df = pd.DataFrame(dict(GROUP=np.arange(1000000) % 100, VALUE=np.random.rand(1000000)))
large df
许多团体
df = pd.DataFrame(dict(GROUP=np.arange(1000000) % 10000, VALUE=np.random.rand(1000000)))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)