改进这个问题 https://stackoverflow.com/questions/21040766/python-pandas-rolling-apply-two-column-input-into-function它提供了一个巧妙的解决方案,用于在 DataFrame 中的多个列上应用函数,我想知道该解决方案是否可以进一步优化速度。
环境:Python 2.7.8、Pandas 14.1、Numpy 1.8。
这是示例设置:
import pandas as pd
import numpy as np
import random
def meanmax(ii,df):
xdf = df.iloc[map(int,ii)]
n = max(xdf['A']) + max(xdf['B'])
return n / 2.0
df = pd.DataFrame(np.random.randn(2500,2)/10000,
index=pd.date_range('2001-01-01',periods=2500),
columns=['A','B'])
df['ii'] = range(len(df))
res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df))
请注意,meanmax
函数不是成对的,因此类似rolling_mean(df['A'] + df['B'],26)
行不通的。
不过我可以做类似的事情:
res2 = (pd.rolling_max(df['A'],26) + pd.rolling_max(df['B'],26)) / 2
完成速度大约快 3000 倍:
%timeit res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df))
1 loops, best of 3: 1 s per loop
%timeit res2 = (pd.rolling_max(df['A'],26) + pd.rolling_max(df['B'],26)) / 2
1000 loops, best of 3: 325 µs per loop
考虑到示例函数并使用,是否有比上面第二个选项更好/等效的东西rolling_apply
?虽然第二个选项更快,但它不使用rolling_apply
,可以应用于更广泛的问题集
编辑:性能时序修正