我有一个数据框,我正在尝试向其附加一列连续差异。我找到了一种我非常喜欢的方法(并且很好地概括了我的用例)。但一路上我注意到一件奇怪的事情。你能帮我理解一下吗?
这是一些具有正确结构的数据(根据答案建模的代码here https://stackoverflow.com/a/20649094/2501018):
import pandas as pd
import numpy as np
import random
from itertools import product
random.seed(1) # so you can play along at home
np.random.seed(2) # ditto
# make a list of dates for a few periods
dates = pd.date_range(start='2013-10-01', periods=4).to_native_types()
# make a list of tickers
tickers = ['ticker_%d' % i for i in range(3)]
# make a list of all the possible (date, ticker) tuples
pairs = list(product(dates, tickers))
# put them in a random order
random.shuffle(pairs)
# exclude a few possible pairs
pairs = pairs[:-3]
# make some data for all of our selected (date, ticker) tuples
values = np.random.rand(len(pairs))
mydates, mytickers = zip(*pairs)
data = pd.DataFrame({'date': mydates, 'ticker': mytickers, 'value':values})
太好了。这给了我一个像这样的框架:
date ticker value
0 2013-10-03 ticker_2 0.435995
1 2013-10-04 ticker_2 0.025926
2 2013-10-02 ticker_1 0.549662
3 2013-10-01 ticker_0 0.435322
4 2013-10-02 ticker_2 0.420368
5 2013-10-03 ticker_0 0.330335
6 2013-10-04 ticker_1 0.204649
7 2013-10-02 ticker_0 0.619271
8 2013-10-01 ticker_2 0.299655
我的目标是向该数据帧添加一个新列,其中将包含顺序更改。为了做到这一点,需要数据,但排序和差异需要“逐个股票代码”完成,以便另一个股票代码中的间隙不会导致给定股票代码出现 NA。我想在不以任何其他方式扰乱数据帧的情况下执行此操作(即,我不希望根据进行差异所需的内容重新排序生成的数据帧)。以下代码有效:
data1 = data.copy() #let's leave the original data alone for later experiments
data1.sort(['ticker', 'date'], inplace=True)
data1['diffs'] = data1.groupby(['ticker'])['value'].transform(lambda x: x.diff())
data1.sort_index(inplace=True)
data1
并返回:
date ticker value diffs
0 2013-10-03 ticker_2 0.435995 0.015627
1 2013-10-04 ticker_2 0.025926 -0.410069
2 2013-10-02 ticker_1 0.549662 NaN
3 2013-10-01 ticker_0 0.435322 NaN
4 2013-10-02 ticker_2 0.420368 0.120713
5 2013-10-03 ticker_0 0.330335 -0.288936
6 2013-10-04 ticker_1 0.204649 -0.345014
7 2013-10-02 ticker_0 0.619271 0.183949
8 2013-10-01 ticker_2 0.299655 NaN
到目前为止,一切都很好。如果我用此处显示的更简洁的代码替换上面的中间行,一切仍然有效:
data2 = data.copy()
data2.sort(['ticker', 'date'], inplace=True)
data2['diffs'] = data2.groupby('ticker')['value'].diff()
data2.sort_index(inplace=True)
data2
快速检查表明,事实上,data1
等于data2
。但是,如果我这样做:
data3 = data.copy()
data3.sort(['ticker', 'date'], inplace=True)
data3['diffs'] = data3.groupby('ticker')['value'].transform(np.diff)
data3.sort_index(inplace=True)
data3
我得到一个奇怪的结果:
date ticker value diffs
0 2013-10-03 ticker_2 0.435995 0
1 2013-10-04 ticker_2 0.025926 NaN
2 2013-10-02 ticker_1 0.549662 NaN
3 2013-10-01 ticker_0 0.435322 NaN
4 2013-10-02 ticker_2 0.420368 NaN
5 2013-10-03 ticker_0 0.330335 0
6 2013-10-04 ticker_1 0.204649 NaN
7 2013-10-02 ticker_0 0.619271 NaN
8 2013-10-01 ticker_2 0.299655 0
这里发生了什么?当您致电.diff
Pandas 对象上的方法,是不是只是调用np.diff
?我知道有一个diff
方法上的DataFrame
类,但我不知道如何将其传递给transform
没有lambda
我以前制作的函数语法data1
工作。我错过了什么吗?为什么是diffs
列于data3
古怪?我怎样才能叫熊猫diff
内的方法transform
无需编写lambda
去做吧?