我看到了几种接近解决我的问题的解决方案
link1
link2
但到目前为止,他们还没有帮助我取得成功。
我相信以下解决方案是我所需要的,但仍然出现错误(并且我没有声誉点对其进行评论/提问):link
(我收到以下错误,但我不明白在哪里.copy()
或添加一个“inplace=True
“当执行以下命令时df2=df.groupby('install_site').transform(replace)
:
设置复制警告:
尝试在 DataFrame 的切片副本上设置一个值。
尝试使用.loc[row_indexer,col_indexer] = value
instead
请参阅文档中的警告:link
所以,我试图提出自己的版本,但我一直陷入困境。开始。
我有一个按时间索引的数据框,其中包含站点列(许多不同站点的字符串值)和浮点值。
time_index site val
我想浏览“val”列,按站点分组,并用 NaN(对于每个组)替换任何异常值(与平均值相差+/- 3 个标准差的值)。
当我使用以下函数时,我无法使用 True/Falses 向量索引数据框:
def replace_outliers_with_nan(df, stdvs):
dfnew=pd.DataFrame()
for i, col in enumerate(df.sites.unique()):
dftmp = pd.DataFrame(df[df.sites==col])
idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
dftmp[idx==False]=np.nan #this is where the problem lies, I believe
dfnew[col] = dftmp
return dfnew
此外,我担心上述函数在 700 万行以上的行上会花费很长时间,这就是为什么我希望使用 groupby 函数选项。