关于数据框警告切片的 pandas 副本的混淆

2024-03-24

我已经浏览了一系列与此问题相关的问题和答案,但我仍然发现我在意想不到的地方收到了切片警告的副本。此外,它突然出现在我之前运行良好的代码中,让我想知道是否某种更新可能是罪魁祸首。

例如,这是一组代码,我所做的就是将 Excel 文件读入 pandasDataFrame,并减少包含在df[[]] syntax.

df = pd.read_excel(filepath)
df1 = df[['Gender','Age','Date to Delivery','Date to insert']]

现在,我对此进行任何进一步的更改df1文件引发切片副本警告。例如下面的代码

df1['Age'] = df1.Age.fillna(0)
df1['Age'] = df1.Age.astype(int)

引发以下警告

/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/__main__.py:2: SettingWithCopyWarning:   
A value is trying to be set on a copy of a slice from a DataFrame.   
Try using .loc[row_indexer,col_indexer] = value instead

我很困惑,因为我认为df[[]]列子集默认返回一个副本。我发现抑制错误的唯一方法是显式添加df[[]].copy()。我可以发誓,在过去我不必这样做,也没有提出切片错误的副本。

同样,我还有一些其他代码在数据帧上运行函数以按某些方式对其进行过滤:

def lim(df):
    if (geography == "All"):
        df1 = df
    else:
        df1 = df[df.center_JO == geography]
    df_date = df1[(df1.date >= start) & (df1.date <= end)]
    return df_date

df_lim = lim(df)

从现在起,我对任何值所做的任何更改df_lim引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为:

df_lim = lim(df).copy()

这对我来说似乎是错误的。我缺少什么?看起来这些用例应该默认返回副本,我可以发誓上次运行这些脚本时我没有遇到这些错误。
我只需要开始添加.copy()到处都是?似乎应该有一种更干净的方法来做到这一点。


 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']]

izmir_lim是一个视图/副本izmir。您随后尝试分配给它。这就是引发错误的原因。使用这个代替:

 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']].copy()

每当您通过以下方式从另一个数据帧“创建”新数据帧时:

new_df = old_df[list_of_columns_names]

new_df将具有真实的价值is_copy属性。当您尝试分配给它时,pandas 会抛出SettingWithCopyWarning.

new_df.iloc[0, 0] = 1  # Should throw an error

您可以通过多种方式克服这个问题。

选项1

new_df = old_df[list_of_columns_names].copy()

选项#2(正如@ayhan 在评论中建议的那样)

new_df = old_df[list_of_columns_names]
new_df.is_copy = None

选项#3

new_df = old_df.loc[:, list_of_columns_names]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

关于数据框警告切片的 pandas 副本的混淆 的相关文章

随机推荐