我有这两个数据框:
df_test
dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id \
0 -1 -1 -1 -1 -1
1 1177314888 238198786 5770904146 133207291 Exact
2 1177314888 238198786 5770904266 18395155770 Exact
3 1177314888 238198786 5770904266 19338210057 Exact
4 1177314888 238198786 5770904266 30907903234 Exact
and
df_merge
dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id \
0 -1 -1 -1 -1 -1
1 1177314888 238198786 5770904146 133207291 Exact
我想删除里面的所有东西df_merge
from df_test
,基于组合dimension1_id
, dimension2_id
, dimension3_id
, dimension4_id
and dimension5_id
.
这是我的代码:
df_test = df_test[
(df_test['dimension5_id'].isin(df_merge.dimension5_id) == False) &
(df_test['dimension4_id'].isin(df_merge.dimension4_id) == False) & (df_test['dimension3_id'].isin(df_merge.dimension3_id) == False) & (df_test['dimension2_id'].isin(df_merge.dimension2_id) == False) &
(df_test['dimension1_id'].isin(df_merge.dimension1_id) == False)
]
但这段代码返回一个空数据框。如何从 df_test 中删除第一行和第二行?
您可以通过应用直接比较,使用逻辑索引来屏蔽所需的行。在这种情况下,您可以检查以下值df_test
哪些在df_merge
:
df_test.isin(df_merge)
生成的逻辑索引充当掩码:
dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id \
0 True True True True True True
1 True True True True True True
2 False False False False False False
3 False False False False False False
4 False False False False False False
True
值映射到匹配的行,因此我们可以简单地使用否定索引~
仅返回您所在的行df_merge
哪些不是df_test
:
df_test[~df_test.isin(df_merge)]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)