我正在寻找一种与 SQL 等效的方法
SELECT DISTINCT col1, col2 FROM dataframe_table
pandas sql 比较没有任何内容distinct
.
.unique()
只适用于单个列,所以我想我可以连接这些列,或者将它们放入列表/元组中并以这种方式进行比较,但这似乎是 pandas 应该以更原生的方式做的事情。
我是否遗漏了一些明显的东西,或者没有办法做到这一点?
您可以使用drop_duplicates http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html获取 DataFrame 中唯一行的方法:
In [29]: df = pd.DataFrame({'a':[1,2,1,2], 'b':[3,4,3,5]})
In [30]: df
Out[30]:
a b
0 1 3
1 2 4
2 1 3
3 2 5
In [32]: df.drop_duplicates()
Out[32]:
a b
0 1 3
1 2 4
3 2 5
您还可以提供subset
如果您只想使用某些列来确定唯一性,请使用关键字参数。请参阅文档字符串 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)