Use a set
创建独特元素的序列。
做一些清理工作df
获取小写字符串并拆分:
df['text'].str.lower().str.split()
Out[43]:
0 [my, nickname, is, ft.jgt]
1 [someone, is, going, to, my, place]
此列中的每个列表都可以传递到set.update
函数来获取唯一值。使用apply http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html这样做:
results = set()
df['text'].str.lower().str.split().apply(results.update)
print(results)
set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])
或者与使用Counter()
来自评论:
from collections import Counter
results = Counter()
df['text'].str.lower().str.split().apply(results.update)
print(results)