我正在开始使用熊猫,并且已经较大 DataFrame 中的一列数据例如
0 one two
1 two seven six
2 three one five
3 seven five five eight
4 six four
5 three
dtype: object
我想做的是将单词序列拆分为其组成部分,然后获取单词的唯一集合或计数。我可以很好地进行分割
numbers.str.split(' ')
0 [one, two]
1 [two, seven, six]
2 [three, one, five]
3 [seven, five, five, eight]
4 [six, four]
5 [three]
dtype: object
但是,我不确定从这里该去哪里。再次,我想要输出,例如
['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight']
或在具有计数的字典中相同,或在与这两者之一等效的系列/数据帧中。
到目前为止,我能做的最好的事情就是将 apply() 与 Set 结合使用来获取唯一的单词。从我到目前为止所看到的来看,pandas 是一个非常优雅的包,对于比我更了解它的人来说,这似乎很容易实现。
提前致谢!