我刚刚开始使用 NLTK,不太明白如何从文本中获取单词列表。如果我使用nltk.word_tokenize()
,我得到单词和标点符号的列表。我只需要文字。我怎样才能摆脱标点符号?还word_tokenize
不适用于多个句子:点被添加到最后一个单词。
查看 nltk 提供的其他标记化选项here http://www.nltk.org/api/nltk.tokenize.html。例如,您可以定义一个标记生成器,它挑选出字母数字字符序列作为标记并删除其他所有内容:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
tokenizer.tokenize('Eighty-seven miles to go, yet. Onward!')
Output:
['Eighty', 'seven', 'miles', 'to', 'go', 'yet', 'Onward']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)