使用 Python 的文本中的词频但忽略停用词

2024-05-09

这给了我文本中单词的频率:

 fullWords = re.findall(r'\w+', allText)

 d = defaultdict(int)

 for word in fullWords :
          d[word] += 1

 finalFreq = sorted(d.iteritems(), key = operator.itemgetter(1), reverse=True)

 self.response.out.write(finalFreq)

这也给了我一些无用的词,比如“the”“an”“a”

我的问题是,python 中是否有一个可用的停用词库可以删除所有这些常见单词?我想在谷歌应用程序引擎上运行这个


您可以将停用词列表下载为各种格式的文件,例如从here http://www.textfixer.com/resources/common-english-words.php-- Python 需要做的就是读取文件(这些文件位于csv格式,方便阅读csv模块),创建一个集合,并使用该集合中的成员资格(可能进行一些标准化,例如小写)来从计数中排除单词。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 的文本中的词频但忽略停用词 的相关文章

随机推荐