在哪里可以找到详尽的停用词列表?

2024-03-14

我在哪里可以找到详尽的停用词列表?我的那篇文章很短,似乎不适用于科学文本。 我正在创建词汇链以从科学论文中提取关键主题。问题是像这样的词based, regarding等也应被视为停用词,因为它们没有太多意义。


您还可以轻松添加到现有的停用词列表。例如。使用NLTK工具包中的一个:

from nltk.corpus import stopwords

然后添加您认为缺少的内容:

stopwords = stopwords.words('english')+["based", "regarding"]

原始NLTK列表描述here https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在哪里可以找到详尽的停用词列表? 的相关文章

随机推荐