我在哪里可以找到详尽的停用词列表?我的那篇文章很短,似乎不适用于科学文本。
我正在创建词汇链以从科学论文中提取关键主题。问题是像这样的词based
, regarding
等也应被视为停用词,因为它们没有太多意义。
您还可以轻松添加到现有的停用词列表。例如。使用NLTK工具包中的一个:
from nltk.corpus import stopwords
然后添加您认为缺少的内容:
stopwords = stopwords.words('english')+["based", "regarding"]
原始NLTK列表描述here https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)