我通过 Jacob Perkins 的书“Python Text Handling with NLTK 2.0 Cookbook”逐渐熟悉了 NLTK 和文本分类。
我的语料库文档/文本每个都包含一段文本,因此每个文本都位于单独的文件行中,而不是单独的文件中。这些段落/行的数量大约为200万。因此,机器学习实例大约有 200 万个。
我的文件中的每一行(文本段落 - 域名、描述、关键字的组合)都是特征提取的主题:标记化等,使其成为机器学习算法的实例。
我有两个这样的文件,其中包含所有正面和负面信息。
如何将其加载到 CategorizedCorpusReader 中?是否可以?
我之前尝试过其他解决方案,例如 scikit,最后选择了 NLTK,希望能有一个更简单的起点来获得结果。
假设您有两个文件:
file_pos.txt、file_neg.txt
from nltk.corpus.reader import CategorizedCorpusReader
reader = CategorizedCorpusReader('/path/to/corpora/', \
r'file_.*\.txt', \
cat_pattern=r'file_(\w+)\.txt')
之后,您可以对其应用常用的语料库函数,例如:
>>> reader.categories()
['neg', 'pos']
>>> reader.fileids(categories=['neg'])
['file_neg.txt']
以及 tagged_sents、tagged_words 等。
您可能会喜欢本关于创建自定义语料库的教程:https://www.packtpub.com/books/content/python-text-processing-nltk-20-creating-custom-corpora
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)