我遇到了一些与正则表达式有关的问题CategorizedPlaintextCorpusReader
在Python中。
我想创建一个自定义分类语料库并在其上训练朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正片文件都在一个目录下,main_dir/pos/*.txt
,负数位于单独的目录中,main_dir/neg/*.txt
.
我怎样才能使用CategorizedPlaintextCorpusReader
加载并标记 pos 目录中的所有正面文件,并对负面文件执行相同的操作?
注意:设置与Movie_reviews
语料库(~nltk_data\corpora\movie_reviews
).
这是我的问题的答案。
由于我正在考虑使用两个案例,因此我认为最好涵盖这两个案例,以防将来有人需要答案。
如果您具有与 movie_review 语料库相同的设置 - 多个文件夹以相同的方式标记,您希望调用标签并包含训练数据,您可以使用它。
reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')
我正在考虑的另一种方法是将所有内容放在一个文件夹中并将文件命名为 0_neg.txt、0_pos.txt、1_neg.txt 等。您的阅读器的代码应类似于:
reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')
我希望这对将来的人有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)