我希望有人有这方面的经验,因为除了 2015 年关于 NERtagger 的错误报告(可能是相同的)之外,我在网上找不到任何评论。
不管怎样,我正在尝试对文本进行批处理,以绕过性能不佳的基本标记器。据我了解,tag_sents 应该有所帮助。
from nltk.tag.stanford import StanfordPOSTagger
from nltk import word_tokenize
import nltk
stanford_model = 'stanford-postagger/models/english-bidirectional-distsim.tagger'
stanford_jar = 'stanford-postagger/stanford-postagger.jar'
tagger = StanfordPOSTagger(stanford_model, stanford_jar)
tagger.java_options = '-mx4096m'
text = "The quick brown fox jumps over the lazy dog."
print tagger.tag_sents(text)
除非我传递给 tag_sents 方法的内容是什么,文本都会被分割成字符而不是单词。有谁知道为什么它不能正常工作?这按预期工作...
tag(text)
我也尝试将句子分成标记,看看这是否有帮助,但同样的处理
The tag_sents
函数接受一个字符串列表的列表。
tagger.tag_sents(word_tokenize("The quick brown fox jumps over the lazy dog."))
这是一个有用的习语:
tagger.tag_sents(word_tokenize(sent) for sent in sent_tokenize(text))
where text
是一个字符串。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)