我在我的应用程序中使用斯坦福大学的 CoreNLP 命名实体识别器 (NER) 和词性 (POS) 标记器。问题是我的代码预先标记了文本,然后我需要对每个标记进行 NER 和 POS 标记。但是,我只能找到如何使用命令行选项来执行此操作,而不能以编程方式执行此操作。
有人可以告诉我如何使用斯坦福大学的 CoreNLP 以编程方式对预标记文本进行 NER 和 POS 标记吗?
Edit:
我实际上正在使用单独的 NER 和 POS 指令。因此,我的代码是按照斯坦福大学的 NER 和 POS 包中提供的教程中的说明编写的。但我的类路径中有 CoreNLP。因此,我的类路径中有 CoreNLP,但使用 NER 和 POS 包中的教程。
Edit:
我刚刚发现这里有关于如何设置 CoreNLP 属性的说明http://nlp.stanford.edu/software/corenlp.shtml http://nlp.stanford.edu/software/corenlp.shtml但我希望有一种快速的方法可以使用斯坦福 NER 和 POS 标记器完成我想要的事情,这样我就不必重新编码所有内容!
如果您设置该属性:
tokenize.whitespace = true
那么 CoreNLP 管道将在空白上进行标记,而不是默认的 PTB 标记。您可能还想设置:
ssplit.eolonly = true
这样你就只能在换行符上分割句子。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)