我正在使用斯坦福标记器来确定词性。但是,我想从文本中获取更多信息。是否有可能获得更多信息,例如句子的时态或是否处于主动/被动状态?
到目前为止,我正在使用非常基本的 PoS 标记方法:
List<List<TaggedWord>> taggedUnits = new ArrayList<List<TaggedWord>>();
String input = "This sentence is going to be future. The door was opened.";
for (List<HasWord> sentence : MaxentTagger.tokenizeText(new StringReader(input)))
{
taggedUnits.add(tagger.tagSentence(sentence));
}
您可以从各种 penn 标签中获取时态信息:
27. VB Verb, base form
28. VBD Verb, past tense
29. VBG Verb, gerund or present participle
30. VBN Verb, past participle
31. VBP Verb, non-3rd person singular present
32. VBZ Verb, 3rd person singular present
关于主动/被动方面,您可以使用斯坦福核心 NLP 中包含的类型化依赖项。
- 如果句子是主动语态,则应该存在“nsubj”依存关系。
- 如果句子是被动语态,则“nsubjpass”依赖性应该
存在
希望这可以帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)