我正在尝试 NTLK。我的问题是图书馆是否可以检测德语名词的性别。我想接收此信息以确定文本是否是性别中立的。浏览此处获取更多信息:https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender
底层代码对我的句子进行了分类,但我看不到任何有关性别的信息“米塔拜特”。到目前为止我的代码:
sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
到目前为止,我还没有找到任何工具或脚本可以完成此任务。也许还有一个更好的解决方案来完成我的任务。
我不相信 NLTK 可以为德语做到开箱即用。然而,有免费的德语形态标记器可以为您做到这一点,例如 RFTagger:
http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/ http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/
它给出这样的输出:
Das PRO.Dem.Subst.-3.Nom.Sg.Neut
ist VFIN.Sein.3.Sg.Pres.Ind
ein ART.Indef.Nom.Sg.Masc
Testsatz N.Reg.Nom.Sg.Masc
. SYM.Pun.Sent
然而它不是在 Python 中,所以你必须使用 subprocess 来调用它。另一种选择是获取带有标记为德语性别的名词的语料库,例如 Tiger 语料库:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html
并训练 NLTK 识别性别,但我希望 RFTagger 是一个更快/更准确的解决方案。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)