使用 NLTK 和德语语料库从名词获取性别

2024-03-15

我正在尝试 NTLK。我的问题是图书馆是否可以检测德语名词的性别。我想接收此信息以确定文本是否是性别中立的。浏览此处获取更多信息:https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender

底层代码对​​我的句子进行了分类,但我看不到任何有关性别的信息“米塔拜特”。到目前为止我的代码:

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止,我还没有找到任何工具或脚本可以完成此任务。也许还有一个更好的解决方案来完成我的任务。


我不相信 NLTK 可以为德语做到开箱即用。然而,有免费的德语形态标记器可以为您做到这一点,例如 RFTagger:

http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/ http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/

它给出这样的输出:

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut 
ist     VFIN.Sein.3.Sg.Pres.Ind 
ein     ART.Indef.Nom.Sg.Masc 
Testsatz    N.Reg.Nom.Sg.Masc 
.   SYM.Pun.Sent 

然而它不是在 Python 中,所以你必须使用 subprocess 来调用它。另一种选择是获取带有标记为德语性别的名词的语料库,例如 Tiger 语料库:

http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html

并训练 NLTK 识别性别,但我希望 RFTagger 是一个更快/更准确的解决方案。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK 和德语语料库从名词获取性别 的相关文章

随机推荐