使用 NLTK 和德语语料库从名词获取性别

2024-03-15

我正在尝试 NTLK。我的问题是图书馆是否可以检测德语名词的性别。我想接收此信息以确定文本是否是性别中立的。浏览此处获取更多信息：https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender

底层代码对我的句子进行了分类，但我看不到任何有关性别的信息“米塔拜特”。到目前为止我的代码：

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止，我还没有找到任何工具或脚本可以完成此任务。也许还有一个更好的解决方案来完成我的任务。

我不相信 NLTK 可以为德语做到开箱即用。然而，有免费的德语形态标记器可以为您做到这一点，例如 RFTagger：

http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/ http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/

它给出这样的输出：

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut 
ist     VFIN.Sein.3.Sg.Pres.Ind 
ein     ART.Indef.Nom.Sg.Masc 
Testsatz    N.Reg.Nom.Sg.Masc 
.   SYM.Pun.Sent

然而它不是在 Python 中，所以你必须使用 subprocess 来调用它。另一种选择是获取带有标记为德语性别的名词的语料库，例如 Tiger 语料库：

http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html

并训练 NLTK 识别性别，但我希望 RFTagger 是一个更快/更准确的解决方案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK 和德语语料库从名词获取性别的相关文章

根据随机选择的列生成随机天数

我有一个如下所示的数据框感谢 SO 社区在以下方面提供的帮助 df1 pd DataFrame person id 11 11 12 13 14 date birth 01 01 1961 12 30 1961 05 29 1967 01
如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
一起使用 Argparse 和 Json

我是 Python 初学者我想知道 Argparse 和 JSON 是否可以一起使用说我有变量p q r 我可以将它们添加到 argparse 中 parser add argument p param1 help x variabl
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
在 Windows 上将 Word2vec 与 Tensorflow 结合使用

In 本教程文件 https github com tensorflow models blob master tutorials embedding word2vec py L45通过 Tensorflow 找到以下行第 45 行来加
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
Pandas，按最大返回值进行分组 AssertionError：

熊猫有问题我想听听你的意见我有这个数据框我需要在其中获取最大值代码就在下面 df stack pd DataFrame 1 0 2016 0 NonResidential Hotel 98101 0 DOWNTOWN 47 6122
在 Python 中，如何获取特定文件中定义的类列表？

如果一个文件myfile py包含 class A object Some implementation class B object Some implementation 我如何定义一个方法以便在给定的情况下myfile py 它返回
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
python csv按列转换为字典

是否可以将 csv 文件中的数据读取到字典中使得列的第一行是键同一列的其余行构成列表的值例如我有一个 csv 文件 strings numbers colors string1 1 blue string2 2 red string
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
Python - 打印漂亮的 XML 为空标签文本创建开始和结束标签

我正在编写一个 python 应用程序它创建一个 ElementTree XML 然后使用 minidom 的 toprettyxml 将其写入文件 final tree minidom parseString ET tostring r

随机推荐

Cookie 不会在 Windows Phone 应用程序上发送，但在 Windows 8 应用程序中会使用相同的代码发送 Cookie

我有一个基本类它使用以下命令发出 GET 和 POST 请求HttpWebRequest HttpWebResponse 我使用我的类登录 API 然后请求数据在 Windows 8 Metro 应用程序中它完全按照预期工作在 Wi
我在运行项目时遇到 java.lang.StackOverflowError 吗？

我正在尝试使用 Spring 和 postgres 使用 maven 来实现 solr 搜索但是在运行应用程序时我得到 404 异常 Exception processing loader WebappLoader solrjExampl
创建本机 C++ OpenGL 3D 编辑器并将其用作 C# 中的 WinForms 或 WPF 控件

我想创建一个简单的3D编辑器程序并且我不喜欢C windows编程但我也不想在使用 OpenGL 时弄乱托管代码因此可以在本机 C 中创建一个将托管 OpenGL 3D 绘图表面的控件无需其他控件也具有接口方法和属性并将其用
Graphql @include 带表达式

我正在实现一个查询该查询应该根据用户登录状态提供响应中的某些字段具体来说我想得到点率仅当字段 authenticationToken已通过并且希望避免通过 authenticated在下面的查询中我想避免发送的原因 authen
Linux 上的 APL 键映射 (GNU APL)

我的祖父是 60 年代 70 年代 IBM 的一名 APL 程序员他最近开始使用 Linux 我一直在帮助他设置和使用 GNU APL http www gnu org software apl http www gnu org soft
Google Analytics 跟踪中的 AnalyticsReceiver

在Google Analytics Tracking Ver1中它有类AnalyticsReceiver 但是当我使用 Google Analytics Tracking Ver2 时它还没有AnalyticsReceiver班级我不
在 Android 上使用 NFC 软件卡模拟控制完整的 APDU

我正忙于开发一个应用程序来模拟 Nexus 7 上使用 CM10 1 与 ACR122U102 读取器写入器的正常 APDU 通信我发现这个博客是关于软件卡模拟 http nelenkov blogspot nl 2012 10 emu
Visual Studio 2010无法启动程序.dll

我的 Visual Studio 2010 有问题当我单击开始调试按钮时它就开始调试似乎没有错误我只是在其上创建一个按钮但它会显示Unable to start program c users xx dll 现在有人怎么解决
使用“ref”键将“引用类型”作为参数传递给方法是否有意义？ [复制]

这个问题在这里已经有答案了可能的重复 C 引用类型变量的 ref 有什么用 https stackoverflow com questions 961717 c what is the use of ref for reference t
按顺序数字分组

我有一些这样的数据 row id 1 1 2 36 3 37 4 38 5 50 6 51 我想查询它看起来像这样 row id group 1 1 1 2 36 2 3 37 2 4 38 2 5 50 3 6 51 3 这样我就可以按数
PHP 现在设置格式 YYYY-MM-DD

我需要以这种格式将变量设置为当前日期例如 2012 05 12 我知道这是 YYYY MM DD 吗我试过了 date date yyyy mm dd strtotime now 但这并没有将日期保存到 mysql 因此它显示为 000
如何将 OpenIdconnect 与 istio 集成？

我想使用以下方式对最终用户进行身份验证JWT由 OpenId 连接提供者如 keycloak 或 auth0 etc 提供istio服务网格但我可能无法成功集成它因为我对 JWT auth 和 istio 很陌生有人可以提供正确的信
防止“持久对象异常”

我有一个非常基本的 JAX RS 服务 BookService下面的类允许创建类型的实体Book 也见下文 POST有效负载 acquisitionDate 1418849700000 name Funny Title numberOfP
Haskell 重叠实例和类型函数

我有以下类型类它模拟了类似 SQL 的查询优化 class OptimizableQuery q where type Optimized q optimize q gt Optimized q instance Query q gt O
Asp.Net MVC：如何在网址中启用破折号？

我想在我的网址中用破折号分隔单词所以而不是 MyController MyAction 我想要 My Controller My Action 这可能吗您可以像这样使用 ActionName 属性 ActionName My Actio
显示日期格式[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想显示 2 March 2011
如何在python中将文件保存到特定目录？

目前我正在使用此代码来保存下载的文件但它将它们放在运行它的同一文件夹中 r requests get url with open file name pdf wb as f f write r content 如何将下载的文件保存到我选
如何快速找到接口方法的实现？ [复制]

这个问题在这里已经有答案了有没有一种快速方法可以找到接口的方法属性等的所有实现而不是引用这是一些示例代码 public class SomeClass IBaseClass public Int32 GetInt return 1
在多语言操作系统上使用 Hyperic SIGAR 时出现“java.library.path 中没有 sigar-x86-winnt.dll”错误

我在用金丝桃 SIGAR http www hyperic com products sigar库作为我的安装程序中的第三方库我的安装程序将所有第三个 lib 文件解压到 TEMP user 文件夹中在英语操作系统上一切都很好但是当我
使用 NLTK 和德语语料库从名词获取性别

我正在尝试 NTLK 我的问题是图书馆是否可以检测德语名词的性别我想接收此信息以确定文本是否是性别中立的浏览此处获取更多信息 https en wikipedia org wiki Gender neutrality in langua

使用 NLTK 和德语语料库从名词获取性别

使用 NLTK 和德语语料库从名词获取性别 的相关文章

随机推荐

热门标签

使用 NLTK 和德语语料库从名词获取性别的相关文章