NLTK 荷兰语命名实体识别

2024-01-10

我正在尝试从荷兰语文本中提取命名实体。我用了nltk培训师 https://github.com/japerk/nltk-trainer/在 conll2002 荷兰语语料库上训练标注器和词块划分器。但是，分块器的解析方法没有检测到任何命名实体。这是我的代码：

str = 'Christiane heeft een lam.'

tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')

str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags

str_chunks = chunker.parse(str_tags)
print str_chunks

该程序的输出：

[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)

我原以为克里斯蒂安会被检测为命名实体。有什么帮助吗？

The conll2002语料库同时包含西班牙语和荷兰语文本，因此您应该确保使用fileids参数，如python train_chunker.py conll2002 --fileids ned.train。同时使用西班牙语和荷兰语进行培训效果不佳。

默认算法是基于 Tagger 的 Chunker，该算法在 conll2002 上效果不佳。相反，使用基于分类器的分块器（例如 NaiveBayes），因此完整的命令可能如下所示（并且我已经确认生成的分块器确实将“Christiane”识别为“PER”）：

python train_chunker.py conll2002 --fileids ned.train --classifier NaiveBayes --filename ~/nltk_data/chunkers/conll2002_ned_NaiveBayes.pickle

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK 荷兰语命名实体识别的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

如何在 Android/Black berry 的 Air 中打开 pdf

我想在 Android Black berry 的 Air 中打开 pdf 我怎么做到这一点我使用AIR 2 6 IDE是Flash Builder 4 5 StageWebView http help adobe com en US a
为什么在 Http 服务中使用 .takeUntil() 而不是 .take(1)？

Context 我正在努力实施 ngrx 效果 https github com ngrx effects在一个 ngrx 商店 https github com ngrx store项目并研究示例应用程序 https github com
Python-在列表中查找重复项并按键对它们进行分组

我有一个像这样的 python 字典列表 id 1 name name1 id 2 name name2 id 3 name name1 我想要做的是创建一个新的字典列表其中仅包含键名称重复的字典然后对它们进行分组 id1 1 id
如何在不使用 Swagger UI 的情况下将 JSON 数据发布到 FastAPI 后端？

我正在尝试做一个简单的POST使用 FastAPI 进行操作我使用创建了一个基本结构BaseModel 它只有两个属性即name and roll import uvicorn from fastapi import FastAPI f
创建 SSIS 包以从多个数据源之一导入

是否可以创建一个可以传递文件通过变量并从变量确定要使用哪个数据流任务的 SSIS 包我希望能够做的是创建一个 DTSX 包它可以将文件名作为变量并检测只需从文件名它是否是 Excel 2003 Excel 2007 或 CSV
在 PHP NUSOAP SoapClient 中使用的 TLS v1.2 密码

我想连接到仅支持 TLS 1 2 的服务器我可以指定哪些可能的密码来在 PHP NUSOAP SoapClient 创建中流式传输上下文
如何使用Jquery滑动切换表格行？

我想知道如何从脚本中滑动切换表格行我有一个 php 文件该文件包含在名为 output listings 的 div 内的 html 页面中 PHP 文件
测试输出随机 64 位浮点数的黑匣子的随机性

我收到了这个面试问题需要为其编写一个函数我失败了因为这是一个电话面试问题所以我认为我应该编写的代码实际上不需要成为完美的随机测试人员有任何想法吗如何在面试期间的 30 分钟内编写一些代码成为一名合理的随机性测试人员 edit 本
将接口派生类转换为另一个派生类

我正在尝试实现一种方法将从接口派生的给定对象转换为也从同一接口派生的不同类型这是为了防止必须完全重建对象 interface IItem class FryingPan IItem class CookingPan IItem 但问题是
perl - Hash::Merge 在哈希中重复相同的列表，而不是将它们放置一次

我正在尝试合并两个包含其中列表的哈希值问题是这些列表完全相同但因为它们是列表所以合并会在内部复制它们的值有什么想法如何删除重复项吗 usr bin perl use strict use warnings use Hash Merg
BHO/ATL/COM 中的线程。 Winapi 还是其他什么？

我编写 IE 插件并使用 ATL 我需要创建后台工作线程以便 UI 线程将尽快解除阻塞我的问题是我应该使用尽可能最低的方式来创建线程即 Winapi 创建线程 http msdn microsoft com en us librar
PHP：如何将数组转换为 StdClass 对象？

有没有 PHP 函数可以自动执行此操作 if is array array obj new StdClass foreach array as key gt val obj gt key val array obj 为什么不直接投射呢 my
从 char** 到 const char** 的隐式转换

为什么我的编译器 GCC 不隐式转换char to const char 下面的代码 include
Angular2/ASP.NET - “未提供 ResourceLoader 实现。无法读取 URL”

我正在尝试在 Visual Studio 上构建自己的 Angular 2 ASP NET SPA 就可以找到所有的文件了here https github com minusthebear C Sharp tree master Test
在java中获取日期的星期几的一个字母缩写

据我所知在Java中我可以以正常星期五或短模式星期五获得工作日但是有什么办法只获取第一个字母呢我以为我可以使用子字符串获得第一个字母但它不适用于所有语言例如西班牙语工作日为 Lunes Martes Mi rcol
删除复制构造函数会破坏继承的构造函数

我正在尝试使用 C 11 的构造函数继承功能以下片段从某处复制我不记得从哪里复制完全正常 include
如何更新 SaveContext 上修改和删除的实体？

目标是跟踪谁更改和删除了实体所以我有一个实现接口的实体 interface IAuditable string ModifiedBy get set class User IAuditable public int UserId get
应用程序未在设备中自动启动并在 xcode 上出现错误

我在 Xcode 4 5 上遇到一个奇怪的错误当我尝试使用 iOS 6 从 xcode 在 Ipad 2 上运行我的应用程序时出现此错误我执行了以下方法来运行该应用程序但没有成功清理项目并运行重新启动设备重新启动Xcode 我
蓝图 css 中的资源预编译错误 - ActionView::Template::Error （blueprint/screen.css 未预编译） - 内部服务器错误 500

我正在尝试部署 Rails 应用程序但遇到了资产预编译错误根据生产日志该错误是由名为 screen css 的蓝图 CSS 脚本引起的如您在下面的错误输出中看到的然而根据生产日志该资产实际上确实是经过预编译的我尝试将 sc
NLTK 荷兰语命名实体识别

我正在尝试从荷兰语文本中提取命名实体我用了nltk培训师 https github com japerk nltk trainer 在 conll2002 荷兰语语料库上训练标注器和词块划分器但是分块器的解析方法没有检测到任何命名实体

NLTK 荷兰语命名实体识别

NLTK 荷兰语命名实体识别 的相关文章

随机推荐

热门标签

NLTK 荷兰语命名实体识别的相关文章