在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

2024-02-28

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 (NER) 提取人员和组织的列表。当我跑步时：

from nltk.tag.stanford import NERTagger
st = NERTagger('/usr/share/stanford-ner/classifiers/all.3class.distsim.crf.ser.gz',
               '/usr/share/stanford-ner/stanford-ner.jar') 
r=st.tag('Rami Eid is studying at Stony Brook University in NY'.split())
print(r)

输出是：

[('Rami', 'PERSON'), ('Eid', 'PERSON'), ('is', 'O'), ('studying', 'O'),
('at', 'O'), ('Stony', 'ORGANIZATION'), ('Brook', 'ORGANIZATION'),
('University', 'ORGANIZATION'), ('in', 'O'), ('NY', 'LOCATION')]

我想要的是从此列表中提取以下形式的所有个人和组织：

Rami Eid
Sony Brook University

我尝试遍历元组列表：

for x,y in i:
        if y == 'ORGANIZATION':
            print(x)

但此代码每行仅打印每个实体一个：

Sony 
Brook 
University

真实的数据在一句话中可能有多个组织、多个人，如何在不同实体之间进行限制？

感谢link https://stackoverflow.com/questions/13765349/multi-term-named-entities-in-stanford-named-entity-recognizer由 @Vaulstein 发现，很明显，训练有素的斯坦福标注器是分布式的（至少在 2012 年）不分块命名实体. From 接受的答案 https://stackoverflow.com/a/13781588/699305:

许多 NER 系统使用更复杂的标签，例如 IOB 标签，其中 B-PERS 等代码指示人员实体的起始位置。 CRFClassifier 类和特征工厂支持此类标签，但它们并未在我们当前分发的模型中使用（截至 2012 年）

您有以下选择：

收集具有相同标记的单词；例如，所有相邻的单词都被标记PERSON应被视为一个命名实体。这很简单，但当然有时它会组合不同的命名实体。（例如。New York, Boston [and] Baltimore是关于三个城市，而不是一个。）Edit:这就是阿尔瓦斯代码在接受的答案中所做的事情。请参阅下面的更简单的实现。
Use nltk.ne_chunk()。它不使用斯坦福识别器，但它使用块实体。（它是 IOB 命名实体标记器的包装器）。
找出一种方法，根据斯坦福标记器返回的结果进行自己的分块。
针对您感兴趣的领域训练您自己的 IOB 命名实体分块器（使用斯坦福工具或 NLTK 框架）。如果您有时间和资源来正确执行此操作，它可能会给您带来最佳结果。

Edit:如果您想要的只是提取连续的命名实体（上面的选项 1），您应该使用itertools.groupby:

from itertools import groupby
for tag, chunk in groupby(netagged_words, lambda x:x[1]):
    if tag != "O":
        print("%-12s"%tag, " ".join(w for w, t in chunk))

If netagged_words是列表(word, type)你的问题中的元组，这会产生：

PERSON       Rami Eid
ORGANIZATION Stony Brook University
LOCATION     NY

再次注意，如果两个相同类型的命名实体紧邻出现，则此方法会将它们组合起来。例如。New York, Boston [and] Baltimore是关于三个城市，而不是一个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

stanfordnlp

namedentityrecognition

在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表的相关文章

MANIFEST.in、package_data 和 data_files 澄清吗？

我正在尝试创建一个 Python 包并且目录结构如下 mypkg init py module1 x py y py z txt module2 a py b py 然后我将所有文件添加到MANIFEST in当我检查创建的存档时它包含
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

“编译器选项”-auxbase-strip 的作用是什么？

我刚刚使用编译器选项 frecord gcc switches 编译了代码以查看编译器自动选择哪些选项现在我可以看到部分中的选项 GCC command line 有几个看似合理的编译器选项但也有一个我找不到任何相关文档什么是 au
如何从 YouTube 视频中删除黑条

YouTube 视频中出现了黑条视频播放时看起来没什么奇怪的我们可以删除视频中的黑色空间吗我想删除那个黑色空间并以我们为播放器尺寸选择的所需宽高比显示视频目前我正在使用stander google YT 播放器API 这有意义吗
如何在FabricJs中设置相对位置（oCoords）？

我在fabricJs中有一个文本我设置了顶部和左侧这会将 aCoords 正确设置为这些值但是 oCoords 不匹配并且文本未显示在正确的位置我怀疑我需要以某种方式设置为 oCoords 以便文本显示在画布上的右侧像素坐标顶部
如何动态更改 Jekyll _config.yml 中的变量？

您好我正在开发一个 Jekyll 项目我需要在 config yml 中放置一个变量我想从模板代码中动态更改该变量这就是我想做的但我无法让它发挥作用是否有可能做到这一点在 config yml中 my var value 在模
友好 ID slug 不包含 id

我想要这样的网址 http domain com products 454 table lamp 所以我像这样使用Friendly id extend FriendlyId friendly id slug candidates use h
配置执行器端点安全

Spring Boot Actuator 端点默认受基本 http 安全保护可以更改为使用 Spring Security 吗我已成功设置 Spring Security 并使用它来保护我的其他页面 I tried security b
如何从nodejs中的process.environment中提取环境变量

我已成功将条纹支付集成到我的虚拟 Nodejs 项目中但我仍然面临一个问题它不允许我继续前进因为我必须将代码推送到我的 github 存储库因此我通过 npm 安装了 dotenv 包并创建了一个 env 文件来存储我的条带密钥
如何获取 Woocommerce 产品中的变体 ID

我正在尝试进入一个插件我正在编写产品的变体 ID 这是我写的 class mass public function construct add action woocommerce product after variable attri
Android minLines 和 maxLines 不能在同一个 TextView 中一起工作

这里我只有 1 件商品ListView我展示了两个不同的TextViews末尾有不同颜色的ListView item 但问题是我想显示每个最多 3 行TextView但如果长度为TextView是小但如果文本很大它效果很好当我添加an
如何确保我的 django 项目正在使用我为其创建的虚拟环境？

我知道已经有一个与此类似的问题但我认为我想要的答案不存在我是 django 的新手我已经使用 virtualenv 和 django 项目创建了一个虚拟环境但是我们如何知道我的项目正在使用虚拟环境的包而不是使用全局包请给我一些详细
在 Episerver 中截断 Xhtmlstring

我需要获得截断的 Xhtmlstring 的 html 友好版本因为截断时标签结尾可能会被截断关于如何实现这一目标有什么想法吗我想过先删除所有标签然后进行剪切但是 Episerver 内部是否有解决方案或者这只是使用正则表达式进
Matplotlib 中的像素化动画

我一直在使用 Matplotlib 的动画工具来制作动画人物我注意到一个问题对于具有大量帧的动画来说尤其明显即图形的质量很快就会恶化导致输出看起来像素化模糊例子 Messy grid lines pixelated output
将 HTMLDocument 转换为可打印字符串

我想将 Javascript DOM HTMLDcument 转换为可以写入文件的字符串但是如何将 HTMLDocument 的字符串转换为 xml Update如果可能的话我希望看到应用任何动态 JavaScript 渲染后生成的 h
Python从文件中删除一行或多行而不修改现有内容

我必须根据文件中的用户输入删除字符串或字符串列表我参考了下面的链接一切正常删除文件中的特定行 python https stackoverflow com questions 4710067 deleting a specific l
Jenkinsfile 中的 Jenkins 全局环境变量

如何在 Jenkinsfile 中调用全局环境变量例如如果我有一个变量 name credentialsId value xxxx xxxx xxxxx xxxxxxxxx 如何在 groovy 脚本中使用它 I tried crede
视差效果使元素延迟滚动

我正在尝试复制此网站 www adidas co uk climazone 这些元素似乎只在用户滚动后轻微移动我怎样才能实现这个目标谢谢你 Here s DEMO http s codepen io CY5 debug vKkELx它实
正则表达式匹配任何单词 - 没有非贪婪运算符

我想将任何内容匹配到特定单词例如 C 中的结束评论但是由于性能原因我不想使用非贪婪运算符例如要匹配 C 注释对于我的文件来说太慢了有没有可能提高性能当然可以使用展开循环技术 http www softec lu site
通过 Vagrant 在 Docker 中共享卷

我有一个 Vagrant virtualbox 它托管一个 Docker 容器主机有一个需要在虚拟机和容器中访问的文件夹 Host host path gt VM vagrant path gt Container docker path
名称和尺寸来自 NSFont

我试图在互联网上找到一些东西但现在我没有答案所以如果你能帮助我那就太好了到目前为止我有一个 NSFont 对象但我想要字体的名称如 NSString 和大小这样我就可以输出它就像是 NSFont fontWithName M
在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 NER 提取人员和组织的列表当我跑步时 from nltk tag stanford import NERTagger st NERTagger usr share sta

在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表 的相关文章

随机推荐

热门标签

在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表的相关文章