spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？

2024-01-10

也许我跳过了部分文档，但我试图确定标准 NER 工具集中每个实体的唯一 ID。例如：

import spacy
from spacy import displacy
import en_core_web_sm
nlp = en_core_web_sm.load()

text = "This is a text about Apple Inc based in San Fransisco. "\
        "And here is some text about Samsung Corp. "\
        "Now, here is some more text about Apple and its products for customers in Norway"

doc = nlp(text)

for ent in doc.ents:
    print('ID:{}\t{}\t"{}"\t'.format(ent.label,ent.label_,ent.text,))


displacy.render(doc, jupyter=True, style='ent')

returns:

ID:381    ORG "Apple Inc" 
ID:382    GPE "San Fransisco" 
ID:381    ORG "Samsung Corp." 
ID:381    ORG "Apple" 
ID:382    GPE "Norway"

我一直在看ent.ent_id and ent.ent_id_但根据docs https://spacy.io/api/token。我找不到任何东西ent.root任何一个。

例如，在GCP NLP https://cloud.google.com/natural-language/每个实体都会返回一个 ⟨entity⟩number，使您能够识别文本中同一实体的多个实例。

这是关于位于 ⟨旧金山⟩4 的 ⟨Apple Inc⟩1 的⟨文本⟩2。和这里有一些关于 ⟨Samsung Corp⟩6 的 ⟨text⟩3。现在，这里还有一些 ⟨text⟩8 关于 ⟨Apple⟩1 及其为 ⟨customers⟩7 提供的 ⟨products⟩5 ⟨挪威⟩9"

spaCy 支持类似的东西吗？或者有没有办法使用 NLTK 或斯坦福大学？

您可以使用neuralcoref库来获得与SpaCy模型一起使用的共指解析，如下所示：

# Load your usual SpaCy model (one of SpaCy English models)
import spacy
nlp = spacy.load('en')

# Add neural coref to SpaCy's pipe
import neuralcoref
neuralcoref.add_to_pipe(nlp)

# You're done. You can now use NeuralCoref as you usually manipulate a SpaCy document annotations.
doc = nlp(u'My sister has a dog. She loves him.')

doc._.has_coref
doc._.coref_clusters

在这里找到安装和使用说明：https://github.com/huggingface/neuralcoref https://github.com/huggingface/neuralcoref

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

informationextraction

namedentityrecognition

spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

当包含 Spring 数据剩余时，Spring 以纯 JSON 而非 HAL 格式返回资源

当我为我的实体使用 Spring Data Rest 提供的默认控制器时一切都会正常工作输出如下所示 links search href http localhost 8080 users search embedded users f
iOS 10 上强制使用软件键盘

当蓝牙 HID 设备如条形码扫描仪处于活动状态时有没有人知道如何强制 iOS 中的屏幕软件键盘关于 SO 有一些古老的问题但大多数都是通过手动调整键盘视图的框架来解决的并且从 iOS 8 开始该方法似乎不再适用奇怪的是似乎
根据 div 的高度动态更改其上边距

我有一个固定在网页一侧的 div 我需要该 div 垂直居中使用 CSS 轻松完成注意 div 的基础高度为 300px sidePanel margin 150px 0 0 0 top 50 position fixed 我遇到的问题
MySQL 在 Group By 查询中选择错误的列值

这是我遇到的一个真正的菜鸟 MySQL 查询问题我正在编写的游戏中有一个高分表高分DB记录姓名等级以及获得的分数数据库中有许多接近重复的内容例如 Name Level Score Timestamp key Bob 2 41 12
Visual Studio 2017 15.3.0 git 更改包括“storage.ide”，即使 .gitignore 中的 .vs/

几天前我将VS 2017升级到15 3 0 从那时起文件 storage ide 一直保留在我修改的文件中即使我使用过VS 的建议 gitignore https github com github gitignore blob mas
运算符“<”不能应用于“object”和“int”类型的操作数

我正在 ASP NET 和 C 中创建用户登录但是在编写函数后由于错误而无法编译错误指出运算符我想检查 ExecuteNonQuery 的返回值是否大于 0 否则登录会失败该存储过程是在类的前面与已确认的数据库连接字符串一起创建
展开角度以获得连续相位

假设我有一系列与此类似的阶段 import numpy as np import matplotlib pyplot as plt phase np linspace 0 100 1000 np pi plt plot phase plt
Lisp 反转“全部”函数

我想在 lisp 中编写一个函数使用映射函数反转列表中的所有元素但我不知道如何开始这个我想我必须以某种方式使用内置的反向函数例如如果我有列表 1 2 3 4 5 6 7 8 9 我会得到 9 8 7 6 5 4 3 2 1 或者如
如何在“--help”中定义单击子命令的顺序

我有这样的代码 import click click group def entry point pass entry point add command lidtk data download documents main entry p
网格上最长的路径，无需重新访问网格单元

我正在寻找一种算法来找到网格上两点之间的最长路径但附加的限制是您不能重新访问网格上的单元格此外您只能向上向下向左向右移动考虑到这些限制我认为走最长的路径与尝试填充尽可能多的空间相同然而我在弄清楚如何做到这一点方面遇到了一
在 SSRS 的一张图表中使用 2 个数据集

是否可以拥有 2 个数据集并在 SSRS 报告的一张图表中显示它们的数据还是我需要合并这些数据集我在一个数据集中有已接听的电话数量在另一个数据集中有未接的电话数量我想在图表中显示它们数据保存在不同的区域这就是为什么我没有一开始就
在圆圈内创建三个垂直点（省略号）

我想做一个圆圈 div 就像这张图片我已经尝试过这段代码 discussion after content 2807 font size 1em background 2d3446 width 20px height 20px borde
adb 无法连接到 tcp:5037 的守护进程

我的 adb 无法连接设备我在跑步adb start server ulucudeMacBook Pro ulucu adb start server daemon not running starting it now at tcp 5
如何在已安装的 PWA 应用程序上推送应用程序更新？

我的问题是用户是否可以在无需重新安装 PWA 应用程序的情况下获取这些更改我在生产中部署了一个 PWA 应用程序客户端已在其移动设备中安装了已部署的 PWA 应用程序我想在 HTTP 服务器中的 PWA 应用程序中部署另一个更新补丁
使用 sed、awk、tr 和朋友删除尾随/开始换行符

我想从文件中删除所有空行但仅当它们位于文件的末尾开头时也就是说如果它们之前没有非空行则在开头并且如果有最后其后没有非空行除了 Perl 或 Ruby 等功能齐全的脚本语言之外这是否可能我更愿意这样做sed or awk如
Haskell：检查两个列表是否相等

我想检查是否有两个列表A and B是相等的即a1 b1 a2 b2 我有一个可行的解决方案 all x gt x zipWith A B 另一个想法是递归地执行 a as b bs 检查是否a1 b1并使用剩余列表调用该函数as and
在超类中缓存属性

例如我有一个类可以缓存一些值以避免多次计算它们 class A object def init self a b self a a self b b self value None property def value self if s
Github 创建带有 2 因素身份验证的令牌

我正在尝试授权用户并取回令牌用户已启用两因素身份验证这是我尝试使用的代码它不会接受我通过短信获得的代码如果用户未启用 2fa 则此方法有效 curl i u user H X GitHub OTP code d scopes rep
带中继的 TypeScript：无法解析生成的模块

In my MessageItem tsx组件我有以下代码 const data useFragment graphql fragment MessageItem message on Message date body message a
spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？

也许我跳过了部分文档但我试图确定标准 NER 工具集中每个实体的唯一 ID 例如 import spacy from spacy import displacy import en core web sm nlp en core web

spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？

spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？ 的相关文章

随机推荐

热门标签

spaCy 共指解析 - 命名实体识别 (NER) 返回唯一实体 ID？的相关文章