使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式

2024-02-06

我有变量trainData其具有以下简化格式。

[

('Paragraph_A', {"entities": [(15, 26, 'DiseaseClass'), (443, 449, 'DiseaseClass'), (483, 496, 'DiseaseClass')]}),
('Paragraph_B', {"entities": [(969, 975, 'DiseaseClass'), (1257, 1271, 'SpecificDisease')]}),
('Paragraph_C', {"entities": [(0, 27, 'SpecificDisease')]})
]

我正在尝试转换trainData to .spacy首先将其转换为doc然后到DocBin。整体trainData文件可通过访问谷歌文档 https://drive.google.com/file/d/1Njb5hoPGU1sqaQzEgvx-Bld4LRUkrChm/view?usp=sharing.

我尝试重现本教程中提到的内容，但对我不起作用。教程是：使用 spaCy 3.0 构建自定义 NER 模型 https://towardsdatascience.com/using-spacy-3-0-to-build-a-custom-ner-model-c9256bea098

我尝试了以下方法。

import spacy
from spacy.tokens import DocBin

nlp = spacy.blank("en") # load a new spacy model
db = DocBin() # create a DocBin object

for text, annot in trainData: # data in previous format
    doc = nlp.make_doc(text) # create doc object from text
    ents = []
    for start, end, label in annot["entities"]: # add character indexes
        span = doc.char_span(start, end, label=label, alignment_mode="contract")
        ents.append(span)
    doc.ents = span # label the text with the ents
    db.add(doc)

db.to_disk("./train.spacy") # save the docbin object

但我的代码中关于如何转换数据的错误是Spacy v2 to Spacy v3。在上面的代码片段中，我得到了一个回溯：TypeError: 'spacy.tokens.token.Token' object is not iterable.

你有一个小错误。检查 XXX 是否有更改的行。

import spacy
from spacy.tokens import DocBin

nlp = spacy.blank("en") # load a new spacy model
db = DocBin() # create a DocBin object

for text, annot in trainData: # data in previous format
    doc = nlp.make_doc(text) # create doc object from text
    ents = []
    for start, end, label in annot["entities"]: # add character indexes
        span = doc.char_span(start, end, label=label, alignment_mode="contract")
        ents.append(span)
    #XXX FOLLOWING LINE CHANGED
    doc.ents = ents # label the text with the ents
    db.add(doc)

db.to_disk("./train.spacy") # save the docbin object

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式的相关文章

如果两点之间的距离低于某个阈值，则从列表中删除点

我有一个点列表只有当它们之间的距离大于某个阈值时我才想保留列表中的点因此从第一个点开始如果第一个点和第二个点之间的距离小于阈值那么我将删除第二个点然后计算第一个点和第三个点之间的距离如果该距离小于阈值则比较第一点和第四点
是否有解决方法可以通过 CoinGecko API 安全检查？

我在工作中运行我的代码一切都很顺利但在不同的网络家庭 WiFi 上我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到在
如何手动计算分类交叉熵？

当我手动计算二元交叉熵时我应用 sigmoid 来获取概率然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页

随机推荐

Kendo UI DropDownList 更改触发事件

我是第一次使用 Kendo UI 在触发 Kendo 下拉列表更改中的功能时遇到一些困难我的目标是根据用户的下拉选择显示不同的搜索字段我尝试了几种不同的方法但似乎没有任何效果有人有一个简单的 jQuery 片段可以获取 Kendo
如何使用 Chrome Devtools 协议接收嵌入式 iframe 的事件？

我正在尝试使用Chrome 开发者工具协议 https chromedevtools github io devtools protocol tot Network 列出选项卡的网络和日志事件我成功地为顶级框架做到了这一点但在儿童 if
在 Eclipse 的 Android 设备中看不到 Nexus7 [重复]

这个问题在这里已经有答案了可能的重复 ADB 无法识别我的 Galaxy Nexus Win7 https stackoverflow com questions 8801829 adb dosnt recognize my galaxy
Java 8用于计算小数年龄的日期时间[重复]

这个问题在这里已经有答案了我是 Java 8 日期时间 API 的新手想知道如何计算以小数表示的年龄它返回双精度值例如 30 5 这意味着 30 年零 6 个月例如下面的示例代码得到的输出为 30 0 但不是 30 5 这可能是
散列和索引有什么区别？

我研究了 DBMS 中的哈希可扩展线性和 DBMS 中的索引稀疏密集基于辅助键的索引等但我无法理解哈希和索引之间的区别这两种技术是一起使用还是单独使用我很困惑因为这两种技术的目的似乎都是为了让我们能够快速检索数据所以我
EL 语法错误是 en

JSP页面中的以下语句在第一个附近遇到错误equals出现这种情况请问是什么原因如何解决请尽快纠正 fn length updateStock todayDimensionStones i count DimensionStones
以编程方式获取当前页面

在 JSF 支持 Bean 托管 Bean 焊接 Bean 无关紧要中我可以通过调用获取客户端所在的上下文路径 FacesContext ctx FacesContext getCurrentInstance String path c
C# 线程问题和最佳实践

这是我第一次在 C 应用程序中使用线程基本上它是一个应用程序用于检查列表中的一堆网站是死是活这是我第一次尝试使用多线程 public void StartThread string URL int no Thread newThrea
application(_:didFinishLaunchingWithOptions:)' 几乎符合可选要求

安装 Xcode 8 beta 6 后我收到一条警告实例方法 application didFinishLaunchingWithOptions 几乎匹配协议 UIApplicationDelegate 的可选要求 applicatio
如何在 Blackberry BrowserField 中缓存

我正在创建一个 Blackberry 应用程序来显示某个站点的全屏 Web 视图我有一个可以正常显示的工作浏览器字段但从页面到页面的导航速度比本机浏览器慢浏览器字段似乎没有内置缓存导致加载时间很慢当我添加以下代码来管理缓存时该站
FlipSide 上带有导航控制器和表格视图的实用应用程序

我对整个 MVC 看待事物的方式还比较陌生我有一个基于实用程序应用程序模板的应用程序 MainView 和 FlipsideView 中的所有内容都运行良好但现在我需要将 TableView 和导航控制器添加到 Flipside 主
igraph错误无法创建具有负数顶点的空图

当我尝试创建下面的简单图表时为什么会出现错误如果我用数字替换 a 和 b 那么它可以工作吗任何解决方案 g1 lt graph c a b directed TRUE error is Error in graph c a b dir
在 hibernate 聚合函数中使用函数作为参数

我想在 HQL 中执行以下查询 select count distinct year foo date from Foo foo 但是这会导致以下异常 org hibernate hql ast QuerySyntaxException
如何在 Dynamics 365 On-Premise 中使用 EasyRepro 自动登录

我正在尝试使用 Dynamics 365 On Premise 中的 EasyRepro 进行自动化 UI 测试我成功完成了测试但遇到了一个问题我无法自动登录到我的 Dynamics 365 Organization 下面是我使用的代
如何在VBA中进行后期绑定？

我有一个通过 VBA 创建电子邮件的函数我通过 Excel 2016 做到了这一点当我的一些同事尝试使用它时出现了缺少引用的错误 Outlook Library 16 0 我在互联网上寻找解决方案发现最好的是后期绑定我已经阅读过它
JButton 边距。当雨云普拉夫时不受尊重

该物业margin of a JButton安装 Nimbus 外观后不会受到尊重我需要一些小按钮但 nimbus 强制按钮文本周围的空间变大所以我只得到非常大的按钮我发现在Nimbus 默认页面 http docs ora
将 float 转换为 UInt32 - 哪个表达式更精确

我有一个号码float x它应该在范围内但它经过多次数值运算结果可能稍微超出范围我需要将这个结果转换为uint y使用整个范围的UInt32 当然我需要夹住x在范围内并对其进行缩放但哪种操作顺序更好呢 y uint roun
如何在netbeans中对ejs文件进行语法高亮显示

我很长时间以来一直在 netbeans IDE 中工作最近开始在 NodeJs 中编码但 ejs 文件没有高亮代码如何摆脱这个问题您需要使用某些关联文件类型配置 ejs 文件扩展名脚步转到工具 gt 选项单击其他选项卡然
如何在重新安装应用程序时删除数据

感谢之前的回复重新安装应用程序后是否可以从 sqlite 中删除存储的内容我将数据存储在数据库中一旦我再次重新安装相同的应用程序以前的数据仍然存储在 sqlite 中我想在重新安装应用程序时删除存储的内容我对此不太确定这看起来
使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式

我有变量trainData其具有以下简化格式 Paragraph A entities 15 26 DiseaseClass 443 449 DiseaseClass 483 496 DiseaseClass Paragraph B ent

使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式

使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式 的相关文章

随机推荐

热门标签

使用spaCy 3.0将数据从旧的Spacy v2格式转换为全新的Spacy v3格式的相关文章