如何从 CoNLL 格式转换为 spacy 格式

2024-03-17

我目前正在研究 NER 模型。我有一堆以 CoNLL 格式存储的数据,需要转换为 Spacy 格式。在 CoNLL 中,句子的每个单词旁边都有一个标签。在 Spacy 中,标签仅显示给具有实际标签的单词。我如何从下面的这种格式转换(CoNLL)

From    O
2001    B-DateTime
to  I-DateTime
2004    I-DateTime
,   O
I   O
was O
a   O
stagehand   O
for O
Hartford    B-Company
Stage   I-Company
Company O
.   O

改成下面的格式(Spacy)

TRAIN_DATA = [('what is the price of polo?', {'entities': [(21, 25, 'PrdName')]}), 
              ('what is the price of ball?', {'entities': [(21, 25, 'PrdName')]}), 
              ('what is the price of jegging?', {'entities': [(21, 28, 'PrdName')]}), 
              ('what is the price of t-shirt?', {'entities': [(21, 28, 'PrdName')]}), 
              ('what is the price of jeans?', {'entities': [(21, 26, 'PrdName')]}), 
              ('what is the price of bat?', {'entities': [(21, 24, 'PrdName')]}), 
              ('what is the price of shirt?', {'entities': [(21, 26, 'PrdName')]}), 
              ('what is the price of bag?', {'entities': [(21, 24, 'PrdName')]}), 
              ('what is the price of cup?', {'entities': [(21, 24, 'PrdName')]}), 
              ('what is the price of jug?', {'entities': [(21, 24, 'PrdName')]}), 
              ('what is the price of plate?', {'entities': [(21, 26, 'PrdName')]}), 
              ('what is the price of glass?', {'entities': [(21, 26, 'PrdName')]}),
              ('what is the price of watch?', {'entities': [(21, 26, 'PrdName')]})]

只需使用斯帕西转换 https://spacy.io/api/cli#convert.

spacy convert input.conll -c conll ./output/

请注意,默认情况下这会生成一个二进制文件.spacy文件。 JSON 格式在 v3 中已被弃用,并且没有多大帮助。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 CoNLL 格式转换为 spacy 格式 的相关文章

  • str.translate 与 str.replace - 何时使用哪一个?

    何时以及为什么使用前者而不是后者 反之亦然 目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者 它们有不同的目的 translate只能用任意字符串替换单个字符 但一次调用可以执行多次替换 它的参数是一个特殊的表 它将单个字符映射
  • scipy.optimize on pandas dataframe

    我试图搜索它 但结果很差 有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误 考虑这个例子 import pandas as
  • Flask 中“缺少 CSRF 令牌”,但它在模板中呈现

    问题 当我尝试登录 使用 Flask login 时 我得到Bad Request The CSRF session token is missing但令牌正在呈现 在模板中 secret key 已设置 并且我在本地运行localhost
  • Matplotlib 图例,跨列添加项目而不是向下添加项目

    对于下面的简单绘图 有没有办法让 matplotlib 填充图例 以便它从左到右填充行 而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
  • Python - Unicode 到 ASCII 的转换

    我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做 有人有建议吗 Unicode 字符u xce0 and u xc
  • ValueError:数据必须为正(boxcox scipy)

    我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
  • Py2exe - Pmw WindowsError:[错误 3]

    我正在尝试使用 Py2exe 构建独立的可执行文件 我已经导入了 Pmw 类 当我运行独立可执行文件时 出现以下错误 Traceback most recent call last File py line 9 in
  • 使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

    我想从 python 运行一个程序并找到它的内存使用情况 为此 我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
  • 在请求中设置端口

    我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆 我了解如何做基本的事情requests but cgminer想要更具体一点 我想缩小 import socket import json sock
  • 使用 if 语句的网格网格和用户定义函数的真值不明确

    假设我有一个函数f x y 足够光滑 然而 有些值仅在有限的意义上存在 以sin x x的价值x 0只存在于极限 x gt 0 中 在一般情况下 我用一个来处理这个问题if陈述 如果我在情节中使用它meshgrid我收到一条错误消息 Val
  • 使用 Flyway 和 Hibernate 的 hbm2ddl 在应用程序的生命周期中管理数据库模式

    我正在开发 Spring Hibernate MySql 应用程序 该应用程序尚未投入生产 我目前使用 Hibernatehbm2ddl该功能对于管理域上的更改非常方便 我也打算用Flyway用于数据库迁移 在未来的某个时候 该应用程序将首
  • Seaborn 中没有线性拟合的散点图

    我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图 当然 我也可以使用 matplotlib 但是 我发现 seaborn 中的语法和美学非常吸引人 例如 我想绘制以下情节 import sea
  • 如何按 pandas 中的值对系列进行分组?

    我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组 并且每组中有许多行具有不同的时间 看似显而易见的方法类似于 grouped s groupby lambda x x date 然而 熊猫的groupby按索
  • 如何在matplotlib中调整x轴

    I have a graph like this x轴上的数据表示小时 所以我希望x轴设置为0 24 48 72 而不是现在的值 很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
  • MySQL 概念:会话与连接

    我对 MySQL 的概念有点困惑 会话与连接 当谈论连接到 MySQL 时 我们使用连接术语 连接池等 然而在 MySQL 在线文档中 http dev mysql com doc refman 4 1 en server system v
  • 无需访问 Internet 即可部署 Django 的简单方法?

    我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库 它运行良好 我可以在任何具有互联网连接的计算机上使用相同的参数 使用 pip 轻松设置 virtualenv 但是 不幸
  • UnicodeDecodeError:部署到 Heroku 时,“utf-8”编解码器无法解码位置 0 中的字节 0xff

    我尝试在heroku上部署我的简单django项目 但我不明白如何解决这个问题 这是git push heroku master remote Traceback most recent call last remote File tmp
  • 使用 MPI 的 Allreduce 对 Python 对象求和

    我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作 我想让并行使用这个数组操作成为可能 最重要的是 我最终在每个节点上都有计数器 我想使用 MPI Allreduce 或另一个不错的解决方案 将其添加在一起 例如 使用计数
  • 为boost python编译的.so找不到模块

    我正在尝试将 C 代码包装到 python 中 只需一个类即可导出两个函数 我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
  • 如何使用 Python/Django 在 Facebook 中获取(和使用)扩展权限

    我正在尝试编写一个简单的应用程序 让用户授予我的代码写入其页面的 Facebook 流的权限 据我了解 它应该很简单 让用户单击一个按钮 启动一个弹出窗口 其中包含我的 Facebook 应用程序中的页面 在该页面中 他们单击授予的内容流发

随机推荐

  • 如何在 System.Windows.Forms.WebBrowser 中调用自定义 Javascript?

    我正在加载包含以下代码的第三方网页 进入 WebBrowser 组件 后some code1已经执行了 我需要对 Dom 进行一些操作 这将使some code1无效的 问题是如何确定some code1被处决了吗 我做不到 private
  • 使用 Bold for Delphi 框架进行编码时提高可测试性

    背景我在一个由 7 名开发人员和 2 名测试人员组成的团队中工作 负责物流系统 我们使用 Delphi 2007 和模型驱动开发德尔福大胆 http boldfordelphi blogspot com 作为框架 该系统现已投入生产约 7
  • 没有名为 tkinter 的模块吗? [复制]

    这个问题在这里已经有答案了 所以昨晚我尝试开始使用 tkinter 我筛选了几篇关于如何安装它的文章和 YouTube 视频 我 以为 是通过brew安装的 还有activeTCL的包下载 我只是想制作一个简单的程序 这就是全部 from
  • jquery 屏蔽输入只有第一个数字可选,其余为强制

    我使用 jquery 屏蔽输入插件 需要有一个具有以下格式的电话字段 1 222 000 1114 我的代码如下所示 myPhone mask 9 999 999 9999 现在我似乎无法让它工作以使第一个数字可选 但其余数字是强制性的 所
  • django-modelstranslation 后备原始字段值

    我有一个大型 Django 应用程序 互联网用户正在积极使用它 我正在尝试添加django model翻译 http django modeltranslation readthedocs org en latest index html到
  • 我可以在 python 中对具有多个条件的 if-else 语句使用嵌套 for 循环吗?

    我编写了一个程序来检查棋盘是否有效 在我的代码的一部分中 我测试了各个部分的数量是否正确 count 是字典 它是我要检查的板的库存 例如 b代表黑色 w代表白色 count bking 1 wking 1 bpawn 3 bbishop
  • 如何在Python中使用比较和“如果不是”?

    在我的一个程序中 我怀疑我是否正确使用了比较 我想在做某事之前确保 u0 if not u0 lt u and u lt u0 step u0 u0 step change the condition until it is satisfi
  • 如何在 Ionic 中实现媒体查询

    我想为我的离子应用程序添加完整的背景图像 并为每个设备添加不同的图像 这是我的 CSS 代码 iPhone 6 媒体查询 media max width 750px and max height 1334px pane view backg
  • 在Doctrine 2.2中体现MySQL多态关联

    我将 Doctrine 2 2 0 与 Codeigniter 一起使用 我是 Doctrine 或者一般的 ORM 的新手 我正在基于 YAML 文件设置实体和代理类 效果很好 我在 Doctrine 类中反映数据库中的多态关联时确实遇到
  • 如何在Java游戏中播放声音?

    我使用以下代码成功在 Java 1 5 小程序游戏中播放声音 get an available clip to play it Clip clip null for Clip clipTemp players if clipTemp isO
  • 如何将seaborn轴添加到带有子图的matplotlib图形中?

    我有一个返回seaborn 情节的函数 我想通过循环将多个seaborn图添加到一个图形中 我找到了答案here https stackoverflow com questions 6309472 matplotlib can i crea
  • 使用 .net 紧凑框架进行本地化

    我正在使用 NET Compact Framework 3 5 和 MS Visual Studio 2008 为移动设备 Windows CE 5 0 预装 NET Compact Framework 2 0 开发应用程序 我正在使用内置
  • 无法在 pandas 中使用 dropna 删除 NAN

    我将 pandas 导入为 pd 并运行下面的代码并得到以下结果 Code traindataset pd read csv Users train csv print traindataset dtypes print traindata
  • Javascript 中的多行警报

    这段代码 alert Hello again This is how we n add line breaks to an alert box 不起作用 Firefox JavaScript 控制台将错误命名为 未终止的字符串文字 并指向
  • 以编程方式设置 grunt 任务的选项?

    我有一个繁琐的任务 查看选项grunt option foo 如果我从以下位置调用此任务grunt task run my task 我怎样才能改变这些论点 我正在寻找类似的东西 grunt task run my task foo bar
  • 在条件执行之前从 NHibernate 条件获取 SQL 查询

    我有一个 NHibernate 标准 我需要从中获取 SQL 查询 我尝试了各种方法here https stackoverflow com questions 554481 how to get sql from hibernate cr
  • Polars 从日期时间对象中添加/减去 UTC 偏移量

    我想添加 减去UTC极坐标中日期时间对象的偏移量 通常以小时为单位 但我似乎没有找到实现此目的的方法 鉴于日历年中存在夏令时 UTC 偏移量可以是动态的 例如 EST EDT 映射到 5 4 小时UTC分别偏移 from datetime
  • 创建可以通过拖动背景区域中的任意位置来移动的非矩形表单

    我想通过左键单击并按住背景区域来移动表单窗口 就像我们通常使用标题栏一样 然后我还想将应用程序的表单窗口 即矩形窗口 更改为自定义设计的图形窗口 我在许多其他应用程序中看到过这种类型的窗口 所以我相信这是可能的 问题一 要允许在拖动其客户区
  • 如何使用 Cordova 处理文件?

    注意 此问题被重新发布 因为无论出于何种原因 原始发布者决定在提供并接受答案后将其删除 因此 我再次添加它以保存知识 原问题 我尝试在混合应用程序中使用 apache cordova api 从 localhost 8080 filenam
  • 如何从 CoNLL 格式转换为 spacy 格式

    我目前正在研究 NER 模型 我有一堆以 CoNLL 格式存储的数据 需要转换为 Spacy 格式 在 CoNLL 中 句子的每个单词旁边都有一个标签 在 Spacy 中 标签仅显示给具有实际标签的单词 我如何从下面的这种格式转换 CoNL