如何在spaCy中强制使用某个标签?

2023-12-23

我正在使用 spaCy'3.0.0rc2'与定制模型。不幸的是,我的训练数据的连字符 (-) 较少,因此连字符经常被标记为NOUN.

有什么方法可以强制某些tag or pos,以确保all the -令牌被标记为PUNCT?

基本上我正在寻找一个像在这个问题的答案中提出的解决方案:如何在标记器之前/之后强制在 spacy 中使用 pos 标记? https://stackoverflow.com/questions/51766157/how-to-force-a-pos-tag-in-spacy-before-after-tagger/51776803

不幸的是这似乎不起作用anymore(至少对于 spaCy 3)并引发错误:

ValueError: [E1005] Unable to set attribute 'POS' in tokenizer exception for '{G}'. Tokenizer exceptions are only allowed to specify ORTH and NORM.

(尝试分配时相同TAG属性)

我知道可以创建一个自定义组件Matcher它只查找连字符并分配正确的标签。然而,考虑到我目前只想处理一个令牌,这似乎有点矫枉过正。

有没有办法在 spaCy 3 中强制使用标签,使用自定义组件在处理过程中无需重新标记?

理想情况下我想修改TAG属性并让POSspaCy 基于此自动分配属性TAG属性。 正如在空间注释 https://spacy.io/api/annotation#pos-en TAG=HYPH应该映射到POS=PUNCT.


在spaCy v3中,这样的异常可以在attribute_ruler成分:

ruler = nlp.add_pipe("attribute_ruler")
patterns = [[{"ORTH": "-"}]]
attrs = {"TAG": "HYPH", "POS": "PUNCT"}
ruler.add(patterns=patterns, attrs=attrs)

请注意,属性标尺根据初始值运行一次模式匹配。Doc状态,因此您不能使用一个规则的输出属性作为另一规则的输入模式。这出现在像这样的管道中en_core_web_sm,其中包含的属性标尺执行 tag->pos 映射。因此,如果您有另一个应该与 pos 模式匹配的规则,则必须添加第二个属性标尺组件来处理这些情况。

See: https://nightly.spacy.io/api/attributeruler https://nightly.spacy.io/api/attributeruler

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在spaCy中强制使用某个标签? 的相关文章

  • Django:模拟模型上的字段

    如何将模拟对象分配给该模型上的用户字段 无论如何都要绕过 SomeModel user 必须是 User 实例 检查吗 class SomeModel models Model user models ForeignKey User 我不会
  • Python在postgresql表中查找带有单引号符号的字符串

    我需要从 psql 表中查找包含多个单引号的字符串 我当前的解决方案是将单引号替换为双单引号 如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
  • 希伯来语中的稀疏句子标记化错误

    尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
  • TF map_fn 或 while_loop 用于不同形状的张量列表

    我想处理不同形状的张量序列 列表 并输出另一个张量列表 考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是 输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
  • 查找模块中显式定义的函数 (python)

    好的 我知道您可以使用 dir 方法列出模块中的所有内容 但是有什么方法可以仅查看该模块中定义的函数吗 例如 假设我的模块如下所示 from datetime import date datetime def test return Thi
  • 在 macOS 中通过 Python 访问进程的压缩 RAM(顶部的 CMPRS)的方法?

    我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量 我发现 psutil Process PID memory info rss 工作得很好 直到操作系统决定开始压缩某些进程的 RAM 然后 所有的 memory in
  • 更改 Altair 中的构面标题位置?

    如何将方面标题 在本例中为年份 移动到每个图的上方 默认值似乎位于图表的一侧 这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
  • 登录网站并使用 python 请求下载文件

    我有一个带有 HTML 表单的网站 登录后 它会将我带到 start php 站点 然后将我重定向到overview php 我想从该服务器下载文件 当我单击 ZIP 文件的下载链接时 链接后面的地址是 getimage php path
  • Pandas 滚动窗口 Spearman 相关性

    我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和 或 Pearson 相关性 我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸 但我似乎无法定义该方法 添加meth
  • Python 惰性迭代器

    我试图了解迭代器表达式如何以及何时被求值 以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而 这个在构造上失败了 g line strip for line in open xxx r if
  • Pandas style.bar 颜色基于条件?

    如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
  • Python 声音(“铃声”)

    我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我 目前 我使用import os然后使用命令行语音程序说 进程完成 我更愿意它是一个简单的 铃 我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
  • 如何将回溯/sys.exc_info() 值保存在变量中?

    我想将错误名称和回溯详细信息保存到变量中 这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
  • 如何使用 Keras ImageDataGenerator 预测单个图像?

    我已经训练 CNN 对图像进行 3 类分类 在训练模型时 我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它 现在我的网络在测试集上训练得非常准确 但我不知道如何在单图像预测上应用预处理功能 如
  • 为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

    我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件 邮件标题中有一个DKIM Signa
  • 如何在单元测试中使用 JSON 发送请求

    我的 Flask 应用程序中有在请求中使用 JSON 的代码 我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好 但是我正在尝试使用 Python 的 unittest 模块创建单元测试 但
  • 在 Django shell 会话期间获取 SQL 查询计数

    有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息 例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显 您可
  • 如何获取所有mysql元组结果并转换为json

    我能够从表中获取单个数据 但是当我试图获取表上的所有数据时 我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
  • 长/宽数据到宽/长

    我有一个数据框 如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
  • 缓存 Flask-登录 user_loader

    我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

  • 在 Flutter 中只让一个 widget 浮动在键盘上方

    我想在键盘上方可见时显示 关闭键盘 按钮 我知道 resizeToAvoidBottomInset 会影响键盘与应用程序其余部分的交互方式 但它并不能完全满足我的要求 我有一个背景图像和其他小部件 在下面的示例中未显示 当显示键盘时 它们不
  • Chrome 开发者工具用户代理覆盖在模拟其他浏览器方面的效果如何?

    Chrome 开发人员工具具有将用户代理更改为欺骗服务器的功能 使开发人员能够测试其他设备和浏览器的应用程序 而无需在桌面终端上舒适地使用 Chrome 浏览器 我认为 Chrome 会模拟这些其他浏览器 而不是虚拟地模拟它们 Chrome
  • 如何重用 HierarchicalDataTemplate?

    我有两个相同的 HierarchicalDataTemplates 唯一的区别是模板的数据类型
  • 在delphi中更改字段值的DBGRID行颜色

    如何更改delphi中字段上具有相同值的dbgrid行的颜色 例如具有相同老师的所有行 注意 这些行被分组 并且在 dbgrid 中彼此相邻 提前致谢 您可以使用 DBGrids onDrawColumnCell 事件轻松实现此操作 pro
  • MSVC 是否有像 gcc 的 -M 那样的依赖生成标志

    MSVC 是否有像 gcc 那样的依赖生成标志 M flag 我用过的每个 C 编译器都有这种标志 如何创建依赖项 自动使用 MSVC cl 编译器 我只对最新的编译器版本感兴趣 即 MSVC9 或更高版本 但如果它与 MSVC8 一起工作
  • 在 HTML 页面中包含数据的最佳方式是什么?

    在 HTML 页面中包含数据的最佳方式是什么 该数据不是人类可读的 并且在页面加载后将由脚本处理 我能想到的选项是 在隐藏 空上使用类和标题属性 div or span 页面内的元素 JSON 中的 span div
  • std::regex -- 是否有一些需要链接的库?

    我收到以下代码的链接器错误 include
  • 如何在 Ruby 中输出尾随零? [复制]

    这个问题在这里已经有答案了 请考虑以下代码 class Book def initialize price price price end def book price puts Price price end end book1 Book
  • 点击隐藏选项卡时谷歌地图部分加载

    我使用 2 个选项卡 第一个用于显示列表 另一个用于显示地图 第一次加载页面时 默认显示 1 个选项卡 单击第二个选项卡时显示地图 但是当我单击列表选项卡并再次单击地图选项卡时 地图部分加载 这是我的 JAVASCRIPT 代码 docum
  • Visual Studio 参考和平台之间的冲突

    自从我将 C ASP Net 项目的目标框架升级到 4 6 1 后 我在构建过程中收到了很多冲突警告 50 多条消息 例如 考虑将程序集 System Runtime InteropServices RuntimeInformation C
  • 将 WHERE IN 子句添加到 JPA 规范

    我正在尝试实现受 IN 子句限制的搜索功能 我想实现具有过滤器限制的搜索实现 GetMapping find public Page
  • pandas dataframe滚动窗口与groupby

    我可以添加一个新列c这是最后两个值的总和b如下所示 df c df b rolling window 2 sum shift df a b c 0 1 3 NaN 1 1 0 NaN 2 0 6 3 0 3 1 0 6 0 4 0 0 6
  • 计算每个类别列的出现次数

    我正在尝试计算每个 SNP 名称的 iets 列中 Opp 的出现次数 最终我想将 Opp 的出现次数除以 df MM library data table df lt structure list SNP structure c 1L 1
  • 在 R markdown 中混合文本和引用

    是否可以在 R markdown 文档中混合常规文本和引用 使它们看起来如下 作者 2018 方法 目前 我已经尝试过 Author2018 Methods 这使 Author 2018 Methods 和 Author2018 Metho
  • ZF + 原则 2:重型模型类还是轻量级模型 + 服务层?

    我正在整合Zend框架 and 学说2 我正在发现服务层 现在我明白 我错了吗 我有两种可能的架构 A model 其中类包含域逻辑 即属性 getter setter 复杂方法 A 轻量化模型 其中类包含属性 getters setter
  • 如何将 Lua 与 .Net 集成

    要求是用户应该能够在文本框中添加 Lua 脚本 然后我需要检查用户是否添加了正确的 Lua 脚本 如果脚本正确 那么我需要运行该脚本 有人可以建议我一些代码吗 我尝试了以下操作 using Lua state new Lua state D
  • viewWillAppear 期间静态 UITableViewCell 更改未反映在显示中

    我正在使用一些静态UITableViewCell在情节提要中配置为显示一些设置信息 如果关闭其他设置之一 则应禁用其他一些单元格 为了使细胞进入适当的状态 在viewWillAppear我从 NSUserDefaults 读取设置 然后相应
  • 需要写入 Program File 文件夹的自更新 .NET 客户端应用程序

    如同 如果路径受保护 请请求 Windows Vista UAC 提升 https stackoverflow com questions 17533 request vista uac elevation if path is prote
  • 将列数据映射到值 (Oracle)

    我有一个 Oracle 数据库 并且有一个名为Car 我可以选择Mileage像这样的汽车 SELECT MILEAGE FROM CAR 这给了我 100 500 1000 etc 但是 我希望 1000 以上的值标记为High其余的为L
  • 如何在spaCy中强制使用某个标签?

    我正在使用 spaCy 3 0 0rc2 与定制模型 不幸的是 我的训练数据的连字符 较少 因此连字符经常被标记为NOUN 有什么方法可以强制某些tag or pos 以确保all the 令牌被标记为PUNCT 基本上我正在寻找一个像在这