无法运行 spacy spancat (spancategorizer) 模型？

2024-02-18

我正在尝试训练 spancat 模型，但运气不佳。我正进入（状态：

ValueError: [E143] Labels for component 'spancat' not initialized. This can be fixed by calling add_label, or by providing a representative batch of examples to the component's 'initialize' method.

我确实将 NER ent 转换为跨度：

def main(loc: Path, lang: str, span_key: str):
    """
    Set the NER data into the doc.spans, under a given key.
    The SpanCategorizer component uses the doc.spans, so that it can work with
    overlapping or nested annotations, which can't be represented on the
    per-token level.
    """
    nlp = spacy.blank(lang)
    docbin = DocBin().from_disk(loc)
    docs = list(docbin.get_docs(nlp.vocab))
    for doc in docs:
        doc.spans[span_key] = list(doc.ents)
    DocBin(docs=docs).to_disk(loc)

这是我的配置文件：

[paths]
train = null
dev = null
vectors = null
init_tok2vec = null

[system]
gpu_allocator = null
seed = 444

[nlp]
lang = "en"
pipeline = ["tok2vec","spancat"]
batch_size = 1000
disabled = []
before_creation = null
after_creation = null
after_pipeline_creation = null
tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}

[components]

[components.spancat]
factory = "spancat"
max_positive = null
scorer = {"@scorers":"spacy.spancat_scorer.v1"}
spans_key = "sc"
threshold = 0.5

[components.spancat.model]
@architectures = "spacy.SpanCategorizer.v1"

[components.spancat.model.reducer]
@layers = "spacy.mean_max_reducer.v1"
hidden_size = 128

[components.spancat.model.scorer]
@layers = "spacy.LinearLogistic.v1"
nO = null
nI = null

[components.spancat.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
upstream = "*"

[components.spancat.suggester]
@misc = "spacy.ngram_suggester.v1"
sizes = [1,2,3]

[components.tok2vec]
factory = "tok2vec"

[components.tok2vec.model]
@architectures = "spacy.Tok2Vec.v2"

[components.tok2vec.model.embed]
@architectures = "spacy.MultiHashEmbed.v2"
width = ${components.tok2vec.model.encode.width}
attrs = ["NORM","PREFIX","SUFFIX","SHAPE"]
rows = [5000,1000,2500,2500]
include_static_vectors = true

[components.tok2vec.model.encode]
@architectures = "spacy.MaxoutWindowEncoder.v2"
width = 256
depth = 8
window_size = 1
maxout_pieces = 3

[corpora]

[corpora.dev]
@readers = "spacy.Corpus.v1"
path = ${paths.dev}
max_length = 0
gold_preproc = false
limit = 0
augmenter = null

[corpora.train]
@readers = "spacy.Corpus.v1"
path = ${paths.train}
max_length = 0
gold_preproc = false
limit = 0
augmenter = null

[training]
dev_corpus = "corpora.dev"
train_corpus = "corpora.train"
max_epochs = 70
seed = ${system.seed}
gpu_allocator = ${system.gpu_allocator}
dropout = 0.1
accumulate_gradient = 1
patience = 1600
max_steps = 20000
eval_frequency = 200
frozen_components = []
annotating_components = []
before_to_disk = null

[training.batcher]
@batchers = "spacy.batch_by_words.v1"
discard_oversize = false
tolerance = 0.2
get_length = null

[training.batcher.size]
@schedules = "compounding.v1"
start = 100
stop = 1000
compound = 1.001
t = 0.0

[training.logger]
@loggers = "spacy.ConsoleLogger.v1"
progress_bar = false

[training.optimizer]
@optimizers = "Adam.v1"
beta1 = 0.9
beta2 = 0.999
L2_is_weight_decay = true
L2 = 0.01
grad_clip = 1.0
use_averages = false
eps = 0.00000001
learn_rate = 0.001

[training.score_weights]
spans_sc_f = 1.0
spans_sc_p = 0.0
spans_sc_r = 0.0

[pretraining]

[initialize]
vectors = ${paths.vectors}
init_tok2vec = ${paths.init_tok2vec}
vocab_data = null
lookups = null
before_init = null
after_init = null

[initialize.components]

[initialize.tokenizer]

我正在使用“sc”键。请指教如何解决。

我已经使用以下函数解决了这个问题，但是应该根据其任务的项目/文本来解决跨度 Span(doc, start, end, label) 的问题。它对我有用，因为所有文本（在我的例子中是几个单词）都标有标签，这是我的需要。

def convert_to_docbin(input, output_path="./train.spacy", lang='en'):
    """ Convert a pair of text annotations into DocBin then save """
    # Load a new spacy model:
    nlp = spacy.blank(lang)
    # Create a DocBin object:
    db = DocBin()
    for text, annotations in input: # Data in previous format
        doc = nlp(text)
        ents = []
        spans = []
        for start, end, label in annotations: # Add character indexes
            spans.append(Span(doc, 0, len(doc), label=label))
            span = doc.char_span(start, end, label=label)
            ents.append(span)
        doc.ents = ents # Label the text with the ents
        group = SpanGroup(doc, name="sc", spans=spans)
        doc.spans["sc"] = group
        db.add(doc)
    db.to_disk(output_path)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

spacy

namedentityrecognition

spacy3

无法运行 spacy spancat (spancategorizer) 模型？的相关文章

对 Pandas DataFrame 进行类型检查

我想对 Pandas DataFrames 进行类型检查即我想指定 DataFrame 必须具有哪些列标签以及哪种数据类型 dtype 存储在其中一个粗略的实现受此启发question https stackoverflow com
ssl.SSLEOFError: EOF 发生违反协议 (_ssl.c:1129)

我正在尝试使用 GOOGLE Drive Api 从电脑上传多个文件到云端硬盘 from pydrive auth import GoogleAuth from pydrive drive import GoogleDrive import
接收字母并返回字母表中（从 0 开始）数字位置的 Python 函数

我正在尝试创建一个 Python 函数它接收一个字母只有一个字母字符的字符串并返回该字母在字母表中从 0 开始的数字位置它不应该区分大小写而且我不能使用导入所以输入 a 应该返回 0 输入 A 也应该返回 0 输入 O 应该返回
如何使用 matplotlib 在误差条图的尖端显示水平线？

我可以使用下面的代码生成误差条图代码生成的图表显示了代表错误的垂直线y 我希望在这些错误的尖端有水平线误差线但我不知道该怎么做 import numpy as np import matplotlib pyplot as plt x
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何使用 PyCharm 运行 Pylint

我想将 Pylint 配置为我正在处理的 Python 项目的整个项目目录中的外部工具我尝试将存储库用作模块 init py没有的话这两种方式都不起作用我在设置 Pylint 与 PyCharm 一起运行时遇到困难我知道我应该将它作
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
更新到 Django 1.8 - AttributeError: django.test.TestCase 没有属性 'cls_atomics'

我将 Django 1 7 项目更新为 Django 1 8 现在运行测试时出现错误它们是 Django 的子类 django test TestCase Traceback most recent call last File env
导入 pandas 显示 ImportError: 无法导入名称哈希表

我已经在 python 3 3 上安装了 pandas 代码如下 import csv import pandas from pandas import DataFrame csvdata pandas read csv datafile
有没有办法在 Python 3 中子类化生成器？

除了显而易见的事情之外我想我应该尝试一下以防万一 def somegen input None yield gentype type somegen class subgen gentype def best function ever
gitlab-ci 的缓存虚拟环境

我使用 Gitlab CI 脚本缓存了 Pip 包所以这不是问题现在我还想赶上Conda虚拟环境因为它减少了设置环境的时间我缓存了一个虚拟环境不幸的是最后需要很长时间才能缓存所有 venv 文件我尝试仅缓存 CI PROJEC

随机推荐

暂停 jQuery 中的默认事件

我试图延迟 jQuery 脚本中的一个或多个默认事件上下文是我想在用户执行某些操作主要单击时在默认操作触发之前几秒钟向用户显示一条消息伪代码用户点击链接按钮元素用户收到一条弹出消息指出您正在离开网站消息在屏幕上保留
ASP.NET MVC 路由 - 尝试在 URL 中包含名称

我目前有以下路线 routes IgnoreRoute resource axd pathInfo routes IgnoreRoute resource gif pathInfo MvcRoute MappUrl controller a
Angular 8 - 如何从回调路由中的url获取数据

如何获取access tokenkeycloak服务器到我的授权组件授权 URL 如下所示回调网址位于http localhost 4200 auth http localhost 4200 auth 这是组件 import Compo
Android Google 登录按钮和 Facebook sdk 4+ 按钮布局

我正在开发一个使用的应用程序google https developers google com branding guidelines sign in button and facebook https developers facebo
SignalR 和浏览器连接限制

我用 SignalR 制作了一个简单的应用程序进行测试当页面加载时它会调用服务器上的函数该函数然后调用在屏幕上打印消息的客户端函数我这样做是为了检查客户端和服务器功能是否正常工作以及 SignalR 通信是否正常我的问题是如果我
Colab 突然无法浏览目录

过去几个月我一直在使用 Google Colab 在连接驱动器和输入 shell 命令时没有出现任何问题然而今天突然出现了一个错误我找不到任何解决办法 Colab 似乎神奇地无法浏览目录对于 cd pwd mkdir 等目录的任何 b
WooCommerce - 登录后重定向到上一页

我一直在寻找可以处理它几个小时的插件和片段但没有成功每个答案都不适合我我的菜单中有登录链接可通往 WooCommerce 我的帐户页面其中显示登录表单我希望客户在成功登录后返回到单击登录链接的页面 wp get ref
Highcharts - 如何更新角度系列？

我在柱形图中更新系列数据时遇到问题一开始当我的模型为空时我设置一个空数组作为系列然后在ngOnchanges方法我映射我的modelData到匹配的格式不幸的是图表仍然是空的这是我的组件代码 export class Colu
PHP 验证 PayPal 捐赠

我如何验证贝宝捐款在用户面板中我有一个捐赠按钮一旦有人真正捐款我就想为他做点什么但我不知道如何检查用户是否实际捐赠或只是单击了捐赠按钮看看 Paypal 的IPN https www paypal com ipn 即时付款通知当
长时间运行 Jupyter 笔记本/实验室？

我在 ec2 实例上的 tmux 会话中运行 Jupyter 我有运行时间非常长的单元格但是当我关闭浏览器或笔记本电脑盖子时笔记本电脑不再写入输出单元格并且可能会使 python 内核崩溃这是我在远程实例上启动实验室的方式 jupy
如何在 Prometheus 中推送 Kubernetes 指标而不是拉取？

我已经在我们的基础设施中配置了 Prometheus 进行监控在我们的基础设施中我们有一个正在运行的 EKS 集群我必须在 Prometheus 中收集 EKS 指标默认情况下 Prometheus 采用基于拉动的机制这里我有一个
NUnit 最佳实践

环境 Visual Studio Professional 2008 中的 C WinForms 应用程序我一直在挖掘有关 NUnit 最佳实践的指导作为一个在相对孤立的环境中工作的独立程序员我希望这里的集体智慧可以帮助我斯科特怀
如何为 SonarQube.Scanner.MSBuild.exe 提供参数？

通过在线搜索和查看 sonarqube 文档我唯一能找到的是 SonarQube Scanner MSBuild exe k KeyOfProject n NameOfProject msbuild exe C projectpath s
如何在特定接口上打开套接字并接收 IPv4 和 IPv6 流量

使用 IPv4 我可以将绑定到特定地址来选择将用于接收数据包的接口在某些情况下也用于发送数据包但这不是重点在双栈 IPv6 IPV4 机器上我遇到这个问题我可以创建一个 6 套接字并使用它接收 4 个流量但如果我想绑定到特定
如何强制 powershell 重新加载自定义模块？

我创建了一个模块 ActiveDirectory psm1 其中包含 powershellv5 中的一个类我将该模块导入另一个名为 test ps1 的文件中然后从该类中调用一个方法 test ps1 包含以下内容 using modu
如何*取消*突出显示选定的文本？

以前的一个question https stackoverflow com questions 58175015 vba powerpoint how to highlight selected text描述了如何使用 Font Highl
除了第一个 cudaMalloc 调用之外，还有什么特定的函数可以初始化 GPU？

由于 GPU 上的一些初始化工作第一个 cudaMalloc 调用很慢例如 0 2 秒是否有任何函数只进行初始化以便我可以分离时间 cudaSetDevice 似乎将时间减少到 0 15 秒但仍然没有消除所有初始化开销致电 cu
git 选择性恢复文件中的本地更改

在我跟踪 svn 存储库的 git 存储库中我对单个文件进行了多次编辑现在我想恢复这些更改如 svn revert 但只是文件的一部分我希望能够查看文件上的差异丢弃恢复我不想要的更改并保留我想要的更改 the git add
使用 llvm-prof 收集 LLVM 边缘分析

我正在使用这些命令来编译下面的代码以收集 trunk llvm 中的边缘块分析 clang emit llvm c sort c o sort bc opt insert edge profiling sort bc o sort pro
无法运行 spacy spancat (spancategorizer) 模型？

我正在尝试训练 spancat 模型但运气不佳我正进入状态 ValueError E143 Labels for component spancat not initialized This can be fixed by calli

无法运行 spacy spancat (spancategorizer) 模型？

无法运行 spacy spancat (spancategorizer) 模型？ 的相关文章

随机推荐

热门标签

无法运行 spacy spancat (spancategorizer) 模型？的相关文章