在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python

2024-02-17

我正在尝试使用下面的代码重新训练 spacy 中现有的 POS Tagger，以显示某些错误分类单词的正确标签。但它给了我这个错误：

警告：未命名向量——这不允许多个向量模型待加载。（形状：(0, 0)）

from spacy.vocab import Vocab
from spacy.tokens import Doc
from spacy.gold import GoldParse


nlp = spacy.load('en_core_web_sm')
optimizer = nlp.begin_training()
vocab = Vocab(tag_map={})
doc = Doc(vocab, words=[word for word in ['ThermostatFailedOpen','ThermostatFailedClose','BlahDeBlah']])
gold = GoldParse(doc, tags=['NNP']*3)
nlp.update([doc], [gold], drop=0, sgd=optimizer)

另外，当我尝试再次检查标签是否已使用下面的代码正确分类时

doc = nlp('If ThermostatFailedOpen moves from false to true, we are going to party')
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
          token.shape_, token.is_alpha, token.is_stop)

恒温器失败打开恒温器失败打开 VERB VB nsubj XxxxxXxxxxXxxx 真假

这些单词没有正确分类（正如我猜测的那样）！关于如何解决这个问题有什么见解吗？

#!/usr/bin/env python
# coding: utf8


import random
from pathlib import Path
import spacy


# You need to define a mapping from your data's part-of-speech tag names to the
# Universal Part-of-Speech tag set, as spaCy includes an enum of these tags.
# See here for the Universal Tag Set:
# http://universaldependencies.github.io/docs/u/pos/index.html
# You may also specify morphological features for your tags, from the universal
# scheme.
TAG_MAP = {
    'N': {'pos': 'NOUN'},
    'V': {'pos': 'VERB'},
    'J': {'pos': 'ADJ'}
}

# Usually you'll read this in, of course. Data formats vary. Ensure your
# strings are unicode and that the number of tags assigned matches spaCy's
# tokenization. If not, you can always add a 'words' key to the annotations
# that specifies the gold-standard tokenization, e.g.:
# ("Eatblueham", {'words': ['Eat', 'blue', 'ham'] 'tags': ['V', 'J', 'N']})

TRAIN_DATA = [
    ("ThermostatFailedOpen", {'tags': ['V']}),
    ("EThermostatFailedClose", {'tags': ['V']})
]


def main(lang='en', output_dir=None, n_iter=25):
    """Create a new model, set up the pipeline and train the tagger. In order to
    train the tagger with a custom tag map, we're creating a new Language
    instance with a custom vocab.
    """
    nlp = spacy.blank(lang)
    # add the tagger to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
    tagger = nlp.create_pipe('tagger')
    # Add the tags. This needs to be done before you start training.
    for tag, values in TAG_MAP.items():
        tagger.add_label(tag, values)
    nlp.add_pipe(tagger)
    nlp.vocab.vectors.name = 'spacy_pretrained_vectors'
    optimizer = nlp.begin_training()
    for i in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        for text, annotations in TRAIN_DATA:
            nlp.update([text], [annotations], sgd=optimizer, losses=losses)
        print(losses)

    # test the trained model
    test_text = "If ThermostatFailedOpen moves from false to true, we are going to party"
    doc = nlp(test_text)
    print('Tags', [(t.text, t.tag_, t.pos_) for t in doc])

    # save model to output directory
    if output_dir is not None:
        output_dir = Path(output_dir)
        if not output_dir.exists():
            output_dir.mkdir()
        nlp.to_disk(output_dir)
        print("Saved model to", output_dir)

        # test the save model
        print("Loading from", output_dir)
        nlp2 = spacy.load(output_dir)
        doc = nlp2(test_text)
        print('Tags', [(t.text, t.tag_, t.pos_) for t in doc])


if __name__ == '__main__':
    main('en','customPOS')

注意：如果您尝试附加，您将收到以下错误

 File "pipeline.pyx", line 550, in spacy.pipeline.Tagger.add_label
ValueError: [T003] Resizing pre-trained Tagger models is not currently supported.

最初我尝试过这个

nlp = spacy.load('en_core_web_sm')

    tagger = nlp.get_pipe('tagger')
    # Add the tags. This needs to be done before you start training.
    for tag, values in TAG_MAP.items():
        tagger.add_label(tag, values)

    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'tagger']
    with nlp.disable_pipes(*other_pipes):  # only train TAGGER
        nlp.vocab.vectors.name = 'spacy_pretrained_vectors'
        optimizer = nlp.begin_training()
        for i in range(n_iter):
            random.shuffle(TRAIN_DATA)
            losses = {}
            for text, annotations in TRAIN_DATA:
                nlp.update([text], [annotations], sgd=optimizer, losses=losses)
            print(losses)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python 的相关文章

从框架中获取可调用对象

给定框架对象由sys getframe http docs python org library sys html sys getframe 例如我可以获得底层的可调用对象吗代码解释 def foo frame sys getfram
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
Python：由于 OSError 无法安装软件包：[Errno 2] 没有这样的文件或目录

我尝试使用pip安装sklearn 并且我收到以下错误消息错误由于 OSError 无法安装软件包 Errno 2 没有这样的文件或目录 C Users 13434 AppData Local Packages PythonSoftwa
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
清理 MongoDB 的输入

我正在为 MongoDB 数据库程序编写 REST 接口并尝试实现搜索功能我想公开整个 MongoDB 接口我确实有两个问题但它们是相关的所以我将它们放在一篇文章中使用 Python json 模块解码不受信任的 JSON 是否
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
熊猫系列到二维数组

所以我使用了来自的答案将二维数组放入 Pandas 系列中 https stackoverflow com questions 38840319 put a 2d array into a pandas series将 2D numpy
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
python os.fork 使用相同的 python 解释器吗？

据我所知 Python 中的线程使用相同的 Python 解释器实例我的问题是与创建的流程相同os fork 或者每个进程创建的os fork有自己的翻译吗每当你 fork 时整个 Python 进程都会在内存中复制包括Python
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何使用 QAbstractTableModel（模型/视图）将数据设置到 QComboBox？

我希望能够设置itemData of a combobox当使用填充时QAbstractTableModel 但是我只能从模型返回一个字符串data method 通常当不使用模型时可以像这样执行 Set text and data
如何使用 Matplotlib 可视化标量二维数据？

所以我有一个网格网格矩阵 X 和 Y 以及标量数据矩阵 Z 我需要将其可视化最好是一些 2D 图像在各点处带有颜色显示 Z 值我做了一些研究但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用

随机推荐

如何针对特定来电提供定制振动

该程序的功能如下用户有一个电话号码列表只有当没有其他系统范围的应用程序提供振动例如在静音模式下时手机才会在来电时振动我知道这在某种程度上违反了规则因为应用程序应该尊重用户的设置但应用程序仅限于某些有此需求的用户我尝试了两种
返回此意外输出的 CUDA 代码发生了什么情况？

终于让动态并行性启动并运行后我现在正在尝试用它来实现我的模型我花了一段时间才发现一些奇怪的输出是由于需要使用 cudaDeviceSynchronize 让父内核等待子内核完成而导致的我定义为 arrAdd 的设备函数似乎有问题下面
如何更改删除+添加以在git历史记录中移动

我有一个 git 存储库它是一些旧的 svn 存储库的混合体当我混合所有内容时我没有意识到要执行 git mv 而不是仅仅移动文件所以现在大多数文件的 svn 历史记录都丢失了有办法解决这个问题吗旧的结构是这样的 svn1 ap
如何从 Linux 访问 Team Foundation Server (TFS)

如果这个问题不是特定于 VCS 的因此程序员比系统管理员更了解这种问题那么我会问有关服务器故障或超级用户的问题也就是说如何从 Linux 访问 TFS 是否有一个可以在 Linux 上运行的客户端应用程序或者一个可以在 Windo
SQL Server 的数据生成器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
过滤 Pandas 数据框聚合

我有一个 pandas 数据框我对其进行分组然后执行聚合计算以获得平均值 grouped df groupby year month company means grouped agg size mean 这给了我一个数据框但我似乎无
Angular/Typescript - 该表达式不可构造。类型“MoveDataClass”没有构造签名

我正在使用 3 种方法创建一个类来创建该类的新实例但是当我尝试这样做时会出现以下错误 Angular Typescript 该表达式不可构造类型 MoveDataClass 没有构造签名我做错了什么班上 export class
Emacs 重新排列分割窗格

如果我在终端 Emacs 中工作并且使用水平分割在屏幕上有 2 个缓冲区
属性表模式与将所有属性存储在 json 列中[重复]

这个问题在这里已经有答案了我想要一些关于模型可以在通过关系访问的属性表中拥有的所有属性使用 Laravel 关系与将所有属性设置存储在同一个表中但在 json 列中的反馈目前我的应用程序有一个名为设置的属性表它本质上也是多
Django“xxxxxx 对象”在管理操作侧边栏中显示自定义

我想更改管理员最近更改侧边栏显示添加的对象名称的默认行为参考下图我想更改它们在管理中的命名方式理想情况下我希望能够将其从 MyModelName 对象更改为策略对象示例中的策略策略的策略名称字段的值我在想 uni
htaccess url 重写，url 中包含多个变量

我想在我的 htaccess 文件上制定一些 url 重写规则以便此链接 http myseite com index php var1 value1 var2 value2会变成 http myseite com var1 value2
在 Webpack Visual Studio 2017 .NET Core 2.2 捆绑的 Chrome 中调试 Typescript

有几个问题但大多数答案似乎是如果你有 VS 2017 现在应该是默认的我的调试器无法正常工作因此我想提供我的具体案例以获得一些帮助我也是 Typescript 和 Webpack 的新手可以提供一些背景信息项目层次结构 www
如何使用 SASS 扩展/修改（自定义）Bootstrap

我想创建一个基于 Bootstrap 的网站主题我想扩展 Bootstrap 的默认组件并更改其中的一些组件为此我需要access到 Bootstrap 定义的 SASS 变量这样我就可以覆盖它们我想过从 GitHub 克隆 Bo
正则表达式查找具有起始词和结束词的最短字符串

我想找到一种方法来编写正则表达式来搜索以指定的开始子字符串开头并以另一个指定的结束字符串结尾但总长度最小的字符串的出现次数例如如果我的起始字符串是bar我的结束字符串是foo当搜索字符串时barbazbarbazfoobazfoo那么我
解析没有 .proto 文件的 Protocol-Buffers

作为安全项目的一部分我正在对 Android 应用程序进行逆向工程我的第一步是发现应用程序和服务器之间交换的协议我发现正在使用的协议是协议缓冲区鉴于 protobuf 的性质需要原始 proto 文件才能反序列化 protobuf
如何使用 Vue JS 设置嵌套数组的增量计数器

我使用 Vue JS 的数组深度为两层我需要一个从 0 开始的索引并为顶部数组中的每个项目递增这是我的 HTML div div
使用DDD，如何实现批处理？

我的逻辑包括从一个系统中选择大量记录执行多个转换基于业务规则并将它们插入到另一个系统中将这些记录中的每一个实例化为对象对它们执行转换然后将所有这些对象插入到另一个系统中这似乎对性能和内存产生了很大的影响在 DDD 中实现
通过 jQuery ajax 提交表单，包括文件上传

HTML
WP8 - 此软件包使用的应用程序名称尚未为此应用程序保留

我正在将 Windows Phone 8 应用程序提交到应用程序商店当我单击Review And Submit我收到错误 This package is using an app name that hasn t been reserve
在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python

我正在尝试使用下面的代码重新训练 spacy 中现有的 POS Tagger 以显示某些错误分类单词的正确标签但它给了我这个错误警告未命名向量这不允许多个向量模型待加载形状 0 0 from spacy vocab import

在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python

在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python 的相关文章

随机推荐

热门标签