使用我自己的训练示例训练 spaCy 现有的 POS 标记器

2024-04-26

我正在尝试在我自己的词典上训练现有的词性标注器，而不是从头开始（我不想创建一个“空模型”）。在spaCy的文档中，它说“加载您想要统计的模型”，下一步是“使用add_label方法将标签映射添加到标记器”。但是，当我尝试加载英文小模型并添加标签图时，它会抛出此错误：

ValueError：[T003] 目前不支持调整预训练标记器模型的大小。

我想知道如何修复它。

我也见过在 Spacy 中基于现有英语模型实现自定义 POS Tagger：NLP - Python https://stackoverflow.com/questions/51715439/implementing-custom-pos-tagger-in-spacy-over-existing-english-model-nlp-pyth但它表明我们创建了一个“空模型”，这不是我想要的。

另外，即使我们的训练示例标签与通用依赖标签相同，spaCy 的文档中也不清楚我们是否需要映射字典（TAG_MAP）。有什么想法吗？

from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
from spacy.util import minibatch, compounding

TAG_MAP = {"noun": {"pos": "NOUN"}, "verb": {"pos": "VERB"}, "adj": {"pos": "ADJ"}, "adv": {"pos": "ADV"}}

TRAIN_DATA = [
    ('Afrotropical', {'tags': ['adj']}), ('Afrocentricity', {'tags': ['noun']}),
    ('Afrocentric', {'tags': ['adj']}), ('Afrocentrism', {'tags': ['noun']}),
    ('Anglomania', {'tags': ['noun']}), ('Anglocentric', {'tags': ['adj']}),
    ('apraxic', {'tags': ['adj']}), ('aglycosuric', {'tags': ['adj']}),
    ('asecretory', {'tags': ['adj']}), ('aleukaemic', {'tags': ['adj']}),
    ('agrin', {'tags': ['adj']}), ('Eurotransplant', {'tags': ['noun']}),
    ('Euromarket', {'tags': ['noun']}), ('Eurocentrism', {'tags': ['noun']}),
    ('adendritic', {'tags': ['adj']}), ('asynaptic', {'tags': ['adj']}),
    ('Asynapsis', {'tags': ['noun']}), ('ametabolic', {'tags': ['adj']})
]
@plac.annotations(
    lang=("ISO Code of language to use", "option", "l", str),
    output_dir=("Optional output directory", "option", "o", Path),
    n_iter=("Number of training iterations", "option", "n", int),
)
def main(lang="en", output_dir=None, n_iter=25):
    nlp = spacy.load('en_core_web_sm', disable=['ner', 'parser'])
    tagger = nlp.get_pipe('tagger')
    for tag, values in TAG_MAP.items():
        tagger.add_label(tag, values)
    nlp.vocab.vectors.name = 'spacy_pretrained_vectors'
    optimizer = nlp.begin_training()
    for i in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        # batch up the examples using spaCy's minibatch
        batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001))
        for batch in batches:
            texts, annotations = zip(*batch)
            nlp.update(texts, annotations, sgd=optimizer, losses=losses)
        print("Losses", losses)

    # test the trained model
    test_text = "I like Afrotropical apraxic blue eggs and Afrocentricity. A Eurotransplant is cool too. The agnathostomatous Euromarket and asypnapsis is even cooler. What about Eurocentrism?"
    doc = nlp(test_text)
    print("Tags", [(t.text, t.tag_, t.pos_) for t in doc])

    # save model to output directory
    if output_dir is not None:
        output_dir = Path(output_dir)
        if not output_dir.exists():
            output_dir.mkdir()
        nlp.to_disk(output_dir)
        print("Saved model to", output_dir)

        # test the save model
        print("Loading from", output_dir)
        nlp2 = spacy.load(output_dir)
        doc = nlp2(test_text)
        print("Tags", [(t.text, t.tag_, t.pos_) for t in doc])


if __name__ == "__main__":
    plac.call(main)

英语模型的训练PTB tags https://catalog.ldc.upenn.edu/docs/LDC99T42/tagguid1.pdf，而不是 UD 标签。 spacy 的标签图让您对对应关系有一个很好的了解，但 PTB 标签集比 UD 标签集更细粒度：

https://github.com/explosion/spaCy/blob/master/spacy/lang/en/tag_map.py https://github.com/explosion/spaCy/blob/master/spacy/lang/en/tag_map.py

跳过与 tag_map 相关的代码（模型中已经存在 PTB -> UD 映射），将数据中的标签更改为 PTB 标签（NN、NNS、JJ 等），然后应该运行此脚本。（当然，您仍然需要检查它是否表现良好。）

一般来说，最好提供带有完整短语或句子的训练示例，因为这就是 spacy 在实际使用中标记的内容，例如测试句子。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用我自己的训练示例训练 spaCy 现有的 POS 标记器的相关文章

将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
使用 Keras、Tensorflow 进行多时间序列维度的 RNN 时间序列预测

我正在尝试在某些时间序列集上运行 RNN LSTM 网络值得一提的是时间序列正在分类我有大约 600 个不同的时间序列每个序列都有 930 个带有特征的时间步长我已将数据结构化为 numpy 3D 数组其结构如下 X 666 o
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
从 keras 模型中将特征提取到数据集中

我使用以下代码由here https github com keras team keras blob master examples mnist cnn py 运行 CNN 来训练 MNIST 图像 from future import
在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
在 SciKit-Learn 中使用 Pipeline 计算排列重要性

我正在使用来自的确切示例SciKit https scikit learn org stable auto examples inspection plot permutation importance html sphx glr auto
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何

随机推荐

Emacs-helm 中的选项卡（任何内容）不会自动完成当前的最佳匹配

While trying to autocomplete a file e g to open a file with C x C f Emacs helm shows a list of possible candidates If I
Spring 3.1 中的默认配置文件

在我的应用程序中我有豆子注释 Profile prod and Profile demo 正如您可以猜到的那样第一个用于连接到生产数据库的 bean 第二个注释使用一些假数据库的 bean HashMap或其他使开发更快我想要的是默
Object.watch() 适用于所有浏览器？

请注意Object Watch https developer mozilla org en US docs Web JavaScript Reference Global Objects Object watch and Object O
根据.Net中的字段反序列化json（C#）

我正在编写一个应用程序它可以获取Json像这样的对象列表 ObjectType apple ObjectSize 35 ObjectCost 4 ObjectTaste good ObjectColor golden ObjectType
如何在 razor 中指定数据属性，例如 @this.Html.CheckBoxFor(...) 上的 data-externalid="23151"

this Html CheckBoxFor m gt m MyModel MyBoolProperty new class myCheckBox extraAttr 23521 使用 razor 我无法指定数据属性的值例如data ext
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
XSD 中的 xmlns:mstns 是什么？

下面的xsd header中的xml mstns表示什么
使用代码收缩器 R8 使用 Android Studio 3.4 构建时出现内存不足问题

我正在使用最新稳定版本的 Android Studio 3 4 当我构建一个调试 apk 没有 proguard 时它工作正常但当获得发布版本时就会出现问题默认使用最新的R8收缩机它给了我一个内存不足的错误我尝试更改 gradle
python37.dll 未链接到可执行文件中

我用 python 扩展了 c 但可执行文件无法在未安装 python 的系统上运行 include C python h int main Py Initialize PyRun SimpleString print hello worl
将图像导入 Android Studio，显示为深灰色

我正在尝试将图像导入 Android Studio 然后将其用作我的应用程序的背景我右键单击 res 文件夹并导入资源接下来我选择操作栏和选项卡图标在这里我在我的电脑上找到图像文件然后将其导入到我的项目中当它导入时所有预览都是深
使用curl模拟github服务钩子

我有一个服务监听 github 服务挂钩以执行自动部署有时我需要手动触发无需 github 干预为此我正在模拟 github 发送的 POST 请求 post receive URLs 我的数据 my json 看起来像这样 gi
Android AsyncTask：跳过 X 帧 - 主线程内工作过多

我正在为一些网站制作一些RSS阅读器所以我想在4 0的较低版本的Androd上实现actionbar和viewpager 所以我使用Jake Wharton的ActionBarSherlock和ViewPagerIndicator 所以我
打包应用程序时，WinRT 和 UWP WebView 本地主机 url 不会触发

男孩我真的很挣扎这个因此我有一个 WinRT Metro 应用程序该应用程序的 Web 视图中嵌入了一个 HTML 网页在 HTML 页面中有一个 div 带有指向 localhost url 的 href 我使用此 local
跟踪 Maven 中的托管依赖项版本

假设我有一个复杂的项目有很多依赖项依赖项的版本由大量导入范围 pom 管理我的项目依赖于工件group artifact 它依赖于工件group transitive dependency 当我跑步时dependency tree我看
构造对象并调用成员函数

这是我的代码 include
如何在 jQuery 移动按钮中使用很棒的字体图标

我正在尝试使用带有 font Awesome 按钮的 jquery mobile 为此我遵循了此中描述的答案post https stackoverflow com questions 18809890 how where to inst
在android中加载swf文件时出现问题

当我在 Android 模拟器中加载交互式 SWF 文件时遇到问题我使用2 3 1 AVD 这是代码 package com androidpeople view import android app Activity import an
'+=' 的含义

我对 C 的语法感到困惑有什么用 The 语法可以以不同的方式使用 SomeEvent EventHandler 向事件添加处理程序 SomeVariable 3 相当于 SomeVariable SomeVariable 3
Process.Start("explorer.exe");不会带回任务栏

截至目前我正在通过 WinForms 开发一个模拟操作系统以用作电影的道具运行该应用程序时它会杀死 explorer exe 这样您就不会在拍摄过程中意外地显示 Windows 任务栏问题是关闭模拟操作系统后我希望 explo
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时

使用我自己的训练示例训练 spaCy 现有的 POS 标记器

使用我自己的训练示例训练 spaCy 现有的 POS 标记器 的相关文章

随机推荐

热门标签

使用我自己的训练示例训练 spaCy 现有的 POS 标记器的相关文章