Spacy - 标记带引号的字符串

2024-03-13

我正在使用 spacy 2.0 并使用带引号的字符串作为输入。

示例字符串

"The quoted text 'AA XX' should be tokenized"

并期望提取

[The, quoted, text, 'AA XX', should, be, tokenized]

然而，我在实验时得到了一些奇怪的结果。名词 chunks 和 ents 失去了其中一个引语。

import spacy
nlp = spacy.load('en')
s = "The quoted text 'AA XX' should be tokenized"
doc = nlp(s)
print([t for t in doc])
print([t for t in doc.noun_chunks])
print([t for t in doc.ents])

Result

[The, quoted, text, ', AA, XX, ', should, be, tokenized]
[The quoted text 'AA XX]
[AA XX']

满足我的需求的最佳方式是什么

当你could修改标记生成器并添加您自己的自定义前缀、后缀和中缀规则（排除引号），我不确定这是这里的最佳解决方案。

对于您的用例，添加一个可能更有意义成分 https://spacy.io/usage/processing-pipelines#custom-components在调用标记器、解析器和实体识别器之前，将（某些）带引号的字符串合并到一个标记中的管道。要实现此目的，您可以使用基于规则的Matcher http://spacy.io/usage/linguistic-features#rule-based-matching并找到由包围的标记组合'。以下模式查找一个或多个字母数字字符：

pattern = [{'ORTH': "'"}, {'IS_ALPHA': True, 'OP': '+'}, {'ORTH': "'"}]

交互式匹配器演示中的模式。要进行合并，您可以设置Matcher，添加模式并编写一个函数，该函数接受Doc对象，提取匹配的跨度并通过调用它们将它们合并为一个标记.merge method.

import spacy
from spacy.matcher import Matcher

nlp = spacy.load('en')
matcher = Matcher(nlp.vocab)
matcher.add('QUOTED', None, [{'ORTH': "'"}, {'IS_ALPHA': True, 'OP': '+'}, {'ORTH': "'"}])

def quote_merger(doc):
    # this will be called on the Doc object in the pipeline
    matched_spans = []
    matches = matcher(doc)
    for match_id, start, end in matches:
        span = doc[start:end]
        matched_spans.append(span)
    for span in matched_spans:  # merge into one token after collecting all matches
        span.merge()
    return doc

nlp.add_pipe(quote_merger, first=True)  # add it right after the tokenizer
doc = nlp("The quoted text 'AA XX' should be tokenized")
print([token.text for token in doc])
# ['The', 'quoted', 'text', "'AA XX'", 'should', 'be', 'tokenized']

对于更优雅的解决方案，您还可以将组件重构为可重用类，在其中设置匹配器__init__方法（请参阅文档 https://spacy.io/usage/processing-pipelines#custom-components举些例子）。

如果您首先在管道中添加组件，则所有其他组件（例如标记器、解析器和实体识别器）将只能看到重新标记化的组件Doc。这也是为什么您可能想要编写更具体的模式，仅合并您关心的某些带引号的字符串。在您的示例中，新的令牌边界improve预测 - 但我也可以想到许多其他情况，但它们没有，特别是如果引用的字符串更长并且包含句子的重要部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spacy - 标记带引号的字符串的相关文章

如何对定义的字符集python中的所有可能的字符串进行加密？

我试图加密定义的字符集中所有可能的字符串然后将它们与用户输入给出的哈希进行比较这就是我目前拥有的 import string from itertools import product import crypt def decrypt
如何在Python中完美地将单元素列表转换为元组？ [复制]

这个问题在这里已经有答案了所以我正在尝试这样做 tuple 1 我期望的输出是 1 但是我得到了这个 1 但如果我这样做 tuple 1 2 它工作完美像这样 1 2 这太奇怪了我不知道为什么元组函数会导致这个结果请帮我解决它这
SQLite 在使用之间不保存数据

我制作了一个包含以下内容的模块 import sqlite3 as sq connection sq connect test db cursor connection cursor cursor execute DROP TABLE IF
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
Pandas：根据其他列值有条件地替换值

我有一个数据框 df 如下所示 environment event time 2017 04 28 13 08 22 NaN add rd 2017 04 28 08 58 40 NaN add rd 2017 05 03 07 59 35
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 Python 中快速确定小于 10 亿的数字是否为素数

我目前在 python 中检查数字素数的算法对于 1000 万到 10 亿之间的数字来说速度很慢我希望它能够得到改进因为我知道我永远不会得到超过 10 亿的数字背景是我无法获得足够快的实现来解决项目 Euler 的问题 60 我在 7
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
如何在 Python 中根据日期列绘制分类变量

我有这样的数据 Date Fruit 2017 01 01 Orange 2017 01 01 Apple 2017 01 08 Orange 2017 01 09 Orange 2017 01 09 Apple 我想在一个图中按日期绘制橙
python：函数中的变量，点前面是函数名

我需要理解这个概念其中我们可以在函数定义中的变量名中使用点这里没有类定义也没有模块 Python 不应该接受包含点的变量名 def f x f author sunder f language Python print x f aut
python 中的 exec 关键字有什么作用？

code compile a 1 2
如果 pandas 数据框中的所有列都有空字符串，则删除行

我有一个数据框如下 Name Age 0 Tom 20 1 nick 21 2 3 krish 19 4 jack 18 5 6 jill 26 7 nick 期望的输出是 Name Age 0 Tom 20 1 nick 21 3 kri
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的

随机推荐

Django url 模板标签添加绝对文件路径

我遇到一个问题我的 url django 模板标记将文件路径添加到生产中的网址这不会在我的本地开发计算机上复制通过 urls py 设置 url about us views about us name about us 在生产中我
创建一个简单的用户界面来访问 Oracle 数据库

这是我所拥有的 1 给我一个简单的sql文件它创建表并用数据填充它们 2 一个简单的 sql 文件其中包含我编写的用于显示操作表的 PL SQL 过程目标是创建某种用户界面允许学生登录查看成绩单退出课程等我正在使用sqlpl
网络共享文件夹上的 GIT 存储库中的并发性

我想要一个存储在 Windows 网络共享上的裸 git 存储库我使用linux 并使用CIFS挂载了上述网络共享我的同事使用 Windows XP 并将网络共享自动安装以某种方式从 ActiveDirectory 作为网络驱动器我
PHP + PDO：如果参数为空则绑定 null

我正在尝试这个并且所有 PoST var 在用户发送之前都会被处理无需担心 SQL 注入 stmt con gt prepare sql stmt gt bindParam 1 this gt getPes cdpessoa stmt
HTML2PDF 无法识别表格的大小

我正在使用 Yii Extension 开发的网页中工作并且使用 HTML2PDF 扩展来生成 PDF http html2pdf fr http html2pdf fr 虽然 PDF 生成得很好但它似乎无法识别我的表格大小我为一行或
FAT32 每个目录的文件数限制

我目前正在尝试在 Xilinx Kintex 7 卡上用 C 语言编写 FAT 系统它配备了 MicroBlaze 我已经成功创建了大部分所需的功能我面临的问题是关于文件夹的总容量我在网上读到在 FAT32 中一个文件夹应该能够包
将 Resharper 测试运行器与 Jasmine 2.0 结合使用

我正在尝试将 VS2013 中的 Resharper v8 2 测试运行程序与 Jasmine 2 一起使用但在 beforeEach 调用全局时遇到问题该规范文件有一个对 SpecHelper js 的脚本引用该引用调用了 b
从 Kickstarter 项目中抓取文本不会返回任何结果

我正在尝试从 Kickstarter 项目网页中抓取项目的主要文本我有以下代码适用于第一个 URL 但不适用于第二个和第三个 URL 我想知道是否可以轻松修复我的代码而无需使用其他软件包 url https www kickstarte
数组放置新需要缓冲区中未指定的开销？

5 3 4 expr new C 11 Feb 草案给出了示例 new 2 f T 5 结果调用operator new sizeof T 5 y 2 f 这里 x和y是非负未指定值表示数组分配开销的结果新表达将从返回的值中抵消此金额o
Flash、Flex、Adobe Air、Java FX 和 Silverlight 到底有什么用？

Flash Flex Adobe Air Java FX 和 Silverlight 到底有什么用为什么我会选择其中之一而不是另一个 Java Applet 和 ActiveX 控件发生了什么哦 AJAX 在哪里适合这一切呢拉斯洛相关
pylint 找不到 QWidget 和 QApplication

import sys from PyQt5 QtWidgets import QApplication QWidget app QApplication sys argv window QWidget window setGeometry
2D char Array 和 char** 之间的区别（OR、3D char Array 和 char*** 等）

首先我已经回顾过这些多维数组在内存中是如何格式化的 https stackoverflow com questions 2565039 how are multi dimensional arrays formatted in memo
Phonegap 屏幕因 AdMob 动画而闪烁

一位用户报告说当 admob 广告有动画时应用程序的 html 视图会闪烁这是他录制的一个小视频 http www youtube com watch v gQ7yxzpqfDA http www youtube com watch
从同一类中的另一个构造函数调用构造函数

我有一个有 2 个构造函数的类 public class Lens public Lens string parameter1 blabla public Lens string parameter1 string parameter2 w
为什么Django的Meta是一个旧式类？

我注意到在 Django 模型中有一个class Meta这对模型做了一些额外的定义我的问题是为什么这是一个老式的课程即不子类化object 这是有原因的还是这只是一种习俗我可以在我的项目中将其作为新式课程吗我相信没有真正的原因
UITableView 延迟图像加载，图像在表格停止滚动后出现

我使用 NSUrlConnection 为 UITableView 实现了延迟图像加载这一切都运行得非常好当我打开桌子时等待一秒钟在 3G 上我会自动获取图像但是当我滚动时表格会加载新单元格启动 NSURLConnecti
Neo4j - 按相关性排序

我想按 Neo4j 中的相关性对返回的数据进行排序就我的目的而言相关性可以简化为我正在搜索的单词的索引其中索引越低相关性越高 Example 我有这三个节点 node Label PROD properties name Bear
使用 java 泛型迭代枚举值

我试图找到一种在使用泛型时迭代枚举值的方法不确定如何执行此操作或是否可能下面的代码说明了我想要做的事情注意代码T values 在以下代码中无效 public class Filter
Javascript：用户完成滚动后执行操作

我正在想办法做到这一点我有一个盒子清单每个盒子都是关于150px高的我正在使用 javascript 和 jquery 并希望在用户向下滚动页面后页面将自动滚动以便框与页面的其余部分对齐也就是说如果用户滚动并且 y页面位置不能
Spacy - 标记带引号的字符串

我正在使用 spacy 2 0 并使用带引号的字符串作为输入示例字符串 The quoted text AA XX should be tokenized 并期望提取 The quoted text AA XX should be tok

Spacy - 标记带引号的字符串

Spacy - 标记带引号的字符串 的相关文章

随机推荐

热门标签

Spacy - 标记带引号的字符串的相关文章