SpaCy 中的自定义句子边界检测

2024-05-10

我正在尝试在 spaCy 中编写一个自定义句子分段器，它将整个文档作为单个句子返回。

我编写了一个自定义管道组件，它使用以下代码来执行此操作here https://github.com/explosion/spaCy/issues/1850.

但我无法让它工作，因为它不会更改句子边界以将整个文档作为单个句子，而是会引发两个不同的错误。

如果我创建一个空白语言实例并仅将自定义组件添加到管道中，我会收到此错误：

ValueError: Sentence boundary detection requires the dependency parse, which requires a statistical model to be installed and loaded.

如果我将解析器组件添加到管道中

nlp = spacy.blank('es')
parser = nlp.create_pipe('parser')
nlp.add_pipe(parser, last=True)
def custom_sbd(doc):
    print("EXECUTING SBD!!!!!!!!!!!!!!!!!!!!")
    doc[0].sent_start = True
    for i in range(1, len(doc)):
        doc[i].sent_start = False
    return doc
nlp.begin_training()
nlp.add_pipe(custom_sbd, first=True)

我犯了同样的错误。

如果我更改它首先解析的顺序，然后更改句子边界，则错误将更改为

Refusing to write to token.sent_start if its document is parsed, because this may cause inconsistent state.

因此，如果它抛出一个错误，要求依赖项解析（如果它不存在）或者在自定义句子边界检测之后执行，并且在首先执行依赖项解析时抛出一个不同的错误，那么正确的方法是什么？

谢谢你！

spaCy 的 Ines 回答了我的问题here https://github.com/explosion/spaCy/issues/1885

感谢您提出这个问题——抱歉，这有点令人困惑。我很确定你描述的第一个问题已经解决了掌握。 spaCy 绝对应该尊重自定义句子边界，即使在没有依赖解析器的管道中也是如此。

如果您想在没有解析器的情况下使用自定义 SBD 组件，则非常适合简单的解决方案是在您的自定义中设置 doc.is_parsed = True 成分。因此，当 Doc.sents 检查依赖项解析时，它看起来 at is_parsed 并且不会抱怨。

如果您想将组件与解析器一起使用，请确保添加它在解析器之前。解析器应该始终尊重已经设置的来自先前处理步骤的句子边界。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

SpaCy 中的自定义句子边界检测的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

JDK 7 的快速调试/调试构建

我正在寻找 JDK 的调试或者我猜他们称之为快速调试构建以启用在运行时生成的打印程序集以及查找性能问题时所需的其他诊断就目前情况而言我似乎找不到可以直接使用的现成的快速调试构建二进制包有人可以帮我提供下载链接或者至少提供有关
从 pod 安装库时出现错误

我收到未定义的方法squish for
oracle日期序列？

我有一个 oracle 数据库我需要一个包含 2 年所有日期的表例如来自01 01 2011 to 01 01 2013 首先我想到了一个序列但显然唯一支持的类型是数字所以现在我正在寻找一种有效的方法来做到这一点欢呼骗局如果您想
如何在javascript中设置从数据库输入的最大数量？

我希望根据数据库中的数量设置输入类型数字中输入的最大数量目前我正在尝试让它在数据最大的基础上工作然后再尝试从数据库中获取最大值但它似乎无法工作之前已经在这里问过但我仍然无法理解在 php javascript 中设置数据
MSBuild 未使用所有核心进行构建

我有一个使用 Visual Studios 2008 配置的项目当我打开 IDE 并点击构建时系统上的所有核心都用于构建该项目但是当我尝试从命令行构建时仅使用 1 个核心这是我正在运行的命令 C Windows Microsof
仅将非模态 QDialog 窗口放置在我的应用程序顶部，而不是所有应用程序顶部

我有一个 QDialog 窗口它应该始终位于我的应用程序顶部它不是模态的用户可以随时与对话框和主应用程序进行交互使用窗口保持在顶部提示在某种程度上实现了这一点但是该对话框仍然位于所有其他正在运行的应用程序例如记事本 chrom
MSBuild 能否从生成的 SetParameters.xml 中排除“隐藏”Web 部署参数？

In my 参数 xml文件中我有几个参数使用 Web 部署变量语法来引用其他参数就像这个引用IIS Web Application Name范围
如何缩放到高图中的特定点

Highmaps highcharts 是一个 javascript jquery 适配器可在浏览器等中呈现地图我有一张突出显示单个国家地区的地图但是世界地图的比例如此之大因此我想在将地图加载到相关国家地区后进行放大看看
PowerShell 与 MongoDB C# 驱动程序方法不兼容？

由 C 泛型引起的最新 MongoDB 驱动程序的问题 Cannot find an overload for GetCollection and the argument count 1 我可能可以使用其他没有泛型的 GetCollect
如何使用回形针对多页 pdf 进行缩略图

我想让 Paperclip 为上传的多页 PDF 文件的每一页创建 2 个缩略图我正在运行 Paperclip 2 3 1 1 并在我的资产模型中使用它 has attached file asset styles gt medium g
jQuery - xpath 查找？

如果您在 xml 中有下面的 xml 那么您会使用以下命令变得昏昏欲睡 xml find animal find dog find beagle text jQuery 中是否有类似的方法来使用 xpath xml xpathfind an
无法读取解析推送通知包数据

我尝试使用 Parse 推送通知服务发送自定义数据但从 Bundle 中提取时总是返回 null 值自定义广播接收器 Override public void onReceive Context context Intent inten
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0
C# 从今天起 30 天

我需要我的应用程序从今天起 30 天后过期我会将当前日期存储在应用程序配置中如何检查应用程序是否已过期我不介意用户是否将时钟调回来并且应用程序可以正常工作用户太愚蠢而不会这样做 if appmode Trial string dat
将对象映射到 TableView 部分的 Swift 二维数组

我想不出更好的方法来做到这一点我将学生对象的所有属性映射到二维数组中所以我的电视有几个部分我也不能使用静态表视图如果是这样这个问题就不会存在所以我在 TVC 中的代码 let currentUser PFUser current
Escape String - 在 Javascript 中输出rails字符串[重复]

这个问题在这里已经有答案了我正在尝试将字符串值分配给 erb 文件中的 javascript 对象如下所示 var data name 问题是如果name is Tom s small ears 的输出data name将会Tom x
如何自动更新Android Studio？

我需要将 Android Studio 更新到 0 9 9 版本但是当我按下载在更新信息对话框上时它会将我发送到此处 http developer android com sdk index html http developer
ActionBar 中的进度条

我正在使用一个应用程序它将在应用程序内部加载一个网站现在我想在操作栏中添加一个进度栏而无需向上滑动来抑制功能像那样我在用Fragment在我的应用程序中 WebviewFragment public class WebviewFr
在 python 查询参数中使用 %20 而不是 + 作为空格

我使用 python requests 编写了以下 python 脚本 http requests readthedocs org en latest http requests readthedocs org en latest impo
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但

SpaCy 中的自定义句子边界检测

SpaCy 中的自定义句子边界检测 的相关文章

随机推荐

热门标签

SpaCy 中的自定义句子边界检测的相关文章