Spacy 中的自定义句子分割

2024-04-26

I want spaCy使用我提供的句子分割边界而不是它自己的处理。

例如：

get_sentences("Bob meets Alice. @SentBoundary@ They play together.")
# => ["Bob meets Alice.", "They play together."]  # two sents

get_sentences("Bob meets Alice. They play together.")
# => ["Bob meets Alice. They play together."]  # ONE sent

get_sentences("Bob meets Alice, @SentBoundary@ they play together.")
# => ["Bob meets Alice,", "they play together."] # two sents

这就是我到目前为止所拥有的（从文档中借用的东西here https://spacy.io/usage/processing-pipelines#component-example1):

import spacy
nlp = spacy.load('en_core_web_sm')

def mark_sentence_boundaries(doc):
    for i, token in enumerate(doc):
        if token.text == '@SentBoundary@':
            doc[i+1].sent_start = True
    return doc

nlp.add_pipe(mark_sentence_boundaries, before='parser')

def get_sentences(text):
    doc = nlp(text)
    return (list(doc.sents))

但我得到的结果如下：

# Ex1
get_sentences("Bob meets Alice. @SentBoundary@ They play together.")
#=> ["Bob meets Alice.", "@SentBoundary@", "They play together."]

# Ex2
get_sentences("Bob meets Alice. They play together.")
#=> ["Bob meets Alice.", "They play together."]

# Ex3
get_sentences("Bob meets Alice, @SentBoundary@ they play together.")
#=> ["Bob meets Alice, @SentBoundary@", "they play together."]

以下是我面临的主要问题：

当发现断句时，如何去掉@SentBoundary@ token.
如何禁止spaCy从分裂如果@SentBoundary@不存在。

以下代码有效：

import spacy
nlp = spacy.load('en_core_web_sm')

def split_on_breaks(doc):
    start = 0
    seen_break = False
    for word in doc:
        if seen_break:
            yield doc[start:word.i-1]
            start = word.i
            seen_break = False
        elif word.text == '@SentBoundary@':
            seen_break = True
    if start < len(doc):
        yield doc[start:len(doc)]

sbd = SentenceSegmenter(nlp.vocab, strategy=split_on_breaks)
nlp.add_pipe(sbd, first=True)

def get_sentences(text):
    doc = nlp(text)
    return (list(doc.sents)) # convert to string if required.

# Ex1
get_sentences("Bob meets Alice. @SentBoundary@ They play together.")
# => ["Bob meets Alice.", "They play together."]  # two sentences

# Ex2
get_sentences("Bob meets Alice. They play together.")
# => ["Bob meets Alice. They play together."]  # ONE sentence

# Ex3
get_sentences("Bob meets Alice, @SentBoundary@ they play together.")
# => ["Bob meets Alice,", "they play together."] # two sentences

正确的做法是检查分句器 https://spacy.io/usage/linguistic-features#sbd比手动边界设置（示例here https://spacy.io/usage/linguistic-features#sbd-custom). This https://github.com/explosion/spaCy/issues/2299github问题也很有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

Spacy 中的自定义句子分割的相关文章

单元测试 python 代码，其中 configparser 从配置文件中读取

我是 python 单元测试的新手我学习并进行了示例单元测试其中方法接受输入并返回输出但对于下面提到的代码我有一些疑问如何在unittest中模拟init方法的configparser 路径 config program cfg
如何使用Python将RGB565字节数组转换为RGB888字节数组？

根据我的问题RGB888 转 RGB565 https stackoverflow com questions 61519934 how can i use opencv python to convert rgb888 to rgb565
使用 scikit 确定每个特征对特定类别预测的贡献

我正在使用 scikit 额外的树分类器 model ExtraTreesClassifier n estimators 10000 n jobs 1 random state 0 一旦模型拟合并用于预测类别我想找出每个特征对特定类别预测
自 1.4.0 版本以来，sphinx_rtd_theme 不再是硬依赖项

C Users Administrator Desktop item code serv documents api gt 制作 html 运行 Sphinx v1 6 2 加载腌制环境失败无法获取属性 WarningStream
winpdb 不适用于 python 3.3

我无法让 rpdb2 与 python 3 3 一起运行但根据多个来源这应该是可能的 rpdb2 d myscript py A password should be set to secure debugger client serv
如何使用Python3将ruamel.yaml转换为dict？

我想要一个dict or OrderedDict from ruamel yaml 我正在使用 Python 3 8 如果有帮助的话很乐意切换到 3 9 from ruamel yaml import YAML from collecti
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o
我的本地 postgresql 数据库 url 的形式是什么？

我正在学习 Flask sqlalchemy 教程https pythonhosted org Flask SQLAlchemy quickstart html a minimal application https pythonhoste
当有效的 django 表单保存在数据库中时如何触发自定义 python 代码

Django 新手我创建了一个简单的表单如下this https www youtube com watch v 3XOS UpJirU教程我的表单正确地将数据保存在我的 Postgres 连接的本地数据库中我想知道每当将有效表单保
如何在 Django 中创建多选框？

我正在尝试创建多选框字段来自姜戈选择 2 https github com applegrew django select2库如下图所示我使用了下一个代码但它返回简单的选择多个小部件我想我忘了补充一些东西我的错误在哪里有人可以告诉
如何在这个可嵌套的 For 循环中实现 Robot Framework 风格的变量？

我在 Robot Framework 中见过很多嵌套 For 循环主要是创建一个内部带有 For 循环的关键字然后在另一个 For 循环中调用该关键字我使用 Python 2 7 13 制作了一个可嵌套的 For 循环但因为它主要
将 csv 写入谷歌云存储

我试图了解如何将多行 csv 文件写入谷歌云存储我只是没有遵循文档 https googlecloudplatform github io google cloud python stable storage blobs html hig
使用 Python 3.7+ 中的 wfastcgi 以及 Numpy、Pandas 等在 IIS 上部署 Python Flask 应用程序

使用 wfastcgi 在 IIS 上部署 python 3 7 Flask 或 Dash 应用程序时有许多很棒的教程可以让 hello work 程序正常运行例如 https medium com bilalbayasut deplo
Pytest 插件：覆盖 pytest_runtest_call 和朋友

我正在为我的一个项目使用 pytest 开发一个测试套件由于项目的性质我需要创建一个 Pytest 插件来控制测试的运行方式它们不是在本地运行而是发送到不同的进程来运行我知道关于xdist但我认为这并不能解决我的问题我一直在通过
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
为什么 Python 的 argparse 对 SystemExit 使用错误代码 2？

当我给 Python 的 argparse 输入它不喜欢的输入时它会引发一个代码为 2 的 SystemExit 其中似乎意味着没有这样的文件或目录 https docs python org 2 library errno html
捕获 CommandOnCooldown 错误

我正在制作一个有冷却时间的不和谐机器人并且我正在尝试制作一个事件当CommandOnCooldown发生错误时机器人会通过私信告诉他们需要等待多长时间这是我的代码看起来一切正常但它不知道 retry after 意味着什么 bo
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
如何按分层类别结构中的值对 pandas 中的数据框进行排序

我有一个 pandas 数据框 pd DataFrame category Transport Transport Car Transport Train Household Household Utilities Household Ut
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p

随机推荐

如何处理Kafka流中的不同时区？

因此我正在评估 Kafka Streams 及其功能看看它是否适合我的用例因为我需要每 15 分钟每小时每天聚合传感器数据并发现它由于其窗口功能而很有用因为我可以通过应用创建窗口windowedBy on KGroupedSt
CSS 可调整大小的带标题的图像

我正在尝试获取并排显示的两个图像的 HTML 布局并填充页面同时保持其纵横比并保持图像彼此相邻即不在页面每一半的中心我还想要顶部有一个标题我几乎已经使用下面的 CSS hackery 实现了这一目标目前它看起来像这样如果我水平
使用python远程执行shell脚本

有没有一种方法可以让我在 Windows 上使用 Python 来执行位于远程 Unix 计算机上的 shell 脚本 P S 抱歉编辑晚了我确实知道 Paramiko 但我想知道是否有办法在没有它的情况下做到这一点对于初学者来说可以
Roslyn 脚本：运行时异常的行号信息

我正在摆弄 Roslyn 脚本的东西使用Microsoft CodeAnalysis CSharp Scriptingnuget 包我想知道是否有一种方法可以将行号信息添加到堆栈跟踪中以了解脚本内发生的异常当我运行以下 C 代码时
如何执行更新UI视图Android的后台作业[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在我的 Android 应用程序中我有一个带有视图的活动例如在活动开始或创建主布局时我想启动一个后台作业每 5 秒从主布局更
CLOB 与 VARCHAR2 以及还有其他替代方案吗？

我正在为我的应用程序使用 DevArt 的 dotConnect 和 Entity Developer 我已经使用实体优先功能创建了表我注意到许多列类型都设置为 CLOB 我只有 MySQL 和 Microsoft SQL Server
如何在按下/单击 TextField 时使用 TextFieldValue （带 FocusRequester）将光标设置到文本的任何部分

我试图环顾四周但找不到办法 force a focus set the cursor到文本末尾并且仍然能够设置cursor到文本的任何部分时按下点击 With FocusRequester光标设置在文本的开头但是TextField
Spring框架中Service和DAO接口的主要用途是什么？

我是 Spring 框架的新手我在谷歌上搜索了很多关于 spring mvc 的网站我注意到为每个服务和 dao 创建了接口但我有一些疑问如下 1 为每个service和dao创建接口的主要目的是什么 2 spring mvc的项目结
SQL Server VSS 编写器拒绝启动

我已在 Windows 7 64 位计算机上安装了 Visual Studio 2012 我正在尝试安装 SQL Server Express LocalDB 但当安装程序尝试启动服务时出现错误这是确切的错误消息服务 SQL Serve
日期时间类型转换器

我有下面的代码将字符串转换为 T 类型它适用于所有其他类型但当 T 为 DateTime 类型时会出现错误 TypeConverter c TypeDescriptor GetConverter typeof T return T c
Avro 架构和生成的文件中的十进制数据类型支持

这个问题涉及 Avro 版本 1 8 1 我们的 AVRO 模式中有以下字段 name sale price type bytes null logicalType decimal precision 18 scale 17 如您所见该字
scalaz 中的 Store 是什么

我试图理解Lenses in scalaz 令人惊讶的是没有找到类似的东西cats core 我遇到了所谓的Store这是一个类型别名 type StoreT F A B IndexedStoreT F A A B type Indexed
如何在 Cython 中传递指向 c 函数的指针？

我正在尝试打电话qsort在 Cython 中使用自定义比较函数但我不明白如何传递函数引用首先我有一个结构 cdef struct Pair int i j float h 比较函数排序依据h cdef int compare con
javascript旋转数组元素[重复]

这个问题在这里已经有答案了大家好我有一个任务我有一个数组 4 7 3 6 9 我必须创建一个像这样的数组 4 7 3 6 9 9 4 7 3 6 6 9 4 7 3 3 6 9 4 7 7 3 6 9 4 我必须编写一个程序其中数组
AspectJ 加载时间编织不适用于 Spring beans

我正在开发一个项目该项目使用 Spring 配置的 Java 而不是 xml 风格来连接依赖项它还具有分析逻辑应通过 AspectJ 将其编织到所需的方法上通过注释设置正在运行我可以看到我想要的包中的类正在编织并且分析信息已从
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Qt for Android：无法签署应用程序的发布版本

我正在使用 Qt 5 13 和 Qt Creator 4 9 2 我可以成功构建 Android 应用程序的调试版本但是当我尝试编译发布版本时我得到 16 57 35 过程 opt Qt 5 13 0 android armv7 bin
iOS Voice Over 和 Android 无法播报 Span 标签中的文本

我们希望屏幕阅读器在节点关闭后宣布项目已关闭有趣的是 Chrome 上的 NVDA 正确地播报了该消息而 Android 和 iOS Voice Over 则未能播报此消息这是打字稿代码 HostListener keydown t
在 Scala / Spark 中将纪元转换为日期时间

我使用以下方法将表示 DateTime 的 String 转换为 unix time 纪元 def strToTime x String Long DateTimeFormat forPattern YYYY MM dd HH mm ss
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th

Spacy 中的自定义句子分割

Spacy 中的自定义句子分割 的相关文章

随机推荐

热门标签

Spacy 中的自定义句子分割的相关文章