使用 nltk 分割句子，同时保留引号

2024-04-21

我正在使用 nltk 将文本拆分为句子单元。但是，我需要将包含引号的句子提取为一个单元。现在，每个句子，即使它在引用中，也会被提取为一个单独的部分。

这是我尝试将其提取为单个单元的示例：

"This is a sentence. This is also a sentence," said the cat.

现在我有这个代码：

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

text = 'This is a sentence. This is also a sentence," said the cat.'

print '\n-----\n'.join(tokenizer.tokenize(text, realign_boundaries=True))

这工作得很好，但我想维护带有引号的句子，即使引号本身包含多个句子。

上面的代码产生：

This is a sentence.
-----
This is also a sentence," said the cat.

我试图将整个文本提取为一个单元：

"This is a sentence. This is also a sentence," said the cat.

有没有一种简单的方法可以使用 nltk 来做到这一点，或者我应该使用正则表达式？开始使用 nltk 的简单性给我留下了深刻的印象，但现在我陷入了困境。

如果我正确理解问题，那么这个正则表达式应该可以做到：

import re

text = '"This is a sentence. This is also a sentence," said the cat.'

for grp in re.findall(r'"[^"]*\."|("[^"]*")*([^".]*\.)', text):
    print "".join(grp)

它是 2 个模式 or 的组合。第一个找到普通的引用句子。第二个查找普通句子或带有引号的句子，后跟句点。如果您有更复杂的句子，可能需要进一步调整。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

NLTK

使用 nltk 分割句子，同时保留引号的相关文章

McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
REGEXP_REPLACE - 仅当包含在 () 中时才从字符串中删除逗号

我在 oracle 论坛网站找到了一个例子输入字符串 a b c x y z a xx yy zz x WITH t AS SELECT a b c x y z a xx yy zz x col1 FROM dual SELECT t c
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

Ecma6，Object.assign 不进行深层复制[重复]

这个问题在这里已经有答案了 dst a 1 src edf zyx right Object assign dst src src edf zyx wrong console log dst edf zyx 我期待看到 right 作为输出
如何用 C 语言从串行（SPI）连接读取数据？

我正在尝试编写一个程序该程序将安装在 Linux MCU Raspberry Pi 上该程序将读取从另一个 MCU 我将自己构建的自制程序发送到它的串行数据我研究了如何做到这一点并认为我有大局但仍然缺少一些东西其一我需要启
没有“+=”候选者产生预期的上下文结果类型“Int”[重复]

这个问题在这里已经有答案了我一直在更新 Swift 3 的 Swift 代码真的很兴奋到目前为止一切顺利但我确实遇到了一些我似乎无法更新的代码我知道我错过了一些非常简单的东西但我就是看不出是什么这是我在 Swift 2 2 中
如何获取 Facebook 元的 fb:app_id

我们的业务简介页面为http facebook com geoflakes http facebook com geoflakes 我可以从中获取它的 idhttp graph facebook com geoflakes http gra
软件包“BluetoothSDK.pkg”不受信任

我刚刚将我的操作系统重置为 10 7 我的 mac 可以运行的最新版本并下载了 Xcode 每当我尝试安装较旧的 iOS 模拟器时都会出现错误The package iPhoneSimulator pkg is untrusted 安装
在 GUI 内的子图中添加滚动条

如何向子图添加滚动条我已经阅读了很多教程但它们似乎很难理解例如滚动图形演示 http www mathworks com matlabcentral fileexchange 5253 scrolling figure demo 有
检查物化视图是否已填充

使用 postgres 9 5 2 python 客户端有什么方法可以检查是否使用查询填充了物化视图一个不会发出警告的视图未填充的视图快速回答 SELECT relispopulated FROM pg class WHERE rel
通过 SSH 隧道连接到 gitosis 服务器

我的 MacBook 上有一个 SSH 隧道设置就像这样 ssh o ServerAliveInterval 3 N L 22222 gitosis server 22 email protected cdn cgi l email pr
在自己的处理程序中捕获信号

include
Python 3.x 中长整型中的 L 后缀

在Python 2 x中有一个L长整型后的后缀由于 Python 3 将所有整数视为长整数因此这一点已被删除从Python 3 0 的新增功能 https docs python org 3 0 whatsnew 3 0 html i
动态行跨度php while循环

i have two tables one item table and customer table 在表中您可以看到第二个项目 ID 1002 有两个条目我想将 colspan 添加到该项目的第 1 列和第 3 列 table tr
嵌套绑定和管道转换

为了减少冗余的 XAML 标记我尝试获取一般填充的单选按钮类型选择控件即我使用ItemsControl与枚举为ItemsSource并创建一个 DataTemplate 通过检查项目的枚举值是否与当前设置相同来显示选择了哪个项目仅使用
JIRA REST API 获取工作日志 - “您无权查看指定问题”

我想获取 Jira 上指定问题的工作日志根据这个文件https docs atlassian com jira REST latest d2e774 https docs atlassian com jira REST latest d2
冬眠混乱。 GA、GA 和最终版本之间有什么区别？兼容性？存储库？

谁能解释一下 1 ga GA 和 Hibernate 最终版本之间的区别 2 我应该使用maven存储库还是jboss nexus存储库 3 为什么最新的兼容性矩阵 http community jboss org wiki Hiberna
已经使用严格时是否有必要使用警告？

代码如下 use strict use warnings Is use warnings 这里有必要吗是的这是必要的 use strict and use warnings做不同的事情来自strict模块的联机帮助页 strict P
如何在 Silverlight 中按首字母对列表中的项目进行分组？

我有一个列表框我将排序的字符串列表绑定到其中我想显示带有宣布新信件的分隔线标题的列表类似于 iPhone 上的联系人列表有人知道如何实现这个目标吗也许使用 ListBox 不是正确的想法我正在使用适用于 Windows
Android SDK应用程序加载库失败

嘿嘿我收到了和这个人一样的错误消息 Android NDK 应用程序无法加载库 https stackoverflow com questions 12022990 android ndk app failed to load libra
在 iOS 中以编程方式拨打带有访问代码的电话号码

如何在 iOS 中以编程方式拨打包含号码和访问代码的电话号码例如号码 900 3440 567访问代码 65445 UIDevice device UIDevice currentDevice if device model isEqu
Python创建大字典时内存错误

我正在尝试处理 3GB XML 文件并且在读取文件并将一些数据存储在字典中的循环中间遇到内存错误 class Node object def init self osmid latitude longitude self osmid in
使用 nltk 分割句子，同时保留引号

我正在使用 nltk 将文本拆分为句子单元但是我需要将包含引号的句子提取为一个单元现在每个句子即使它在引用中也会被提取为一个单独的部分这是我尝试将其提取为单个单元的示例 This is a sentence This is a

使用 nltk 分割句子，同时保留引号

使用 nltk 分割句子，同时保留引号 的相关文章

随机推荐

热门标签

使用 nltk 分割句子，同时保留引号的相关文章