如何调整 NLTK 句子标记器

2024-04-21

我正在使用 NLTK 来分析一些经典文本，但我在按句子标记文本时遇到了麻烦。例如，这是我从以下内容中得到的片段莫比迪克 http://www.gutenberg.org/cache/epub/2701/pg2701.txt:

import nltk
sent_tokenize = nltk.data.load('tokenizers/punkt/english.pickle')

'''
(Chapter 16)
A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but
that's a rather cold and clammy reception in the winter time, ain't it, Mrs. Hussey?"
'''
sample = 'A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs. Hussey?"'

print "\n-----\n".join(sent_tokenize.tokenize(sample))
'''
OUTPUT
"A clam for supper?
-----
a cold clam; is THAT what you mean, Mrs.
-----
Hussey?
-----
" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs.
-----
Hussey?
-----
"
'''

考虑到 Melville 的语法有点过时，我并不期望这里完美，但 NLTK 应该能够处理终端双引号和像“Mrs.”这样的标题。然而，由于标记器是无监督训练算法的结果，我不知道如何修改它。

有人有更好的句子标记器的建议吗？我更喜欢一个可以破解的简单启发式方法，而不是必须训练我自己的解析器。

您需要向分词器提供缩写列表，如下所示：

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters
punkt_param = PunktParameters()
punkt_param.abbrev_types = set(['dr', 'vs', 'mr', 'mrs', 'prof', 'inc'])
sentence_splitter = PunktSentenceTokenizer(punkt_param)
text = "is THAT what you mean, Mrs. Hussey?"
sentences = sentence_splitter.tokenize(text)

现在的句子是：

['is THAT what you mean, Mrs. Hussey?']

更新：如果句子的最后一个单词带有撇号或引号（例如Hussey?'）。因此，解决此问题的一种快速而肮脏的方法是在句子结束符号 (.!?) 后面的撇号和引号前面放置空格：

text = text.replace('?"', '? "').replace('!"', '! "').replace('."', '. "')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

NLTK

如何调整 NLTK 句子标记器的相关文章

按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
matplotlib：在次要标签下绘制主要刻度标签

这看起来应该很容易但我不知道该怎么做我有一个 X 轴上有时间的图我想设置两组刻度小刻度显示一天中的小时大刻度显示日月所以我这样做 set date ticks to something sensible xax ax get
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
Buildozer Numpy RuntimeError：工具链损坏：无法链接简单的 C 程序

用 Python 编写我的第一个 Android 应用程序并使用 Buildozer 对其进行打包因为稍后在项目中需要使用numpy 所以我尝试打包以下测试代码 import numpy import kivy kivy require
在 grpc python 中处理异步流请求

我试图了解如何使用双向流处理 grpc api 使用 Python API 假设我有以下简单的服务器定义 syntax proto3 package simple service TestService rpc Translate stre
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
使用条件在 pandas 数据框中生成新列

我有一个 pandas 数据框如下所示 portion used 0 1 1 0 1 2 0 3 2 3 0 0 3 4 0 8 我想根据以下内容创建一个新专栏used列以便df看起来像这样 portion used alert 0 1
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
使用枚举名称而不是值对 Pydantic 字段进行编码

我有一个枚举类 class Group enum Enum user 0 manager 1 admin 2 我有一个 pydantic 模型 class User BaseModel id int username str group G
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib
捕获 SQLAlchemy 异常

我可以使用什么捕获 SQLAlechmy 异常的上层异常 gt gt gt from sqlalchemy import exc gt gt gt dir exc ArgumentError CircularDependencyError

随机推荐

使用 gdb 调试时彻底退出 valgrind

我正在使用 valgrind 和 gdb 调试程序然而我以一种野蛮的方式终止了这些调试会话这真的是它应该做的吗设置调试会话按照来自的指示valgrind 官方网站 http valgrind org docs manual man
如何显示文件解压进度？

我正在尝试找出一种方法来显示当前进度以及解压缩并将 zip 文件的内容写入磁盘的剩余时间我目前正在使用此处找到的 ZipArchiver 类http code google com p ziparchive http code googl
Python pandas 插入长整型

我正在尝试在 Pandas Dataframe 中插入长整数 import numpy as np from pandas import DataFrame data scores 6311132704823138710 273 26850
NEDB 文件存储在哪里？

var Datastore require nedb db new Datastore filename testdb db autoload true var doc hello world n 5 today new Date nedb
在 Google 电子表格上，如何称呼 IP 的城市、国家/地区？

我想知道是否有一个公式脚本可以在 Google 电子表格上使用来获取 IP 地址数组的城市位置也就是说假设 A 列上的每个单元格都有 100 个 IP 地址我应该在 B 列上使用什么公式脚本来获取各自的城市和位置最简单的方法是
Qt 调试器在 mac 上使用错误的 python 版本

我使用的是 macOS Mojave 10 14 6 我的Qt版本是5 13 1 我的 Qt Creator 版本是 4 10 0 当我设置断点并运行应用程序时调试器永远不会完成并打印到调试器日志并显示以下错误因此据我所知 lldb
iOS 复制和粘贴

我正在创建一个应用程序以便在我在 iOS 设备上复制某些内容时保存我复制的项目无论如何我是否可以创建一个事件以便每当我从 iOS 设备上的任何应用程序复制某些内容时它都会将其保存到我的应用程序中我希望它在我复制文本时触发以便将
是否可以使用前导和跟踪来设置 Android 字体样式？

android 字体样式中是否可以有以下内容 Leading http en wikipedia org wiki Leading 文本行之间的垂直空间名称来自于机械印刷过程中用于分隔文本行的物理铅片 Tracking http en w
什么是 Unicode、UTF-8 和 UTF-16？

Unicode 的基础是什么为什么需要 UTF 8 或 UTF 16 我在谷歌上研究过这个问题也在这里搜索过但我不清楚 In VSS https en wikipedia org wiki Microsoft Visual Sourc
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
Log4J 仅将一个类附加到附加程序

我需要定期轮询正在运行的应用程序的 JVM 内存统计信息我正在运行一个服务来执行此操作并将统计信息写入根记录器我对根记录器的使用与否没有太多控制权我想要做的是将这些日志消息路由到单个附加程序该附加程序应该只处理来自该类的日志消息而
如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
如何快速将 pandas 数据框行转换为ordereddict

寻找一种快速方法将 pandas 数据框中的行放入有序字典中而不使用列表列表很好但对于大数据集将花费很长时间我正在使用 fiona GIS 阅读器行是有序字典其模式给出数据类型我使用 pandas 来连接数据在很多情况下行
SetTimeout() 不会执行该函数

这是我的代码片段 in VBScript Sub Main Dim timeoutTimer more scripts here more scripts here more scripts here timeoutTimer window
Angular js - 幻灯片视图但不是主页 - ng-animate

我在用着ng动画滑动应用程序视图因此每个路线都会滑动自己的视图这是我的简单代码 html div class slide div css Animations slide left 0 slide ng enter transition
在 JavaScript 中从 Base64 字符串创建 BLOB

我在字符串中有 Base64 编码的二进制数据 const contentType image png const b64Data iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQV
从 webview 获取用户触摸的元素

大家好我正在尝试获取用户在 web 视图中触摸的 html 元素例如该场景是用户触摸 Web 视图中的某种按钮应用程序显示该按钮的 html 代码如下所示 a href index html a 我已经能够获取用户正在浏览的 ht
为什么我在显式调用构造函数时无法引用实例方法？

有谁知道为什么你可以参考static构造函数第一行中的方法使用this or super 但不是非静态方法考虑以下工作 public class TestWorking private A a null public TestWorkin
将 UTF-8 编码的转储加载到 MySQL 中

昨天我为这个问题苦苦思索了几个小时我在 MySQL 4 1 22 服务器上有一个数据库编码设置为 UTF 8 Unicode utf8 如 phpMyAdmin 报告该数据库中的表的默认字符集设置为latin2 但是使用它的 Web
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt

如何调整 NLTK 句子标记器

如何调整 NLTK 句子标记器 的相关文章

随机推荐

热门标签

如何调整 NLTK 句子标记器的相关文章