如何使用 NLTK 分词器去除标点符号？

2023-12-27

我刚刚开始使用 NLTK，不太明白如何从文本中获取单词列表。如果我使用nltk.word_tokenize()，我得到单词和标点符号的列表。我只需要文字。我怎样才能摆脱标点符号？还word_tokenize不适用于多个句子：点被添加到最后一个单词。

查看 nltk 提供的其他标记化选项here http://www.nltk.org/api/nltk.tokenize.html。例如，您可以定义一个标记生成器，它挑选出字母数字字符序列作为标记并删除其他所有内容：

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')
tokenizer.tokenize('Eighty-seven miles to go, yet.  Onward!')

Output:

['Eighty', 'seven', 'miles', 'to', 'go', 'yet', 'Onward']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 NLTK 分词器去除标点符号？的相关文章

如何删除django中级联的一对一相关模型？

背景我在 Django 1 8 5 中定义了以下模型 class PublishInfo models Model pass class Book models Model info models OneToOneField Publis
Django：模拟模型上的字段

如何将模拟对象分配给该模型上的用户字段无论如何都要绕过 SomeModel user 必须是 User 实例检查吗 class SomeModel models Model user models ForeignKey User 我不会
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

有没有办法知道 Powershell 中的 cmdlet 版本以实现向后兼容性？

假设您正在 Powershell 4 0 环境中编写脚本并且希望确保该脚本可以在 Powershell 3 0 中运行如何确保其向后兼容这是获取 Get ChildItem 版本的示例 Get Command Get ChildIte
Application_Start 与 OnInit 与构造函数

自从 12 大约年前我开始编写经典 ASP 以来我就一直在研究这个问题但我从未找到一个很好的解决方案因为 ASP 和 ASP NET 的体系结构一直是不良实践的沼泽魔法共享单例等我最大的问题是HttpApplication ht
GridLayout 子级的 getLocationOnScreen

我试图获取 GridLayout 中图像视图的 x y 但我的日志一直显示X Y 0 0有任何想法吗
以最小的访问开销在 Java 服务和本机应用程序之间共享缓冲区

我正在尝试在 Android Java 服务和本机进程之间设置共享内存区域本机进程没有 Java 组件纯 C 直接通过命令行从 shell 调用我相信我可以使用 ashmem 和 binder 来完成此任务首先调用ashmem cr
如何找到可以将新项目插入到排序列表中并保持排序的索引？ [复制]

这个问题在这里已经有答案了 a 132 b 0 10 30 60 100 150 210 280 340 480 530 我想知道a应位于有序列表中的第 6 位b 最Pythonic的方法是什么 bisect https docs pyth
将当前 svn 版本写入文本文件

我有一个铁路站点我想在 mongrel 重新启动时将当前的 svn 版本写入 public version txt 这样我就可以将其放入页眉的注释中问题是获取当前本地版本的 svn 我有点困惑例如如果我对一个有一段时间没有更新的文
antlr4：ATN 版本 2 预计 3

当尝试使用生成的语法和词法分析器时我得到 org antlr v4 runtime atn ATN 无法使用版本 2 预期为 3 反序列化 ATN 怎么了您的解析器是使用 ANTLR 4 0 生成的但您尝试使用 ANTLR 4 1 执
让 Cython 在 Anacondas、Windows 7 64 位上与 Python 3.4 配合使用

我刚刚使用 Anaconda Condas 在 Windows 7 64 位计算机上安装了 Python 3 4 当我运行你好世界 cython 示例 http docs cython org src quickstart build h
DateTimeFormatter 无法解析日期字符串，但 SimpleDateFormat 可以

我无法使用 LocalDate 解析方法解析此示例日期字符串 312015 代表 2015 年 1 月 3 日有人可以帮忙吗 import java text ParseException import java text SimpleD
大规模 git 历史重写后如何同步本地历史？

这个问题可能看起来很奇怪但在重写 100 多次提交后我在同步 git 历史记录时遇到了问题在我重写的机器上一个简单的git fetch同步了一切在另一台 mac 机器上 git sync没有帮助但在随机删除本地后 git log
Clang的Parallel STL进展如何？

根据参考参数 https en cppreference com w cpp compiler support GCC 9已经实现了C 17 并行 STL与链接标志 ltbb 但我还没有听说过 Clang 如何专注于该功能的信息或者他们永
required 和 ng-required 和有什么区别？

有什么区别required and ng required 表单验证 AngularJS 表单元素寻找required属性来执行验证功能 ng required允许您设置required属性取决于布尔测试例如仅需要字段 B 比如说学生号
PhantomJS 已崩溃 - 致命 Windows 异常，代码 0xc0000005

我们使用 EmberJS 构建了一个应用程序当我们使用以下命令测试应用程序时我们收到一条失败消息ember test 这里我提到了错误信息操作系统 Windows 8 64位 PhantomJS 2 1 1 PhantomJS err
字节数组到十六进制字符串

我将数据存储在字节数组中如何将此数据转换为十六进制字符串我的字节数组的示例 array alpha 133 53 234 241 Using str format http docs python org 2 library stdty
从已加载的 Magento 模型中检索附加数据

在某些情况下我收到的模型仅包含我需要的一些数据例如catalog product不包含我可能需要使用的某些属性的实例例如尺寸小部件数量或腰围尺寸为了缓解这个问题我目前的选择是创建一个新块并使用手动加载所需的属性addAttr
在 React Native 应用程序中禁用屏幕捕获/屏幕截图

我遇到过一些专门针对 ios 和 Android 的解决方案用于防止屏幕捕获和截屏但是如何在 React Native 中禁用屏幕捕获呢 Android Inside android app src main java com Proj
如何在选择查询中生成自动增量字段

例如我有一个有 2 列的表 first name and last name具有这些值 Ali Khani Elizabette Amini Britney Spears 我想写一个select生成如下表的查询 1 Ali Khani 2
Visual Studio 2015 Update 2 团队资源管理器缺少“排除”

我一直在 Visual Studio 2015 的 Team Explorer 部分中使用 Git 集成我的解决方案中有许多配置文件需要修改以便应用程序在本地运行但我不想提交这些更改在 VS2015 Update 1 中 Git 集
Google Sheets、带有服务帐户的 JWT 客户端

我要拔头发了帮助更新我正在使用 google auth library v1 0 0 和 googleapis v24 0 0 const JWT require google auth library var google requ
如何使用 NLTK 分词器去除标点符号？

我刚刚开始使用 NLTK 不太明白如何从文本中获取单词列表如果我使用nltk word tokenize 我得到单词和标点符号的列表我只需要文字我怎样才能摆脱标点符号还word tokenize不适用于多个句子点被添加到最后一个单

如何使用 NLTK 分词器去除标点符号？

如何使用 NLTK 分词器去除标点符号？ 的相关文章

随机推荐

热门标签

如何使用 NLTK 分词器去除标点符号？的相关文章