RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

2024-03-22

I almost找到了这个问题的答案这个线程 https://stackoverflow.com/questions/5214177/regex-tokenizer-to-split-a-text-into-words-digits-and-punctuation-marks（样本偏差的答案）；但是我需要将一个短语拆分为单词、数字、标点符号和空格/制表符。我还需要它来保留这些事情发生的顺序（该线程中的代码已经这样做了）。

所以，我发现的是这样的：

    from nltk.tokenize import *
    txt = "Today it's   07.May 2011. Or 2.999."
    regexp_tokenize(txt, pattern=r'\w+([.,]\w+)*|\S+')
    ['Today', 'it', "'s", '07.May', '2011', '.', 'Or', '2.999', '.']

但这是我需要产生的列表：

    ['Today', ' ', 'it', "'s", ' ', '\t', '07.May', ' ', '2011', '.', ' ', 'Or', ' ', '2.999', '.']

正则表达式一直是我的弱点之一，所以经过几个小时的研究，我仍然感到困惑。谢谢你！！

我认为这样的事情应该对你有用。该正则表达式中的内容可能比需要的多，但您的要求有些模糊，并且与您提供的预期输出不完全匹配。

>>> txt = "Today it's \t07.May 2011. Or 2.999."
>>> p = re.compile(r"\d+|[-'a-z]+|[ ]+|\s+|[.,]+|\S+", re.I)
>>> slice_starts = [m.start() for m in p.finditer(txt)] + [None]
>>> [txt[s:e] for s, e in zip(slice_starts, slice_starts[1:])]
['Today', ' ', "it's", ' ', '\t', '07', '.', 'May', ' ', '2011', '.', ' ', 'Or', ' ', '2', '.', '999', '.']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

NLTK

tokenize

RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）的相关文章

Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
如何在 Django 管理中以表格格式显示添加模型？

我刚刚开始使用 Django 编写我的第一个应用程序为我的家庭设计的家务图表管理器在本教程中它向您展示了如何添加相关对象 http docs djangoproject com en dev intro tutorial02 cust
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
创建一个打开文件并创建字典的函数

我有一个正在处理的文件我想创建一个读取文件并将内容放入字典中的函数然后该字典需要通过 main 函数传递这是主程序它无法改变我所做的一切都必须与主程序配合 def main sunspot dict file str raw in
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
十六进制数的按位异或

我们如何在 Python 中对十六进制数进行异或例如我想要异或 ABCD and 12EF 答案应该是 B922 我使用了下面的代码但它给出了错误的结果 xor two strings of different lengths def
电话号码的正则表达式，不允许全零

需要您的正则表达式帮助我当前的正则表达式是 d 8 最小长度为 8 不允许包含字母特殊字符和空格我还想禁止全零如 00000000 Thanks 该模式应该可以满足您的需求 0 d 8 The 0 部分是负前瞻将阻止仅输入零 Ex
使用 Python 的文本中的词频但忽略停用词

这给了我文本中单词的频率 fullWords re findall r w allText d defaultdict int for word in fullWords d word 1 finalFreq sorted d iterit
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
属性错误：类型对象“图像”没有属性“打开”

Exception in Tkinter callback Traceback most recent call last File C Python34 lib tkinter init py line 1482 in call retu
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
提交表格并上传带有请求的文件

我正在努力提交特定的表格蟒蛇请求 http www python requests org 我想使用它的网站上的其他表单工作正常我可以提交登录表单等这只是我遇到问题的文件上传显然提交表单效果很好因为我从网站收到一条消息说请返回
向量化 numpy bincount

我有一个 2d numpy 数组 A我要申请np bincount 到矩阵的每一列A生成另一个二维数组B由原始矩阵每列的 bincounts 组成A 我的问题是 np bincount 是一个采用一维数组的函数它不是像这样的数组方法B A
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai

随机推荐

xcodebuild安装路径？

我正在使用 xcode 开发 iPhone 应用程序我想自动化构建和运行过程因此想知道是否有任何方法可以在模拟器或设备上安装构建的应用程序有xcodebuild install命令但我不知道如何设置安装目录DSTROOT到模拟器
Bootstrap 按钮组预选按钮，仅含 html

使用 Bootstrap 我想要一个按钮组但预选了一个按钮如果我使用下面的 html 那么第一个按钮将被预先选择但即使我单击其他按钮之一它仍然保持活动状态仅使用 html 如何定义选择一个按钮的按钮组当我单击其他按钮之一时该按
使用 SwingNode 在 JavaFX 中显示 VlcJ

FXMLController初始化方法 FXML private VBox vbContainer MediaPlayerVLC m mediaPlayer public void initialize URL url ResourceBu
DevExpress 中的 GridControl 和 GridView 有什么区别？

DevExpress 中的 GridControl 和 GridView 有什么区别看起来 GridControl 是 WinForm GridView 是 WPF 但是我在 XAML 中使用 gxg GridContol 这之间也有什么
如何将 PowerShell 脚本作为服务运行？

我创建了下面的脚本来检查应用程序的端口 2025 并记录连接数我需要这个脚本作为 Windows 上的服务运行其名称为netstat 2025 有谁知道是否有这种可能性我不想使用任务计划程序而是将脚本作为 Windows 上的服务运
iPhone 的 smtp 客户端库

任何人都知道在 iphone 应用程序中使用的 Objective C smtp 库我使用skpsmtpmessagehttp code google com p skpsmtpmessage http code google com p
如何使用 Dapper ORM 获取子对象的值？

我正在使用以下内容检索个人资料详细信息 var profiles connection Query
GitHub自动合并后出现致命错误

我在 GitHub 上有一个存储库位于here https github com dapphp securimage 我为某人创建了一个工作分支他们分叉了存储库对工作分支进行了一些更改并提交了拉取请求我尝试了这些更改一切都很好而
在javascript中调用php函数而不等待响应

我知道如何使用 ajax 我有一个 Codeigniter 项目所以我只需调用 url 这一切都很好但 ajax 等待响应我只想像您在浏览器中输入的那样调用该网址我不想等待响应因为控制器会进行重定向然后加载视图我还需要能够通过
Pandas 将 Series/DataFrame 限制为一列的值范围

我想要一个函数 df out df in val min val max 它通过选择一列中的值在定义范围内的行来从另一个系列数据帧中生成排序的系列数据帧例如如果 df in 看起来像这样 Name Age John 13 Jack
Laravel 8 迁移“一般错误：1215 无法添加外键约束”

我正在尝试在 Laravel 8 上创建迁移这是我的表 class CreateProductVariationOrderTable extends Migration Run the migrations return void pub
动态更改打印数据

我正在寻找一种方法来操纵发送到打印机目前是喷墨打印机可能是 HP 2460 的数据我想在打印机每次尝试打印时动态更改数据 IE 在点 1 处打印的页面将正常保留但纸张可能会改变其位置因此我正在寻找一种旋转输入图像以抵消纸张旋转的
如何在 Android 中创建带有虚线/点线分隔线的 ListView？

我设法通过创建一个名为的文件来弄清楚如何创建自定义形状带有虚线 dash xml里面的应用程序 res drawable folder
Jenkins 工件插件不归档空目录

我使用 Jenkins 工件插件来向下流使用我的问题是尽管我付出了一切努力但空文件夹并未被存档显然 svn 文件也没有存档首先你是对的空目录不能被归档因为目录作为 Jenkins 中的工件并没有真正的意义如果您要将工件复制
OAuth2（授权代码授予类型）的重定向 URI 中是否应该存在动态查询参数

诸如此类的来源Okta 赞助网站 https www oauth com oauth2 servers redirect uris redirect uri registration 参见按请求定制部分提到授权请求的redirect
将文件添加到文件夹时运行 Google 脚本

我希望每次将文件添加到特定文件夹时运行谷歌脚本这可以做到吗目前我有一个触发器使脚本每分钟运行一次但这并不总是足够快 function mainFunction const folderID folderID provide here
使用 pymssql 连接到 SQL Server 实例

我正在尝试使用 pymssql 版本 2 0 0b1 dev 20111019 使用 Python 2 7 1 从 Windows 机器连接到 SQL Server 实例我已经从控制台尝试了最基本的方法 import pymssql c
将 GLEW 与 CMake 链接

如何使用 CMake 将 GLEW 链接到项目我们已经尝试使用 CMake 将 GLEW 链接到我们的项目至少 3 个小时但没有成功因此接受任何帮助我正在使用 CMake 3 1 0 附带的 FindGLEW cmake CMake
WPF 中动画宽度与实际宽度？

在 WPF 中如何将元素的宽度从 0 动画到其实际宽度我试过这个
RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

I almost找到了这个问题的答案这个线程 https stackoverflow com questions 5214177 regex tokenizer to split a text into words digits and p

RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容） 的相关文章

随机推荐

热门标签

RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）的相关文章