为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？

2024-02-12

一个特别的怪癖（否则相当强大）rePython中的模块是re.split() 永远不会在零长度匹配上分割字符串 http://docs.python.org/library/re.html#re.split，例如，如果我想沿单词边界分割字符串：

>>> re.split(r"\s+|\b", "Split along words, preserve punctuation!")
['Split', 'along', 'words,', 'preserve', 'punctuation!']

代替

['', 'Split', 'along', 'words', ',', 'preserve', 'punctuation', '!']

为什么它有这个限制呢？是设计使然吗？其他正则表达式风格是否有这样的行为？

这是一个设计决定，并且可以采取任何一种方式。蒂姆·彼得斯制作这个帖子 http://bugs.python.org/issue852532#msg19231解释：

例如，如果您按模式 x* 拆分“abc”，您会怎样做预计？该模式在 4 个位置匹配（长度为 0），但我敢打赌大多数人会惊讶地发现

[''、'a'、'b'、'c'、'']

回来而不是（因为他们确实得到了）

['abc']

但其他一些人不同意他的观点。吉多·范罗苏姆不想改变 http://bugs.python.org/issue3262#msg70749由于向后兼容性问题。他做到了say http://bugs.python.org/issue3262#msg73592:

不过，我可以添加一个标志来启用此行为。

Edit:

有一个解决方法 http://bugs.python.org/issue852532#msg19234扬·伯吉发表：

>>> s = "Split along words, preserve punctuation!"
>>> re.sub(r"\s+|\b", '\f', s).split('\f')
['', 'Split', 'along', 'words', ',', 'preserve', 'punctuation', '!']

Where '\f'可以用任何未使用的字符替换。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？的相关文章

出现导入错误：无法从“随机”导入名称“随机”[重复]

这个问题在这里已经有答案了我在我的计算机上多次运行我的代码但没有出现此错误但突然间这个来了 File e Python 3 8 0 lib site packages comtypes client code cache py lin
如何在 Linux 中显示进程状态（阻塞、非阻塞）

有没有办法查询 Linux 进程表中进程的状态以便能够演示执行查询时进程是正在运行还是被阻止我的目标是从进程或程序的外部执行此操作因为我希望从操作系统进程的角度来理解这一点但欢迎任何想法这是Python代码阻塞的过程 impo
在 python + Flask + Gunicorn + nginx + Compute Engine 应用程序中从 Google Cloud Storage 读取文件失败

在 python Flask Gunicorn nginx Compute Engine 应用程序中读取从 Google Cloud Storage 下载的文件失败代码链接 https github com samuq CE test h
Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
如何在 pygame 中聚焦光线或如何仅绘制窗口的某些圆形部分？

对于这一点如果您熟悉它请想想超级马里奥制造2 中嘘关卡中的黑暗模式我试图在角色周围创建一个圆形聚光灯这也将使圆圈范围内的任何内容都可见例如部分站在地板上敌人或场景中的任何其他物体我的计划是首先绘制圆圈聚光灯然后绘制场景
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
numpy 数组最快的保存和加载选项

我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作然而这些函数对于每个数组都需要几秒钟的时间是否有更快的方法来保存和加载
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
使用子图绘制 pandas 数据框 (subplots=True)：放置图例并使用紧凑的布局

我真的很喜欢 pandas 来处理和分析大数据集到目前为止我主要使用 matplotlib 进行绘图但现在想使用 pandas 自己的绘图功能基于 matplotlib 因为它需要更少的代码并且在大多数情况下对我来说似乎足够了尤
使用 awk 将特定子字符串与正则表达式匹配

我正在处理特定的文件名并且需要从中提取信息文件名的结构类似于 20100613 M4 28007834 005 F RANDOMSTR raw gz RANDOMSTR 是最多 22 个字符的字符串并且可能包含或不包含格式为 W
不重复的Python组合

我有一个数字列表我想从中进行组合如果我有清单 t 2 2 2 2 4 c list itertools combinations t 4 结果是 2 2 2 2 2 2 2 4 2 2 2 4 2 2 2 4 2 2 2 4 但我想得到
Python3.1中的视图？

Python3 1中的视图到底是什么它们的行为方式似乎与迭代器类似并且它们也可以具体化为列表迭代器和视图有何不同据我所知视图仍然附加到创建它的对象上对原始对象的修改会影响视图来自docs http docs python or
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
监控单个文件

我需要监控使用watchdog http pythonhosted org watchdog index html 单个文件而不是整个目录避免监视整个目录的最佳方法是什么我想this http pythonhosted org wa
如何替换被测模块的文件访问引用

pyfakefs https code google com p pyfakefs 听起来非常有用它最初是作为核心 Python 模块的一个适度的假实现来开发的以支持中等复杂的文件系统交互并于 2006 年 9 月在 Google
避免在列表理解中计算相同的表达式两次[重复]

这个问题在这里已经有答案了我在列表理解中使用一个函数和一个 if 函数 new list f x for x in old list if f x 0 令我恼火的是这个表达f x 在每个循环中计算两次有没有办法以更清洁的方式做到这一点
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
Networkx 中 Louvain 分区的可视化

请帮助我更改 Louvain 聚类算法结果的可视化我从网站上获取了代码https github com taynaud python louvain https github com taynaud python louvain我可以重写
Python pip 安装错误 [SSL: CERTIFICATE_VERIFY_FAILED]

我已经尝试解决这个问题有一段时间了由于某种原因我陷入了 ssl 问题并且不知道发生了什么问题我已经安装了 python2 7 和 easy install2 7 但是当尝试使用 easy install2 7 安装 pip 时出

随机推荐

空文件上的 AWK FNR==NR

我正在运行以下命令只要它们的内容在第一个文件中该命令就可以很好地工作 awk F FNR NR a tolower 1 next a tolower 1 OutSideSyncUsers csv NewUsers csv 如果第一个文件
将 ID 添加到 Google 地图标记，然后定位它[重复]

这个问题在这里已经有答案了我已经使用 Google Maps API v3 创建了一个 google 地图并添加了一个自定义标记我已经向标记构造函数添加了一个 ID 我希望使用 jQuery 以其他 JS 为目标但目前当我只是尝试
静态链接到动态库。 glibc

所以我遇到一个问题一台机器上有两个版本的 GCC 3 4 6和4 1 这是由于新软件的一些依赖性问题需要 glibc 4 1 当我将这个新软件与 4 1 库链接时它链接得很好但是当执行软件时它找不到该库因为它正在我的 LD
ExtJs 面板 - 添加动态组件

我有一扇窗户窗户内有面板我动态地将组件添加到面板中这些组件采用 hbox 布局以便水平排列单击按钮后我将在 hbox 布局中向面板中添加一行类似的组件这里的问题是我想在第一行下方添加第二行但以下代码将组件添加到面板的顶部 p
Symfony2 Doctrine 查询生成器作为 FROM 子句中的子查询

我使用查询生成器得到了一个查询并将其分配给 qb多变的它在 PHP 和数据库中都可以正常工作现在我尝试将该查询用作子查询如下所示 subQuery qb gt getQuery gt getSql query select res
如何调试 Linux 内核模块的 init_module() 调用？

我正在迈出 Linux 内核开发的第一步我有一些代码生成 ko我安装的内核模块insmod 我想要一种方法来调试安装模块时发生的情况但我遇到了一些困难我需要调试调用init module 当我运行时这个函数被调用吗insmode 我尝
UPI Deep Link 付款被拒绝

我不知道在哪里问这个问题是否合适而是我不知道在哪里问这个问题我正在flutter中开发一个应用程序对于应用程序内购买我正在尝试实现UPI支付我也有一些插件可以做到这一点但是当我测试时我的交易被拒绝我正在尝试通过应用程序中的 P
具有多个模板参数的 C++ 概念

Bjarne Stroustrup 最近发表了report http www stroustrup com good concepts pdf在 C 概念中他提到了一些让我感到惊讶的事情该示例第 7 1 节中使用速记模板表示法
MySQL 基于游标的多列分页

我有一些表想要使用基于游标的分页进行查询但它需要应用于多个列让我们举一个使用 2 列的简化示例我像这样获取第一页 SELECT column 1 column 2 FROM table name ORDER BY column 1 c
一种唯一标识 BTLE 设备的方法

有没有办法唯一地标识 BTLE 设备类似于硬件 ID 我有 2 个硬件 BTLE 设备和 2 个软 BTLE 设备使用 CBCentralManager 所有这些设备都发送相同的 UUID 当所有设备都位于我附近时我想识别确切的 BT
如何使用 jq 将当前日期和时间附加到现有 json 文件中

我有以下格式的 json 文件 username achu password test1234 我只想将时间戳添加到上述有效负载中并将其作为某些服务的请求发送据我所知下面的命令将帮助我们获取 Linux 上的当前标记 date r 但不
从脚本内获取 Swift 脚本的路径

我正在用 Swift 编写一个脚本我希望它修改一些始终与脚本本身位于同一目录中的文件有没有办法从脚本内部获取脚本的路径我试过 print Process arguments 但这仅输出实际提供给脚本的路径该路径可能是完全解析的路径
有没有办法使用http将打印任务发送到支持IPP的网络打印机？

我正在开发一个 Android 打印服务应用程序该应用程序应该允许用户执行以下操作浏览手机的内部存储并将所选文件发送到支持 IPP 的打印机进行打印这几天上网查了一下只找到一个解决办法如何在android中使用ipp 互联网打印协
Firefox 网络面板中的彩色条代表什么？

在 Firefox 开发者工具中在 Net 面板下加载的资源的加载时间分为不同的颜色类别这些都是 DNS查询连接中 Blocking Sending Waiting 接收其中每一个代表什么更具体地说它们中的任何一个是否准确地
通过 cython 将 python 字符串传递给 C

我正在尝试编写一个包含一些 c 和一些 python 部分的模块我正在使用 cython 来弥补差距我想在 python 中存储我的很长的字符串常量因为它有更好的语法 const char long string npart of
识别常见的周期波形（方波、正弦波、锯齿波……）

如果没有任何用户交互程序如何识别 ADC 记录中存在什么类型的波形对于这个问题恒定频率的三角波方波正弦波半正弦波或锯齿波电平和频率是任意的并且它们会有噪声少量失真和其他缺陷我也会提出一些天真的想法你可以投票赞成或反
使用 IIFE 时使用 CommonController 实例化其他 AngularJS 控制器

我有一个项目其中许多模型将由几乎相同的控制器代码管理唯一的例外是它们调用不同的服务我现在处理这个问题的方法是使用通用代码实例化一个 Crud Controller 到每个自定义控制器中然后通过更改自定义控制器内的变量来重定向服务调用
使用S3 for Rails“公共/图像”是否很好，并且有一种简单的方法可以做到这一点？

我对 S3 有点陌生我想知道将公共图像放入 S3 存储桶中是否是一个好主意如果是是否有一种简单的方法可以进行移动如果您查看 config environments production rb 您将看到以下代码行已注释掉 conf
如何在 iPhone 的“文件”应用程序中显示我的应用程序文档

我正在尝试在 iPhone 上的文件应用中显示我的应用中的数据查了很多资料都对就是不知道错在哪里 func fileManger nameFolder String let manager FileManager default
为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？

一个特别的怪癖否则相当强大 rePython中的模块是re split 永远不会在零长度匹配上分割字符串 http docs python org library re html re split 例如如果我想沿单词边界分割字符串 gt

为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？

为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？ 的相关文章

随机推荐

热门标签

为什么 Python 的 `re.split()` 不在零长度匹配上进行分割？的相关文章