在 python 中加速 re.sub

2024-03-12

我有以下 Python 代码，但它在 10mb 文件上运行有点慢。我想知道有什么办法可以加快速度吗？也许通过一次完成 re.sub （而不是两次操作） - 但不确定如何做到这一点，或者也许还有另一种方法？

def ChangeMode(file, amode0, amode1, bmode0, bmode1):
for line in iter(file):
    if 'AAA' in line or 'BBB' in line or 'CCC' in line:
            line = re.sub(mode0, mode1, line)
            line = re.sub(bmode0, bmode1, line)
    endstring += line
return endstring

Cheers

如果受影响的线路很少，您可以使用以下方法加快速度re.sub or re.finditer直接查找这些行，而不是在 Python 级别迭代这些行。和str.replace在简单的字符串替换的情况下速度很快：

def fsub(m):
    return m.group().replace('ij', 'xx').replace('kl', 'yy')

s = re.sub('(?m)^.*(?:AAA|BBB|CCC).*', fsub, open(path).read())

Note: (?m)导致^匹配每行的开头并且.*不要抓住超出线端的地方。

REGEX 预编译可以稍微加快许多单独的 REGEX re.sub 的速度（当简单的字符串替换不适用时）：

rec = re.compile(r'ij\d+') # once
...
line = rec.sub('xx', line)  # often

(re.sub不过已经使用了 REGEX 编译缓存，速度相当快。）

如果替换不会改变字符串大小，您可以通过使用来加快速度bytearray/ 缓冲区甚至mmap并就地修改数据。 (re.sub() and string.replace and endstring += line因为大量内存被复制。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

在 python 中加速 re.sub 的相关文章

如何查找分布式dask中任务失败的原因？

我正在开发一个分布式计算系统dask distributed 我通过以下方式提交给它的任务Executor map功能有时会失败而其他看起来相同的功能却可以成功运行该框架是否提供了诊断问题的方法 update我所说的失败是指增加 Bok
使用Python的工业视觉相机[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
OpenCV 错误：使用 COLOR_BGR2GRAY 函数时断言失败

我在使用 opencv 时遇到了一个奇怪的问题我在 jupyter 笔记本中工作时没有任何问题但在尝试运行此 Sublime 时却出现问题错误是 OpenCV错误 cvtColor中断言失败深度 CV 8U 深度 CV 16U 深度
如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
如何用spaCy获取依赖树？

我一直在尝试寻找如何使用 spaCy 获取依赖树但我找不到任何有关如何获取树的信息只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树一种解决
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
Python time.sleep - 永不醒来

我认为这将是那些简单的问题之一但它让我感到困惑停止媒体我是对的找到了解决方案查看答案我正在使用 Python 的单元测试框架来测试多线程应用程序很好而且很直接我有 5 个左右的工作线程监视一个公共队列以及一个为它们制作工作
将参数传递给 __enter__

刚刚学习 with 语句尤其是这篇文章 http effbot org zone python with statement htm 问题是我可以传递一个参数给 enter 我有这样的代码 class clippy runner def
从 Apache 运行 python 脚本的最简单方法

我花了很长时间试图弄清楚这一点我基本上正在尝试开发一个网站当用户单击特定按钮时我必须在其中执行 python 脚本在研究了 Stack Overflow 和 Google 之后我需要配置 Apache 以便能够运行 CGI 脚本
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
Melt() 函数复制数据集

我有一个这样的表 id name doggo floofer puppo pupper 1 rowa NaN NaN NaN NaN 2 ray NaN NaN NaN NaN 3 emma NaN NaN NaN pupper 4 sop
如何使用 FastAPI 在 HTMX 前端中使用 HX-Redirect？

我试图在登录后在前端重定向我像这样从我的 htmx 前端发出请求

随机推荐

如何用 R 重现这个移动分布图？

G Elliot Moris showed political polarization through time using a moving distribution plot https twitter com gelliottmor
比使用“任务/生产/消费”更好的方法将惰性集合表示为协程

使用起来非常方便Tasks表达一个惰性集合生成器 Eg function fib Task do prev prev 0 prev 1 produce prev while true cur prev prev prev produce
查找超过 1 小时的 -mtime 文件 [重复]

这个问题在这里已经有答案了我目前每 24 小时运行一次此命令 find var www html audio daystart maxdepth 1 mtime 1 type f name mp3 exec rm f 我想每 1 小时运行
Spring数据：DeleteAll和Insert在同一事务中

我正在尝试使用 hibernate Spring JPA 实现以下本机查询逻辑但是如果其中一条记录无法持久保存则 save Iterable 会引发异常并回滚整个事务有什么方法可以捕获记录错误并继续插入其他记录 eg 原生 SQL
具有不同合同但业务对象相同的两个 WCF 服务

例如我有两个托管在 IIS 中的服务 ServiceContract public interface IDeviceService OperationContract DeviceCollection GetAllDevices Cus
如何使用 Ruby 模拟类？

我正在使用 minitest mock 并想模拟一个类我并不是尝试测试模型类本身而是尝试测试服务 SomeService 与模型 SomeModel 的交互我想出了这个 Hack ClassDelegate 但我不相信这是一个好主意
从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？

我遇到了一个奇怪的问题我一直在尝试调试但运气不佳我的模型开始正确训练批次损失持续减少从最初的约 6000 到 20 个时期后的约 120 然而当我暂停训练并稍后通过从检查点恢复模型来恢复训练时批次损失似乎比前一个批次损失暂停
“Bonjour 服务无法解决。” [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案更新到后6 3每当我启动时Xcode我收到这条消息知道如何摆脱这个吗编辑为什么这个问题被搁置很多人都经历过同样的问题问题解决了
保护 Android 应用程序的安全

我已经保护了我的 Android 应用程序和提供金融交易服务的 tls 服务器之间的通信目前正在开发中安全凭证存储在 Android apk 中包含的 BKS 密钥库中密钥库的密码在应用程序源中以纯文本形式可见 keyStore
在 Flutter 中，如何更改 TextFormField 验证错误消息样式？

我想为错误消息验证设置更大的字体大小文本表单字段但我不知道怎么做为此你必须使用InputDecoration TextFormField decoration InputDecoration errorStyle TextStyle fo
无需登录的 Vimeo API AuthorizationUrl

我正在使用 Vimeo API 在 Web 应用程序上下文中获取视频我有一个简单的问题我希望 P 可以使用 oAuth 协议并通过以下链接请求应用程序授权 https vimeo com oauth authorize oauth to
绑定到 angular2 中的组件属性

我想引用 A 该组件的构造函数 B 该组件的模板中组件的属性这方面的 api 似乎发生了一些变化但我希望以下内容能够工作
如何在 Android 2.3.3 中停止垃圾收集

我有 android 应用程序 2 3 3 使用 calendarView 当按下按钮 gt 显示对话框包含calendarView 我的logcat显示 D dalvikvm 15292 GC CONCURRENT freed 1988
为什么需要在 Azure 管理门户中而不是在 Web 作业的 App.config 中配置 Web 作业的连接字符串？

我通过右键单击我的 WebApp 项目并添加新的 Azure Web 项目来创建计划的 Azure WebJob 我在 WebJob 项目的 App config 中设置了 AzureWebJobsDashboard 和 AzureWebJ
Wordpress Woocommerce 在商店页面上显示属性

我想给wordpress的商店页面添加一些属性我在 Stackoverflow 上找到的这段代码显示了所有属性标签但属性名称相同 add action woocommerce after shop loop item title add
H2数据库中的长字符串数据类型

我正在尝试创建一个H2 http www h2database com html main html数据库来管理一些文本剪辑其中一个字段将包含一个大字符串可能有数百个单词在某些情况下可能有数千个单词长理想情况下我不想在创建表时限
工厂、服务和 util 类是什么（以及它们之间的区别）？软件项目中还有更多概念吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Ansible playbook 范围内的变量

我有一本包含多个主机部分的剧本我想在此 playbook yml 文件中定义一个仅适用于该文件内的变量例如 vars my global var hello hosts db tasks shell echo my global var
姜戈。具有有限字段集的代理模型

主要时刻数据库方案不是从头开始设计的它是从遗留系统继承的目前必须保留原样因为它也与一些外部系统共享所以我们有这样的 class A models Model List of 110 fields field 1 models Ch
在 python 中加速 re.sub

我有以下 Python 代码但它在 10mb 文件上运行有点慢我想知道有什么办法可以加快速度吗也许通过一次完成 re sub 而不是两次操作但不确定如何做到这一点或者也许还有另一种方法 def ChangeMode file am

在 python 中加速 re.sub

在 python 中加速 re.sub 的相关文章

随机推荐

热门标签