str.find 怎么这么快？

2024-05-01

我之前遇到过一个问题，我在迭代字符串并使用切片时寻找子字符串。原来这是一个really关于性能的坏主意。str.find速度要快得多。但我不明白为什么？

import random
import string
import timeit

# Generate 1 MB of random string data
haystack = "".join(random.choices(string.ascii_lowercase, k=1_000_000))

def f():
    return [i for i in range(len(haystack)) if haystack[i : i + len(needle)] == needle]

def g():
    return [i for i in range(len(haystack)) if haystack.startswith(needle, i)]

def h():
    def find(start=0):
        while True:
            position = haystack.find(needle, start)
            if position < 0:
                return
            start = position + 1
            yield position
    return list(find())

number = 100
needle = "abcd"
expectation = f()
for func in "fgh":
    assert eval(func + "()") == expectation
    t = timeit.timeit(func + "()", globals=globals(), number=number)
    print(func, t)

Results:

f 26.46937609199813
g 16.11952730899793
h 0.07721933699940564

f and g很慢，因为他们检查是否needle可以在每个可能的位置找到haystack导致O(n m)复杂。f由于创建新字符串对象的切片操作（正如 Barmar 在评论中指出的那样），速度较慢。

h速度很快，因为它可以跳过许多位置。例如，如果needle未找到字符串，只有一个find被执行。内置的find函数在 C 语言中进行了高度优化，因此比解释的纯 Python 代码更快。此外，find函数使用称为的有效算法克罗什莫尔和佩兰的双向 https://en.wikipedia.org/wiki/Two-way_string-matching_algorithm。该算法比搜索快得多needle在每一个可能的位置haystack当字符串比较大时。相关的CPython代码可用here https://github.com/python/cpython/blob/f4c03484da59049eb62a9bf7777b963e2267d187/Objects/stringlib/fastsearch.h.

如果出现的次数相对较少，那么您的实施应该已经很好了。否则，最好使用基于 CPTW 算法的自定义变体KMP算法 https://en.wikipedia.org/wiki/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm但在纯 Python 中这样做效率非常低。您可以使用 C 或 Cython 来完成此操作。话虽这么说，这并不是一件微不足道的事情，也不是很好维护。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

str.find 怎么这么快？的相关文章

如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
获取两个字符串之间的公共部分c# [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要的是获取两个单词之间的共同部分并获取差异例子场景1 word1 感言 word2 Test 将返回公共部分Test 不同之
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

Linux 上的头文件在哪里？为什么我找不到？ [复制]

这个问题在这里已经有答案了可能的重复如何在Linux中实现C的getch 函数 https stackoverflow com questions 3276546 how to implement getch function of c
多列下拉菜单[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个包
iOS 由于未捕获的异常“NSUnknownKeyException”而终止应用程序

我对 Objective C 和 iOS 编程很陌生并且遇到了这个非常奇怪的错误相关应用程序使用我使用 NSObject 制作的自定义类型的一组预设值来初始化 NSMutableArray 这是由应用程序操纵的如果在应用程序运行时添加
将搜索图标添加到输入框

div div
禁用输入提交

I have a form with a textfield inside and I am trying to disable the default behavior when the browser submits the whole
防伪令牌和网络测试

我正在尝试在 VS2012 中为 MVC 网站进行 Web 测试其中一种情况是登录并浏览产品列表选择您想要的产品并进入购买页面问题是当运行网络测试时我收到有关防伪令牌的错误并且它不匹配到底如何才能用防伪令牌进行测试呢用户mu
如何通过互联网在两台计算机之间发送数据

我一整天都在为此苦苦挣扎我希望有人能帮助我我的问题相当简单我希望通过互联网将数据主要是简单的命令从一台电脑传输到另一台电脑当两台计算机都连接到我的家庭路由器时我已经能够使用 Java 中的套接字来实现这一点然后我使用两部不
使用 Cartopy 从数据中屏蔽海洋或陆地

我想从全球海面温度数据中掩盖陆地区域我正在使用 Cartopy 来绘制数据 import numpy as np import matplotlib pyplot as plt import cartopy crs as ccrs fro
带有托管 C++ dll 的加载程序锁定（regsvr32 R6033 错误）

我有一个 C dll 它实现了多个 COM 接口我正在尝试将其迁移到托管 C 我设置了 clr 编译器标志并将运行时库属性从 MT 更改为 MD 以避免这两个标志之间的冲突但这就是我所做的全部更改当它尝试在构建过程中注册 dll 时
如何防止 itext7.pdfhtml 创建的 PDF 中的文本跨页中断？

我正在使用 itext7 版本 7 1 2 和 itext7 pdfhtml 版本 2 0 2 从一些包含不得跨页面中断的元素例如图形及其随附文本的 HTML 生成 PDF 我尝试过使用显式分页符正如在我们的旧版 iTextSharp
获取 Devise 身份验证以发送电子邮件以检索密码

我正在本地主机上测试 Rails 的 Devise 身份验证并希望让它发送电子邮件以检索密码即忘记密码链接密码检索内置于 Devise 中只需正确配置它即可发送电子邮件在initializers devise rb中我把 c
我需要为我的应用程序制作和加载多大尺寸的 ImageList 图标（考虑更高的 DPI）？

我有一个CListCtrl http msdn microsoft com en us library hfshke78 aspx控制或ListView http msdn microsoft com en us library wind
React Native：由于 SoLoader 问题，应用程序在启动时崩溃

我的 Android 应用程序出现问题 iOS 运行正常每次我进行构建时当我打开应用程序时它会在开始之前关闭我已经在Github和这里尝试了很多我一直在寻找的解决方案但我还没有能够解决它安装是干净的我已经检查过没有遗漏任何东西
更改 Android 软键盘示例设计、按钮和背景图像

我正在通过修改 SDK 中的 android 软键盘示例来构建自定义键盘我想更改按钮和背景的图像但我无法弄清楚这些值的存储位置它们存储在哪里或者我如何更改图像或简单的颜色在 onClick 方法中您需要更改按钮的图像这样 pub
Qt 的 sysroot 和前缀选项的实际示例是什么

我正在查看可以运行的所有选项configureQt 提供的脚本特别是 qt everywhere opensource src 5 2 0 经过大量搜索后我确定这些东西充其量记录很少所以我希望我能得到一些帮助当我查看描述时prefi
react-native-router-flux：如何防止在选项卡之间更改时重置选项卡场景历史堆栈？

我有一个Router设置 2 个选项卡场景 Tab 1 have 2 navigable scenes static screens 屏幕A 有一个按钮可以导航到Screen B 屏幕B 只要有文字 Tab 2 just have 1 st
.Net 中的计时器和循环准确吗？

在开发一个程序时计算555定时器IC产生的脉冲的频率和脉冲宽度通过PC并行端口传到PC 我注意到每次运行代码时它都会显示不同的值因此我开始测试循环和计时器的准确性我运行了以下代码发现它们不准确我可能是错的如果我错了请纠正我
使用 KMS 的 AWS RDS 加密是否会影响性能？

Amazon states https aws amazon com about aws whats new 2015 01 06 amazon rds encryption with kms mysql postgresql that 加
Java集合：将子集合传递为父集合

假设我有一个接口和一些类 public interface IPanel
str.find 怎么这么快？

我之前遇到过一个问题我在迭代字符串并使用切片时寻找子字符串原来这是一个really关于性能的坏主意 str find速度要快得多但我不明白为什么 import random import string import timeit Ge

str.find 怎么这么快？

str.find 怎么这么快？ 的相关文章

随机推荐

热门标签

str.find 怎么这么快？的相关文章