比较两个字符串是否相等的超级快速方法

2024-04-11

显然，在Python中检查两个字符串是否相等你可以这样做：

"hello word" == "hello world"

但是，如果您要比较很长的字符串（超过 100 万个字符）怎么办？ python 中是否有内置方法或任何库可以更快地完成此操作；也许利用卡普-拉宾算法或类似的算法？

或者，在幕后， stringA == stringB 实际上是最快的方法吗？

(EDITED：提高综合素质）。

考虑如何str == str is 用Python实现 https://stackoverflow.com/questions/43466106/what-happens-when-you-compare-two-strings-in-python，这首先得到一个id()检查，长度检查，然后逐个元素进行。这非常快并且可以理解，因为很多 Python 代码都依赖于此。在一般情况下，不需要进一步优化，因为任意字符串很早就会有所不同。

然而，有两个用例有一些优化的空间：

你有一些部分信息how两个输入将会不同。
您在一组特定元素之间执行多重比较（请参阅@wim 评论）。

第一种情况的一个例子是：如果你知道当两个相同大小的输入不同时，它们是likely至少不同m连续的元素，然后每隔一个进行比较k元素与k < m将是一个合理的赌注，例如：

def is_k_equal(a, b, k=4096):
    if k in {0, 1}:
        return a == b
    else:
        return a[::k] == b[::k]


def is_equal_partial(a, b, partial_match=is_k_equal):
    return len(a) == len(b) and partial_match(a, b) and a == b

第二种情况的一个例子是：如果你想知道哪个p输入出q两两相等，计算哈希可能会有好处（例如使用hash()，但其他选项可能同样有效）的输入，并且仅在哈希匹配时才执行完整比较。不言而喻，如果您的哈希具有较高的冲突等级，它可能只会引入额外的开销（请参阅维基百科有关哈希的信息 https://en.wikipedia.org/wiki/List_of_hash_functions）。输入的哈希值可以手动管理，或者您可以保护您的full与 a 中的哈希比较进行比较is_equal()函数，例如：

def is_equal_hashing(a, b, hashing=hash):
    return len(a) == len(b) and hashing(a) == hashing(b) and a == b

假设你的散列函数是memoized https://en.wikipedia.org/wiki/Memoization. For hash()您不需要做任何其他事情，因为这些输入已经被记住了。如果您要使用更高级的哈希（例如 crc32、md5 等），您可能需要自己添加记忆，例如@functools.lru_cache。该用例从这种方法中获益的条件（忽略比较哈希值所需的时间，该时间通常比要考虑的其他操作快得多）是：

t_h * n_h < t_c * n_c

with t_h初始哈希计算时间，n_h的数量unique要计算的哈希值，t_c比较时间，以及n_c在输入末尾附近失败的完整比较的数量。

当对您的输入将如何执行有疑问时，通常最好measure / profile你的代码。

在对记忆函数进行计时时必须小心（例如hash()），因为，如果您对非记忆化路径的性能感兴趣，则不能像通常那样依赖同一输入的多次重复调用的计时，例如使用 IPython 的%timeit使用默认参数。相反，您可以使用%timeit -n1 -r1对于未缓存的计时。结果仅对数量级估计有用。

为了让您了解您的方法的可能成分有多快，以下是一些微基准：

import hashlib
import functools


def md5(data):
    return hashlib.md5(data).digest()


@funtools.lru_cache(maxsize=16384)
def sha1(data):
    return hashlib.sha1(data).digest()


def sha256(data):
    return hashlib.sha1(data).digest()


def sha512(data):
    return hashlib.sha1(data).digest()

import numpy as np
import numba as nb


@nb.jit(fastmath=True)
def hash_sum_nb(data, init=0):
    dtype = np.uint64
    nbytes = 8
    n = len(data)
    offset = n % nbytes
    result = init
    if offset:
        body = np.frombuffer(data[:-offset], dtype=dtype)
        tail = np.frombuffer(data[-offset:], dtype=np.uint8)
        for x in tail:
            result += x
    else:
        body = np.frombuffer(data, dtype=dtype)
    for x in body:
        result += x
    return result + n

import zlib
import string
import random


n = 1_000_000
s = b''.join(string.printable[random.randrange(len(string.printable))].encode() for _ in range(n))
funcs = hash, hash, zlib.crc32, zlib.adler32, md5, sha1, sha1, sha256, sha512, hash_sum_nb
for func in funcs:
    result = %timeit -n1 -r1 -q -o func(s)
    print(f'{func.__name__:>12s}  {result.best * 1e6:.3f} µs')
#         hash  586.401 µs
#         hash  0.853 µs
#        crc32  976.128 µs
#      adler32  468.452 µs
#          md5  1790.659 µs
#         sha1  1362.948 µs
#         sha1  1.423 µs
#       sha256  1347.432 µs
#       sha512  1321.981 µs
#  hash_sum_nb  64.768 µs


cases = {
    'worst case': (s[:-1] + b'x', s[:-1] + b'y'),
    'best case*': (s[:-1], s[:-2]),
    'best case': (b'x' + s[:-1], b'y' + s[:-1]),
}
for name, (a, b) in cases.items(): 
    result = %timeit -n1 -r1 -q -o a == b
    print(f'str == str ({name:10s})  {result.best * 1e6:.3f} µs')
# str == str (worst case)  142.466 µs
# str == str (best case*)  0.856 µs
# str == str (best case )  1.012 µs


a, b = (s[:-1] + b'x', s[:-1] + b'y')
result = %timeit -n1 -r1 -q -o is_k_equal(a, b)
print(f'{is_k_equal.__name__:>12s}  {result.best * 1e6:.3f} µs')
# is_k_equal  10.037 µs

请注意，两者hash() and sha1()在同一输入上调用两次以显示记忆的效果。

有了这些数据（或您可以在输入/系统上生成的类似数字），就有可能制作出性能更高的字符串相等性比较。请注意，我在整个答案中使用了bytes反而。的时间为str对于大多数散列来说通常会更糟，因为处理编码需要额外的开销，但值得注意的例外hash().

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

比较两个字符串是否相等的超级快速方法的相关文章

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

当前上下文中不存在名称“isPost”（带有 Razor 的 ASP.NET）

我正在尝试遵循有关 Razor 入门的 Microsoft 文档 https learn microsoft com en us aspnet web pages overview getting started introducing r
如何使用VBA在Excel中保持第一个单元格始终处于活动状态

如何在打开 Excel 工作表时保持第一个单元格始终处于活动状态任何人都可以指导我如何做到这一点这是我的代码 Private Sub Send Click Dim strURL As String strURL http xxxxxx
UIFont - 如何获取系统细字体

UIFont有方法获取常规字体 systemFontOfSize 或粗体 boldSystemFontOfSize 但是如何通过情节提要获得可用的瘦系统字体将系统精简传递给UIFont构造函数不起作用该构造函数仅适用于非系统字体
Django 开发将 HttpResponses 记录到开发服务器

我正在使用 Django 创建一个 API 每个视图都以 JSON 形式响应我想将每个 HttpResponse JSON 记录到开发服务器输出到目前为止我已经添加了一个处理程序 console level DEBUG class lo
在 Python 中列出所有 Google Drive 文件和文件夹并保存 ID

我正在尝试编写一个程序来将文件夹和所有内容包括子文件夹等复制到另一个文件夹我可能过于复杂化了但我觉得第一步是获取与它们关联的所有文件名和 ID 并将它们保存到两个列表中一个用于文件一个用于文件夹我无法让我的程序递归地遍历所有子
无法验证 AzureAD 本机客户端应用程序

我已经注册了一个 AzureAD 应用程序它是公共客户端本机客户端我在门户中使用 Azure 生成的标准代码重要的是 static App clientApp PublicClientApplicationBuilder Creat
在Java中，我们可以将一个类分成多个文件吗

是否有可能使用Java将一个类划分为多个物理文件不整个类必须位于 Java 的单个文件中如果您正在考虑 C 的部分类型功能那么 Java 中没有类似的功能如果您没有想到 C 请忽略此
带有 rpi 主站和从站的 Profibus [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我的任务是使用 Rpi 和 Rs 485 转换器构建 profibus 主站和从站网络一个 Rpi 将成为主设备另一个将成为从设备
无法加载 RSA 公钥

我正在尝试读取如下所示的 RSA 公钥但在第 6 行出现异常 java security spec InvalidKeySpecException java security InvalidKeyException IOException
将浮点数转换为整数

我试图定义 square Integer gt Integer square round 2 我得到
XDebug：Windows + Docker + PHPStorm

我的操作系统是 Windows 10 我通过 boot2docker 映像运行 Docker 我使用的IDE是PHPStorm 我想做的是使用 XDebug 进行调试但我没有让它运行我搜索了网络并尝试了我找到的示例但没有任何帮助有相
我收到来自 Retrofit Expected BEGIN_ARRAY but was STRING at line 1 column 1 path $ 的响应错误

我看了几个答案我遗漏了一些东西还有没有办法在 Retrofit 处理之前查看数据这是代码 extends Activity implements Callback
Celery 任务状态取决于 CELERY_TASK_RESULT_EXPIRES

据我所知任务状态完全取决于 CELERY TASK RESULT EXPIRES 设置的值如果我在任务完成执行后检查此间隔内的任务状态则返回的状态为 AsyncResult task id state 是正确的如果没有状态将不会更
在 C - linux 中强制使用原始串行模式

不知道如何表述标题但我想做的是用我的 Linux PC 测试我的微控制器以确保数据正确经过几个小时的搜索我发现 stty 命令可以更改通过串行端口管理数据的方式并且事实证明默认情况下如果从端口接收到 xon 或 xoff 字符
Spring集成流程的优雅关闭

我从 spring 集成监控示例中了解到https github com spring projects spring integration samples tree master intermediate monitoring http
有没有一种方法可以捕获异常而无需创建变量？

在 PHP 中我有时会使用 try catch 捕获一些异常 try catch Exception e Nothing this is a test that an exception is thrown 通过这种代码我最终得到了变量
修改存储在变量中的innerHTML不起作用

我想将页面的显示区域存储在变量中 display在代码中即innerHTMLdisplaydiv 在我的示例中但是当我这样做时我根本无法修改其内容 function stored var display document getEle
TEdit 中的 CapsLock 密码消息在视觉上因 VCL 样式而失败

使用 VCL 样式时在 TEdit 中使用密码时的 CapsLock 消息会出现错误这是没有样式的样子 VCL 样式打开该消息是葡萄牙语的但我认为这不重要在 Delphi Seattle 23 0 21418 4207 带有更新
为什么Python中'=='出现在'in'之前？ [复制]

这个问题在这里已经有答案了下面的代码输出 False 而根据 Python 操作顺序它应该输出 True 顺序应该是 gt 而不是相反为什么出现在 in 之前 y 33 3 in y True Output False 现有的答案提
比较两个字符串是否相等的超级快速方法

显然在Python中检查两个字符串是否相等你可以这样做 hello word hello world 但是如果您要比较很长的字符串超过 100 万个字符怎么办 python 中是否有内置方法或任何库可以更快地完成此操作也许利用卡普

比较两个字符串是否相等的超级快速方法

比较两个字符串是否相等的超级快速方法 的相关文章

随机推荐

热门标签

比较两个字符串是否相等的超级快速方法的相关文章