Python 的 difflib SequenceMatcher 加速

2024-03-28

我使用 difflib SequenceMatcher （ratio() 方法）来定义文本文件之间的相似性。虽然 difflib 比较一小组文本文件的速度相对较快，例如10 个 70 kb 的文件平均相互比较（46 次比较）大约需要 80 秒。

这里的问题是，我收集了 3000 个 txt 文件（平均 75 kb），对 SequenceMatcher 完成比较工作需要多少时间进行原始估计是 80 天！

我尝试了“real_quick_ratio()”和“quick_ratio()”方法，但它们不符合我们的需求。

有什么办法可以加快比较过程吗？如果没有，还有其他更快的方法来完成这样的任务吗？即使它不是用 Python 编写的。

您发现的问题很常见，因为difflib没有优化。以下是我多年来在开发比较 HTML 文档的工具时发现的一些技巧。

文件适合内存

创建两个列表，其中包含每个文件中的行。然后打电话difflib.SequenceMatcher以列表作为参数。这SequenceMatcher知道如何处理列表，并且该过程会快得多，因为它是逐行完成的，而不是逐字符完成的。这可能会降低精度。

看一眼模糊字符串cmp.py https://github.com/andresriancho/w3af/blob/43aeb4482a3701a05a0c0c594d22321b9969c6b6/w3af/core/controllers/misc/fuzzy_string_cmp.py#L86-L99 and diff.py https://github.com/andresriancho/w3af/blob/43aeb4482a3701a05a0c0c594d22321b9969c6b6/w3af/core/controllers/misc/diff.py#L67-L120看看我是如何做到这一点的。

选择

有一个很棒的图书馆叫做差异匹配补丁 https://pypi.org/project/diff-match-patch/这在 pypi 中可用。图书馆将表演fast比较两个字符串之间的差异并返回更改（添加行、等于行、删除行）。

通过利用差异匹配补丁 https://pypi.org/project/diff-match-patch/你应该能够创建自己的dmp_quick_ratio功能。

In diff.py https://github.com/andresriancho/w3af/blob/43aeb4482a3701a05a0c0c594d22321b9969c6b6/w3af/core/controllers/misc/diff.py#L30-L64您可以看到我如何使用该库来获取创作灵感dmp_quick_ratio.

我的测试表明使用差异匹配补丁 https://pypi.org/project/diff-match-patch/比 Python 快 20 倍difflib.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 的 difflib SequenceMatcher 加速的相关文章

Beautiful Soup 中 find_all 方法的返回类型是什么？

from bs4 import BeautifulSoup SoupStrainer from urllib request import urlopen import pandas as pd import numpy as np imp
用于多输入图像的 VGG16 网络

我正在尝试将 VGG16 网络用于多个输入图像使用具有 2 个输入的简单 CNN 训练该模型给了我一个 acc 大约 50 这就是为什么我想使用 VGG16 这样的既定模型进行尝试这是我尝试过的 imports from keras a
在 Tensorflow 中使用队列将数据馈送到网络时分开验证和训练图

我一直在做大量关于如何使用队列将数据正确输入网络的研究但是我在互联网上找不到任何解决方案目前我的代码能够读取训练数据并执行训练但无需验证和测试这里有一些重要的行构成了我的代码 images volumes utils inputs
如何让电脑看起来像是在打字？ [复制]

这个问题在这里已经有答案了我希望它看起来像是计算机正在尝试向用户输入信息我尝试了一些代码但是当我运行它时它只是一次打印所有内容即使我一次打印 1 个 A Random sentence for x in A time sleep
自定义 pytest junitxml 失败报告

我正在尝试内省测试失败并将附加数据包含到 junit xml 测试报告中具体来说这是对外部产品的一套功能测试我想将产品的日志包含到故障报告中使用找到的方法here https stackoverflow com questions
Python 是否有与 PHP 函数 htmlspecialchars() 等效的函数？

Python 中是否有与 PHP 函数 htmlspecialchars 类似或等效的函数到目前为止我发现的最接近的是htmlentitydefs entitydefs 我所知道的最接近的是cgi escape http docs pyt
如何根据本地目录中的requirements.txt 文件使用pip 安装软件包？

问题是这样的我有一个要求 txt文件看起来像 BeautifulSoup 3 2 0 Django 1 3 Fabric 1 2 0 Jinja2 2 5 5 PyYAML 3 09 Pygments 1 4 SQLAlchemy 0 7
为什么playsound函数无法在python中播放我的mp3文件

所以基本上我试图创建一个音乐播放程序可以在您要求时播放音乐我只是想让歌曲播放部分实际工作所以我编写了一个超级简单的代码来测试它 import playsound playsound sample mp3 This was done i
buildozer android NDK 未下载 Ubuntu

我使用的是 Ubuntu 16 04 LTS 操作系统我已经在 python2 和 python3 中安装了 buildozer android sdk 已安装但 buildozer 在下载 android NDK 时显示错误请帮我解
提升 ggplot2 性能

The ggplot2软件包无疑是我使用过的最好的绘图系统只是对于较大的数据集约 50k 点来说性能并不是很好我正在考虑通过 Shiny 提供网络分析使用ggplot2作为绘图后端但我对其性能并不满意尤其是与基础图形相比我的
如何设置 QTableView 中特定单元格的线条样式？

我正在使用 QT GUI 我正在使用 QTableView 实现一个简单的十六进制编辑控件我最初的想法是使用一个有十七列的表格表的每一行都有 16 个十六进制字节然后在第十七列中显示该数据的 ASCII 表示形式理想情况下我想编辑
计算具有不均匀间隔点的 3D 梯度

我目前有一个由几百万个不均匀间隔的粒子组成的体积每个粒子都有一个属性对于那些好奇的人来说是潜力我想计算其局部力加速度 np gradient 仅适用于均匀分布的数据我在这里查看 numpy 中的二阶梯度 https stackov
将收藏计数器变成字典

我有一个由该函数产生的集合结果 Counter df email address 它返回每个单独的电子邮件地址及其重复次数 Counter nan 1618 email protected cdn cgi l email protectio
Python 比 C++ 更快、更轻吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
即使在 virtualenv 激活后，python 也指向全局安装

有点奇怪我激活了虚拟环境python仍然指向全局安装 which python usr bin python source virtualenv bin activate virtualenv which python usr bin p
如何获得 GTK 中的默认颜色？

Context 在 GTK 3 中人们可以设置自己的主题甚至默认主题 Adwaita 也提供两种变体浅色和深色当我编写自己的小部件用Python 时我需要获取这些颜色以避免在黑色上绘制黑色或在白色上绘制白色 Question 如
如何在QTextEdit中自动滚动文本（动画效果）？

我想问一下如何让QTextEdit中的文字滚动达到动画效果动画效果应该类似于视频中所示的效果 https www youtube com watch v MyeuGdXv4XM https www youtube com watch v
在 Python 中规范化数字列表

我需要对值列表进行标准化以适应概率分布即在 0 0 和 1 0 之间我明白how标准化但很好奇 Python 是否有一个函数可以自动执行此操作我想从 raw 0 07 0 14 0 07 to normed 0 25 0 50 0
将行追加到 Pandas DataFrame 添加 0 列

我正在创建一个 Pandas DataFrame 来存储数据不幸的是我无法提前知道我将拥有的数据行数所以我的方法如下首先我声明一个空的 DataFrame df DataFrame columns col1 col2 然后我附加
根据另一个 csv 文件过滤 csv 文件中的行并将过滤后的数据保存在新文件中

大家好所以我试图根据file1过滤file2 其中file1是file2的子集但 file2 有一个描述列我需要能够分析 file1 中的数据我想做的是过滤 file2 并仅获取 file1 中的标题及其描述我尝试了这个但我不太

随机推荐

从 Visual Studio 2017 连接到适用于 Linux 的 Windows 子系统

我希望从 VS2017 调试 Linux C 控制台应用程序如以下教程所示使用适用于 Linux 的 Windows 子系统从 Visual Studio 编写和调试 Linux C 应用程序 https www hanselman c
C++ 绘图包 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个关于 c 绘图包的问题过去几年我一直在使用 python 和 matplotlib 现在我使用
条件编译和非类型模板参数

我无法理解非类型模板参数并希望有人能够阐明这一点 include
Cuda 和 OpenAI Whisper：强制使用 GPU 而不是 CPU 不起作用？

tldr 我的假设正确吗 torch cuda init device cuda and result model transcribe etc 应该足以强制使用 GPU 吗我检查了几个论坛帖子但找不到解决方案抱歉如果这很愚蠢我也
php多个if条件

当我尝试过滤所有这些参数时 php 只输入第一个 if 条件忽略所有其他条件 if t red lt 0 t red 0 else if t red gt 256 t red 255 else if t green lt 0 t red
为什么数组中的值保留在 while 循环中？ (VB.NET)

如果我在该行放置一个断点currentrow MyParser ReadFields currentrow 仍然包含从文件解析的上一行的值后currentrow MyParser ReadFields 执行时存储当前文件行值由于 cu
如何在C#中获得拉普拉斯方差

简而言之我试图使用 OpenCVSharp 作为 C 函数的一部分来计算图像的清晰度作为第一次尝试我使用了拉普拉斯滤波器如下所示 int kernel size 3 int scale 1 int delta 0 int ddept
比较器使用我的类的 String 字段进行比较？

我有一个 A 类型的对象列表我必须为 A 的一个 String 类型的字段对其进行排序 public class A public String field1 public Integer field2 如果我必须订购 int 字段我会
如何理解android绘制完视图？ [复制]

这个问题在这里已经有答案了可能的重复 Activity什么时候完成自己的绘制 https stackoverflow com questions 3171216 when has the activity finished drawing
我想计算 Watir 或 Selenium 中的页面加载时间

这是场景 1 Login to a web application with username and password and hit Enter Start timer 2 Load the login page lap timer s
Python。 argparse。删除不需要的参数

我正在解析一些命令行参数其中大多数需要传递给方法但不是全部 parser argparse ArgumentParser parser add argument d dir help Directory name type str de
Rails 中图像和 js/css 文件后的问号。为什么？

有谁知道为什么图像和css文件查看html代码时后面有问号带有数字我怎样才能将它们关闭 From Rails API 文档 http api rubyonrails com classes ActionView Helpers As
如何在 Laravel 4 中使用更新或插入？

我正在 Laravel 4 中构建一个应用程序我需要运行多个查询作为 UPDATE 或 INSERT 查询以避免重复插入时出现 PK 冲突我还没有找到任何方法来使用 Laravel 中的查询生成器来执行此操作我可以修改数据库类或类似
为什么接口不实现带有指针引用的方法，而仍然可以直接访问？

我确实理解接口没有按照 Go 规范和 FAQ 实现带有指针引用的方法因为 T 和 T 有不同的方法集 https golang org doc faq guarantee satisfies interface https golang
Elmah 对于其他 PHP

有没有一个Elmah https learn microsoft com en us aspnet web forms overview older versions getting started deploying web site p
奇怪的错误：无法渲染多边形

I use a MKMapView总共显示约 700 个注释我的问题是有时我会收到这样的巨大日志 2013 06 05 17 32 12 395 tiet 1493 1c52b Can t render polygon can t re
是否可以在解决方案中跨多个项目共享 web.config？（ASP.NET）

我有一个由 Web 应用程序和多个项目组成的解决方案是否可以在所有解决方案中共享 Web 应用程序中的配置 Thanks 我看起来是可能的你可以尝试以下操作您可以复制您的web config文件到解决方案的根文件夹然后创建解决方案文
异常 CX_SY_REF_IS_INITAL

我正在从类中设置方法调用 DATA r info TYPE REF TO zcl sv job offline ctrl CALL METHOD r info gt create EXPORTING is data lr test reco
为什么在托管模式下运行 GWT App Engine 应用程序时会出现 ClassNotPersistableException？

当我尝试对 GWT App Engine 应用程序的本地 JDO 数据存储执行查询时我随机收到 org datanucleus exceptions ClassNotPersistableException 仅当我在托管模式下运行应用程序
Python 的 difflib SequenceMatcher 加速

我使用 difflib SequenceMatcher ratio 方法来定义文本文件之间的相似性虽然 difflib 比较一小组文本文件的速度相对较快例如10 个 70 kb 的文件平均相互比较 46 次比较大约需要 80 秒这

Python 的 difflib SequenceMatcher 加速

文件适合内存

选择

Python 的 difflib SequenceMatcher 加速 的相关文章

随机推荐

热门标签

Python 的 difflib SequenceMatcher 加速的相关文章