两个列表，Python 中的比较速度更快

2024-02-21

我正在编写 python (2.7) 脚本来比较两个列表。这些列表是通过读取文件内容从文件创建的。文件只是文本文件，没有二进制文件。文件 1 仅包含哈希值（某些明文单词的 MD5 和），文件 2 是 hash:plain。列表具有不同的长度（从逻辑上讲，我可以拥有比散列更少的“破解”条目），并且两者都无法排序，因为我必须保留顺序，但这是我想要实现的下一步。到目前为止，我的简单代码如下所示：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import os

def ifexists(fname):
    if not os.path.isfile(fname):
        print('[-] %s must exist' % fname)
        sys.exit(1)

if len(sys.argv) < 2:
    print('[-] please provide CRACKED and HASHES files')
    sys.exit(1)

CRACKED=sys.argv[1]
HASHES=sys.argv[2]

sk_ifexists(CRACKED)
sk_ifexists(HASHES)

with open(CRACKED) as cracked, open(HASHES) as hashes:
    hashdata=hashes.readlines()
    crackdata=cracked.readlines()
    for c in crackdata:
        for z in hashdata:
            if c.strip().split(':', 1)[0] in z:
                print('found: ', c.strip().split(':', 1))

基本上，我必须将 HASHES 列表中找到的哈希替换为 CRACKED 列表中找到的匹配行 hash:plain 。我正在迭代 CRACKED，因为它每次都会更短。所以我的问题是上面的代码对于较长的列表来说非常慢。例如，处理两个 60k 行的文本文件最多需要 15 分钟。您有什么建议可以加快速度？

将这些文件之一存储在字典或集合中；这会完成一个完整的循环，并且查找平均时间为 O(1) 常量。

例如，它看起来像crackdata文件可以轻松转换为字典：

with open(CRACKED) as crackedfile:
    cracked = dict(map(str.strip, line.split(':')) for line in crackedfile if ':' in line)

现在你只需要循环另一个文件once:

with open(HASHES) as hashes:
    for line in hashes:
        hash = line.strip()
        if hash in cracked:
            print('Found:', hash, 'which maps to', cracked[hash])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

两个列表，Python 中的比较速度更快的相关文章

如何编译Python 1.0

出于某种反常的原因我想尝试Python 1 0 我将如何编译它或者更确切地说可以使用当前编译器干净地编译的早期版本是什么我使用的是 Mac OS X 10 5 不过因为这只是出于好奇关于语言如何变化所以在 Linux 虚拟机中编
查找其他列表项中列表项的列表索引

我有一个长字符串列表我想获取与另一个列表中的字符串子字符串匹配的列表元素的索引使用列表理解可以轻松检查列表项是否包含列表中的单个字符串例如这个问题 https stackoverflow com questions 4843158 c
如何从 Django 中的 ModelForm 手动创建选择字段？

我有一个ModelForm其中字段之一名为creator is a ForeignKey 因此对于 form creator Django 渲染
Python 3 urllib 与请求性能

我正在使用 python 3 5 并且正在检查 urllib 模块与 requests 模块的性能我用 python 编写了两个客户端第一个使用 urllib 模块第二个使用 request 模块它们都生成二进制数据我将其发送到基
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
在 virtualenv 中安装 Python-Dbus

我正在虚拟环境中运行一个应用程序需要访问 DBus 主要是与网络管理器交互我尝试使用 easyinstall 和 pip 安装 Dbus Python 但都失败了当我尝试这样做时 myvirtualenv borrajax borra
重命名 TensorFlow 中保存模型的变量范围

是否可以在张量流中重命名给定模型的变量范围例如我根据教程创建了 MNIST 数字的逻辑回归模型 with tf variable scope my first scope NUM IMAGE PIXELS 784 NUM CLASS B
如何禁用Excel自动识别数字和文本

我使用 Python 生成了 CSV 文件但是当我在Excel中打开它时如果可以转换 Excel会自动将字符串识别为数字 e g 33E105变成33 10 105 这实际上是一个ID 而不是一个数字如何在打开 CSV 文件时在 Ex
如何为Python的mechanize设置超时值？

如何为Python的mechanize设置超时值亚历克斯是正确的 mechanize urlopen需要一个timeout争论因此只需插入一些浮点型秒数 http docs python org library socket html
将字符串作为有序字典导入

我有一个没有扩展名的文件其中包含这样的行忽略行之间的间距但每一行都是单独的行 OrderedDict key1 u value1 key2 value2 OrderedDict key1 u value1 key2 value2 Or
如何使用Python优化大型数据集的API调用？

客观的将地址列表发送到 API 并提取某些信息例如指示地址是否位于洪水区域的标志 Solution 适用于小数据的 Python 脚本 Problem 我想针对大输入优化当前的解决方案如何提高 API 调用的性能如果我有 100
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
如何使用python将下载的音频文件扩展名重命名为mp3

目前我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件下载所有视频后我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误我的代码基
堆和栈数据访问性能对比

众所周知的常识是对于大多数算法来说在堆栈上分配和释放数据比在堆上分配和释放数据要快得多在C 中代码的区别就像 double foo n n vs double foo new int n n 但是当访问和计算位于堆或堆栈上的数据时
pytube 在 Android 中传输视频所需的时间太长

我在用pytube在 Android 中流式传输视频借助chaquopy 视频文件 py from pytube import YouTube def video link yt YouTube f https www youtube c
在matplotlib中绘制曲线连接点

所以我试图绘制曲线来连接点这是我正在使用的代码 def hanging line point1 point2 a point2 1 point1 1 np cosh point2 0 np cosh point1 0 b point1 1
Python 中字典的 enumerate()

我知道我们用enumerate用于迭代列表但我在字典上尝试过但没有给出错误 CODE enumm 0 1 1 2 2 3 4 4 5 5 6 6 7 7 for i key in enumerate enumm print i key
导入后属性未添加到模块中

我做了以下实验室 vagrant ubuntu xenial test tree pack1 init py mod1 py pack2 init py mod2 py mod3 py test py 2 directories 6 fil

随机推荐

通过IP地址查找位置Nodejs mongodb [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试查找 IP 地址的位置 IP 地址将通过前端 Android iOS 应用程序发送到 API
pkgdown 小插图代码块间距

我在运行时遇到代码块输出问题pkgdown build site 与所有默认选项块被渲染在html内容 https mountainmath github io cancensus articles Making maps with ca
使用 IIS 10 设置 Laravel 5.4

我想在 Windows Server 2016 上运行的 IIS 10 上部署 Laravel 项目最简单且仍然安全的方法是什么我就是这样做的我不确定这是正确的方法安装 URL 重写模块 https www iis net down
设置 /p 空答案崩溃

我是新来的所以我会尽力做到最好所以我正在尝试制作一个基于文本的 MS DOS 的 RPG 而且我进展得很好因为我刚刚看到如果用户在 set p 处输入了无效的输入比如一个空答案只需按 Enter 或一个不在 IF 上的答案批处理
JDI、Java 字节代码检测和 Java 代理（JWDP、JVMTI）

我是调试器仪器和 JVMTI 领域的新手所以我对他们没什么疑问 JDI java调试器接口 JWDP javaagent和本机代理 JVMTI 有什么区别 Java Instrumentation API 在图中的位置我正在使用 JD
这三个for循环的复杂度是多少？

Having 输入数组A 1 n N的长度A 算法 for int i N i gt 0 i Loop 1 for int j 1 j
如何从 Google 云端硬盘下载文件

我目前正在尝试制作一个从 Google Drive 下载文件的应用程序在 Google Drive SDK 文档中我找到了一个应该返回 System IO Stream 对象的示例方法 https developers google c
文件名的 LEX 槽类型。 AMAZON.LITERAL 替代品

我必须用示例话语创建意图打开文件文件名显示文件名基本上我必须有一个接受文件名的插槽用户可以输入打开我的文件报告 pdf 打开文件活动1 doc 打开文件去年报告如果我可以使用 AMAZON LITERAL 类型它会完美地
从相同类型的另一个对象更新实体框架对象

是否有任何方法可以从强类型对象更新对象而不列出每个字段让我们考虑以下情况 using var context new MyDBEntities var user User Session EditedUser var oldUser co
Chrome 102：已被 CORS 策略阻止：请求的目标 IP 地址空间为“未知”，但资源位于“私有”地址空间中

我们有一个托管在 LAN 中的基于 Web 的系统非 SSL 从 Chrome 102 Windows Ubuntu 开始我们面临一个随机的 CORS 问题描述为已被 CORS 策略阻止请求具有目标 IP 地址空间为未知但资
JS addeventListener 点击消失

我创建了简单的fidlle https jsfiddle net 0nm4uLvd var cnt 1 function add var root document getElementById root root innerHTML br
无法运行从 spring-boot jersey 生成的 jar

我无法使用带有 jersey 项目的 spring boot 运行生成的 jar 文件我遇到的例外是 Error starting Tomcat context Exception org springframework beans fa
如果验证后我决定将元素移回原处，如何将 jquery-uidraggable 恢复为 true？

我正在寻找一种方法如果某些内容未验证则从恢复状态触发事件例如如果元素不存在它将从另一个列表中创建它但如果它已经存在则应该转到 else 并将元素返回到其原来的位置 catalog ul droppable tolerance
如何在 Java 中使用 Scala 单例对象？

我有一个需要在 Java 类中使用的 Scala 对象这是 Scala 对象 object Person val MALE m val FEMALE f 如何在 Java 中使用这个 Scala 对象到目前为止我已尝试以下操作但没有成
使用私有 git 存储库来阅读文档

我安装了 read the docs 以从需要用户密码身份验证的私有 git 存储库上的项目开始生成文档手动导入项目时如何输入用户名和密码以允许阅读文档克隆存储库非常感谢最大限度我最近遇到了同样的问题这里还有一个这样的问题为什
DataGrid 选项卡导航跳过列

我在 WPF 中有一个带有模板列的数据网格网格中的几列是只读的其他焦点变为可编辑而不是出现标签文本框复选框等我想要实现的是当我在网格的列中进行切换时只读列将被跳过有人知道如何实现这一目标吗谢谢弗拉丹不不工作这是完
如何实现自定义 UIDynamicBehavior 操作

我一直在寻找一个示例展示如何在 UIKit 动态中实现自定义 UIDynamicBehavior 所有教程和示例仅展示如何使用基元碰撞重力附件推动捕捉等组装 UIDynamicBehavior 在我的应用程序中一些视图在屏幕
在 Commodore 64 中绘制屏幕边框

我的好奇心已经持续了 25 年我很想了解其中的奥秘在 Commodore 64 中 6569 VIC 无法寻址边界您所能做的就是在中心区域光标移动的区域绘制像素边框总是统一的尽管你可以用 poke 53280 改变它的颜色如
在Mac OS上使用GCC为MS-DOS编译C程序（DOSBox）

我在Mac OS X上的Snow Leopard下运行GCC 4 2 1 我想用它来编译我15年前写的一些旧的C C DOS游戏以便我可以在下面运行它们DosBox http www dosbox com 为此它们显然需要编译为 DOS
两个列表，Python 中的比较速度更快

我正在编写 python 2 7 脚本来比较两个列表这些列表是通过读取文件内容从文件创建的文件只是文本文件没有二进制文件文件 1 仅包含哈希值某些明文单词的 MD5 和文件 2 是 hash plain 列表具有不同的长度从逻

两个列表，Python 中的比较速度更快

两个列表，Python 中的比较速度更快 的相关文章

随机推荐

热门标签

两个列表，Python 中的比较速度更快的相关文章