在大型文本文件中搜索字符串 - 分析 python 中的各种方法

2024-03-13

这个问题已经被问过很多次了。花了一些时间阅读答案后，我做了一些快速分析来尝试前面提到的各种方法......

我有一个600 MB文件与600万字符串行（DMOZ 项目的类别路径）。

每行的条目都是唯一的。

我想要load文件once & 不停寻找用于数据中的匹配

下面我尝试的三种方法列出了加载文件所需的时间、搜索时间负匹配& 任务管理器中的内存使用情况

1) set :
    (i)  data   = set(f.read().splitlines())
    (ii) result = search_str in data

加载时间 ~ 10 秒，搜索时间 ~ 0.0 秒，内存使用 ~ 1.2GB

2) list :
    (i)  data   = f.read().splitlines()
    (ii) result = search_str in data

加载时间 ~ 6 秒，搜索时间 ~ 0.36 秒，内存使用 ~ 1.2GB

3) mmap :
    (i)  data   = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
    (ii) result = data.find(search_str)

加载时间 ~ 0 秒，搜索时间 ~ 5.4 秒，内存使用 ~ NA

4) Hash lookup (using code from @alienhard below):

加载时间 ~ 65 秒，搜索时间 ~ 0.0 秒，内存使用 ~ 250MB

5) File search (using code from @EOL below):   
   with open('input.txt') as f:
       print search_str in f #search_str ends with the ('\n' or '\r\n') as in the file

加载时间 ~ 0 秒，搜索时间 ~ 3.2 秒，内存使用 ~ NA

6) sqlite (with primary index on url):

加载时间 ~ 0 秒，搜索时间 ~ 0.0 秒，内存使用 ~ NA

对于我的用例，只要我有足够的可用内存，使用该套件似乎是最佳选择。我希望得到一些关于这些问题的评论：

A 更好的选择例如sqlite ？

Ways to 使用 mmap 缩短搜索时间。我有 64 位设置。 [编辑] 例如布隆过滤器

随着文件大小增长到几 GB，有什么方法可以继续使用“set”，例如分成批次..

[编辑1]我需要经常搜索、添加/删除值，并且不能单独使用哈希表，因为我需要稍后检索修改后的值。

欢迎任何意见/建议！

[编辑2]更新答案中建议的方法的结果 [编辑3]使用sqlite结果更新

Solution：根据所有分析和反馈，我想我会选择 sqlite。第二种选择是方法 4。sqlite 的一个缺点是数据库大小是带有 url 的原始 csv 文件的两倍多。这是由于 url 上的主索引造成的

如果您需要启动许多连续搜索，则变体 1 非常有用。自从set内部是一个哈希表，它非常擅长搜索。不过，构建需要时间，并且只有当您的数据适合 RAM 时才能正常工作。

变体 3 适用于非常大的文件，因为您有足够的地址空间来映射它们，并且操作系统缓存了足够的数据。您进行全面扫描；一旦你的数据无法装入 RAM，它就会变得相当慢。

如果您需要按行进行多次搜索并且无法将数据装入 RAM，那么 SQLite 绝对是一个好主意。将字符串加载到表中，构建索引，然后 SQLite 为您构建一个漂亮的 B 树。即使数据不适合，树也可以适合 RAM（这有点像 @alienhard 提议的），即使不适合，所需的 I/O 量也会大大降低。当然，您需要创建一个基于磁盘的SQLite数据库。我怀疑基于内存的 SQLite 能否显着击败变体 1。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在大型文本文件中搜索字符串 - 分析 python 中的各种方法的相关文章

如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
一起使用 Argparse 和 Json

我是 Python 初学者我想知道 Argparse 和 JSON 是否可以一起使用说我有变量p q r 我可以将它们添加到 argparse 中 parser add argument p param1 help x variabl
快速 log2(float x) 实现 C++

我需要在 C 中非常快速地实现 log2 float x 函数我发现了一个非常有趣的实现而且速度非常快 include
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
Pandas，按最大返回值进行分组 AssertionError：

熊猫有问题我想听听你的意见我有这个数据框我需要在其中获取最大值代码就在下面 df stack pd DataFrame 1 0 2016 0 NonResidential Hotel 98101 0 DOWNTOWN 47 6122
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
如何获取 Matplotlib 生成的散点图的像素坐标？

我使用 Matplotlib 生成散点图的 PNG 文件现在对于每个散点图除了 PNG 文件之外我还会also就像生成散点图中各个点的像素坐标列表一样我用来生成散点图 PNG 文件的代码基本上是这样的 from matplotli
如何将reportlab与Google应用程序引擎一起使用

我无法在谷歌应用程序引擎下正确导入reportlab 根据以下guide http blog notdot net 2010 04 Generating PDFs on App Engine Python and introducing M
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
字母尺度和随机文本上的马尔可夫链

我想使用 txt 文件中的一本书中的字母频率生成随机文本以便每个新字符 string lowercase 取决于前一个如何使用马尔可夫链来做到这一点或者使用每个字母都有条件频率的 27 个数组更简单我想使用来自的字母频率生成随机文本
使用Python重命名目录中的多个文件

我正在尝试使用以下 Python 脚本重命名目录中的多个文件 import os path Users myName Desktop directory files os listdir path i 1 for file in files
Django - 缺少 1 个必需的位置参数：'request'

我收到错误 get indiceComercioVarejista 缺少 1 个必需的位置参数要求当尝试访问 get indiceComercioVarejista 方法时我不知道这是怎么回事 views from django ht
将数组从 .npy 文件读入 Fortran 90

我使用 Python 以二维数组例如 X 的形式生成一些初始数据然后使用 Fortran 对它们进行一些计算最初当数组大小约为 10 000 x 10 000 时 np savetxt 在速度方面表现良好但是一旦我开始增加数组的维
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

npm install grunt --save-dev 中的 --save-dev 是什么意思？

我刚刚开始使用Grunt http gruntjs com 设置起来非常困难我正在创建一个package json file 按照此tutorial https web archive org web 20130918061104 htt
使用 --tag 的 Docker 构建命令无法标记图像

我尝试使用本地可用的 Dockerfile 构建 Docker 映像 docker build t newimage 我之前也多次使用过这个命令但不知何故它目前不起作用我一直在寻找它的原因如果有人可以帮助我找到可能的解决方案或可能的区
PHP 致命错误：类“OAuth”

我在网站上搜索了几个小时寻找答案但没有任何帮助我已经安装了 PHP Apache2 PECL OAuth 并编辑了 php iniextension oauth 我在输入 php example php 时收到此错误我设置了令牌以及
如何在 R 中加载多特征 geojson 文件的*部分*？

我有一个 geojson 是FeatureCollection包含 2 种地理数据类型 LineString and a waypoint 查看原始文件here https raw githubusercontent com Robinlo
尝试使用 Ajax 调用控制器方法 MVC 获取数据我的代码附

我在下拉值更改上调用 jquery 函数 jquery 方法是 function MyFunction alert DDlSurvey val ajax url Url Action GetSelectedQuestion ConductS
Android webview 无法正确渲染 html 内容

我完全不知道这是否是正确的方法但只要 webview 正在加载我就会显示启动屏幕当 webview 加载完成时我会显示 webview 但是 webview 的 HTML 内容没有正确渲染它可以在我的 Android 手机以及我拥
获得广告响应。错误代码：1

我正在设备中测试我的应用程序它在调试 logcat 中显示错误这个错误是什么以及如何解决这个问题错误是 There was a problem getting an ad response ErrorCode 1 我的xml代码是
xlsread() 认为我的 1 行 CSV 有 1048576 行

我想用 temp xlsread 1 csv A A 获取单行 CSV 文件的第一列1 csv 1 csv仅包含一行 5B0E8795E18013D0FBC33558F0512832 3 7 1 练习榨汁机榨汁机真假 2347 0
将 pandas DataFrame 制作为 dict 并 dropna

我有一些带有 NaN 的 pandas DataFrame 像这样 import pandas as pd import numpy as np raw data A 1 2 2 3 3 4 B 1 np nan 2 44 3 np nan
如何在旋转动画后在 ImageView 上设置 OnClickListener

我想在使用 addView 方法动态创建 ImageView 并在我的应用程序中旋转它们后在 ImageView 上设置 OnClickListener 但是当我在屏幕上按下 ImageView 时 onClick 方法无法正常工作如果
XPATH——由查询定义的结果顺序

我有一个像这样的 xpath 表达式 element attr a element attr b element attr c 这是一个或语句那么我是否可以创建一个表达式来保证结果按照查询中的顺序出现即使元素在文档中以不同的顺序出
Django（鼻子）测试加速，reuse_db 不起作用

我正在使用 django nose 在 django 1 4 中运行单元测试 TEST RUNNER django nose NoseTestSuiteRunner 创建数据库需要很长时间所以我发现把它放在settings py中 os
Symfony2 - 为什么超级管理员也需要投票

我注意到即使是超级管理员用户也会征求我的选民的意见它是否按预期工作如果是的话我认为SuperAdmin的哲学是他们系统地拥有所有权利这样我们就不必一一授予他们每个权限既然如此为什么不向所有选民授予访问权呢我是否总是必须把 i
加载程序集后执行的 C# 方法

我编写了一些 C 类库我想使用 Ninject 为我的类提供依赖注入类库是否可以声明一些在每次加载类库时执行的代码方法我需要它来定义 Ninject 的绑定听起来您正在寻找 C 的 DllMain 的等效项在 C 中没有办法做到
如何将多个参数作为单个向量传递给函数？

我使用六个参数创建了以下函数 nDone lt function under strike ttoe vol rf dy pnorm log under strike rf dy vol 2 2 ttoe vol ttoe 0 5 nDon
method="post" enctype="text/plain" 不兼容？

当我使用
使用yarn berry时将.yarn目录提交到git

在纱线浆果的下一个版本中manual https yarnpkg com getting started install指出应该只提交创建的名为 yarn 但是如果您对yarn使用多版本设置则该目录包含该文件releases yarn
根据ace编辑器实例中字符的长度设置宽度

我正在开发一个使用 contenteditable 属性创建自定义富文本编辑器的项目在这个富文本编辑器中我想插入单行 ace 编辑器实例其宽度将根据其中的字符数设置为了将 ace 编辑器实例限制为单行我处理了 Enter 键事件
如何使用通配符投影别名？

一旦我做了一个join A by id B by id 我得到一个带有字段的别名A f B f 有没有办法只将其投影到A fields C join A by id B by id D filter C by B n lt 1000 E f
在大型文本文件中搜索字符串 - 分析 python 中的各种方法

这个问题已经被问过很多次了花了一些时间阅读答案后我做了一些快速分析来尝试前面提到的各种方法我有一个600 MB文件与600万字符串行 DMOZ 项目的类别路径每行的条目都是唯一的我想要load文件once 不停寻找用于数据中的匹配

在大型文本文件中搜索字符串 - 分析 python 中的各种方法

在大型文本文件中搜索字符串 - 分析 python 中的各种方法 的相关文章

随机推荐

热门标签

在大型文本文件中搜索字符串 - 分析 python 中的各种方法的相关文章