读取内存映射的 bzip2 压缩文件

2024-03-12

所以我正在使用维基百科转储文件。它是一个经过 bzip 压缩的 XML 文件。我可以将所有文件写入目录，但是当我想做分析时，我必须重新读取磁盘上的所有文件。这使我可以随机访问，但速度很慢。我有 ram 将整个 bzipped 文件放入 ram 中。

我可以很好地加载转储文件并读取所有行，但我无法在其中查找，因为它太大了。从表面上看，bz2 库必须读取并捕获偏移量，然后才能将我带到那里（并将其全部解压缩，因为偏移量以解压缩字节为单位）。

不管怎样，我正在尝试 mmap 转储文件（~9.5 gigs）并将其加载到 bzip 中。我显然想之前在 bzip 文件上测试一下。

我想将 mmap 文件映射到 BZ2File，这样我就可以通过它进行查找（以获取特定的、未压缩的字节偏移量），但从看来，如果不解压缩整个 mmap 文件，这是不可能的（这将远远超过 30千兆字节）。

我有什么选择吗？

这是我编写的一些代码来测试。

import bz2
import mmap

lines = '''This is my first line
This is the second
And the third
'''

with open("bz2TestFile", "wb") as f:
    f.write(bz2.compress(lines))

with open("bz2TestFile", "rb") as f:
    mapped = mmap.mmap(f.fileno(), 0, prot=mmap.PROT_READ)

    print "Part of MMAPPED"
    # This does not work until I hit a minimum length
    # due to (I believe) the checksums in the bz2 algorithm
    #
    for x in range(len(mapped)+2):
        line = mapped[0:x]
        try:
            print x
            print bz2.decompress(line)
        except:
            pass

# I can decompress the entire mmapped file
print ":entire mmap file:"
print bz2.decompress(mapped)

# I can create a bz2File object from the file path
# Is there a way to map the mmap object to this function?
print ":BZ2 File readline:"
bzF = bz2.BZ2File("bz2TestFile")

# Seek to specific offset
bzF.seek(22)
# Read the data
print bzF.readline()

这一切都让我想知道，bz2 文件对象有什么特别之处，允许它在查找后读取一行？它是否必须读取之前的每一行才能从算法中获取校验和才能正确计算？

我找到了答案！ James Taylor 编写了几个用于在 BZ2 文件中查找的脚本，他的脚本位于 biopython 模块中。

https://bitbucket.org/james_taylor/bx-python/overview https://bitbucket.org/james_taylor/bx-python/overview

这些工作得很好，尽管它们不允许在 BZ2 文件中查找任意字节偏移量，但他的脚本读出 BZ2 数据块并允许基于块进行查找。

特别是，请参阅bx-python / wiki / IO / SeekingInBzip2Files https://bitbucket.org/james_taylor/bx-python/wiki/IO/SeekingInBzip2Files

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读取内存映射的 bzip2 压缩文件的相关文章

错误：process_executor.py:702: ... 当一些作业被分配给执行器时，工作人员停止了。这可能是由于工作超时太短造成的

根据主题中的错误修复方法是什么环境 Python 3 9 或 3 10 Windows 10 x64 使用时出现错误joblib https joblib readthedocs io en latest 对于并行处理 result c
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

Numpy 3d 数组矩阵乘法函数

假设我有一个 ndarray 形状为 m n n 的 W 和维度为 m n 的向量 C 我需要按以下方式将这两个相乘 result np empty m n for i in range m result i W i C i 如何以矢量化方
在 64 位 Windows 上向 java 进程发送 ctrl-break 在 32 位上发送 ala sendsignal

我经常使用发送信号 http www latenighthacking com projects 2003 sendSignal 用于 WebSphere Application Server 进程服务器 launchClient wsa
IIS 日志失败：Microsoft.AspNetCore.Server.Kestrel[13] JwtBearerOptions

在 IIS 中运行已发布的 API 时出现以下错误 Hosting environment Production Content root path C inetpub My API Now listening on http 127 0
从 Team Foundation Server 2005 导入到 2008

我们安装了现有的 TFS 2005 和较新的 2008 2008 服务器上已经有一些较新的项目但我希望将 2005 年的较旧项目移至此较新的服务器上有谁知道一种简单的方法来做到这一点并维护审核历史记录而不是仅仅破坏项目的源代码控制然
在 linq 中使用之前如何检查 null ？

我有一个对象列表其中包含另一个对象 List
如何检查某个值是否存在于任何给定集合中

假设我有不同的集合它们必须不同我无法根据我正在使用的数据类型加入它们 r set 1 2 3 s set 4 5 6 t set 7 8 9 检查给定变量是否存在于其中任何一个中的最佳方法是什么我在用 if myvar in r or
Python：读取文本文件的一部分

HI all 我是 python 和编程新手我需要读取大文本文件的块格式如下
响应式 CSS / 内联 div

我正在尝试使用 CSS 来放置100 width div穿过页面然后在该页面下方div 2 divs inline那是50 每个每个10px padding在所有的divs 然后随着页面变小使两个50 divs 更改为100 这是我到目
Stripe Checkout Webhook 未传递客户电子邮件？

我在测试模式下使用 Stripe 的 Checkout 我试图在 Stripe 中获取客户的 ID 以及他们在结账时提供的电子邮件来更新我的数据库我为 checkout session completed 设置了一个 webhook 如果
Grails 投影未返回所有属性且未分组

如何获取它以便我返回下面的所有投影 def c Company createCriteria def a c list params projections property id property name if a size 0 ren
Hibernate 5 java.lang.NoSuchMethodError org.jboss.logging.Logger.debugf

当我使用 hibernate 5 部署 web 应用程序时遇到问题 Caused by java lang NoSuchMethodError org jboss logging Logger debugf Ljava lang Strin
如何在C++中动态扩展数组？ {像向量一样}

可以说我有 int p p new int 5 for int i 0 i lt 5 i p i i 现在我想向数组添加第六个元素我该怎么做您必须重新分配数组并复制数据 int p p new int 5 for int i 0 i
微服务架构中的开发环境搭建[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们正致力于在微服务架构中开发网络应用程序我们考虑在 API 网关后面运行服务该网关将处理身份验证并将请求代理到适当的服务我们在
有没有更简单的方法在 Java 中签署 XML 文档？

我试图对 XML 文档进行数字签名 http www w3 org TR xmldsig core 使用Java 我有一个与一些参考文献一起使用的实现我发现它们在javax xml crypto dsig http java sun co
使用 CSS 根据图像所在 DIV 的大小调整图像大小？

下面是我正在开发的博客的图片不过我需要一些 CSS 方面的帮助在上图中您可以看到当我的头像右侧的文本正文大于图像时它会发生什么情况下图是我想要的样子我的问题是有多个作者因此右侧的正文可能会根据作者的不同而具有不同的长度我想以
如何使用核心蓝牙框架获取数据？

我正在开发一个iOS核心蓝牙应用程序我可以使用iphone4S连接蓝牙设备但我不知道如何与设备通信我想从设备读取信息我也看到这个源代码https github com sergiomtzlosa CoreBluetooth Demo
LINQ 选择列表，其中子列表包含另一个列表中的项目

我不知道如何创建这个查询如果项目 Cats 列表包含与 List2 中其中一只猫的 ID 匹配的 Cat 对象我需要选择列表 1 中的项目这可能吗谢谢 List1
如何在反应中隐藏登录和注册页面中的导航栏？

我的路线是这样的
两个字符串序列中的最长公共子串

刚刚学习了最长公共子串算法我对这个问题的一个特定变体感到好奇其描述如下给定两个非空字符串序列 X x1 x2 x3 x n 和 Y y1 y2 y3 y m 其中 x i 和 y i 是字符串求longestX 中的字符串它是al
读取内存映射的 bzip2 压缩文件

所以我正在使用维基百科转储文件它是一个经过 bzip 压缩的 XML 文件我可以将所有文件写入目录但是当我想做分析时我必须重新读取磁盘上的所有文件这使我可以随机访问但速度很慢我有 ram 将整个 bzipped 文件放入 ra

读取内存映射的 bzip2 压缩文件

读取内存映射的 bzip2 压缩文件 的相关文章

随机推荐

热门标签

读取内存映射的 bzip2 压缩文件的相关文章