如何在 python 中解压非常大的文件？

2023-12-25

使用 python 2.4 和内置ZipFile库，我无法读取非常大的 zip 文件（大于 1 或 2 GB），因为它想要将未压缩文件的全部内容存储在内存中。是否有另一种方法可以做到这一点（使用第三方库或其他一些黑客），或者我必须“掏出”并以这种方式解压它（显然，这不是跨平台的）。

这是大文件解压的概述。

import zipfile
import zlib
import os

src = open( doc, "rb" )
zf = zipfile.ZipFile( src )
for m in  zf.infolist():

    # Examine the header
    print m.filename, m.header_offset, m.compress_size, repr(m.extra), repr(m.comment)
    src.seek( m.header_offset )
    src.read( 30 ) # Good to use struct to unpack this.
    nm= src.read( len(m.filename) )
    if len(m.extra) > 0: ex= src.read( len(m.extra) )
    if len(m.comment) > 0: cm= src.read( len(m.comment) ) 

    # Build a decompression object
    decomp= zlib.decompressobj(-15)

    # This can be done with a loop reading blocks
    out= open( m.filename, "wb" )
    result= decomp.decompress( src.read( m.compress_size ) )
    out.write( result )
    result = decomp.flush()
    out.write( result )
    # end of the loop
    out.close()

zf.close()
src.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Compression

zip

unzip

如何在 python 中解压非常大的文件？的相关文章

如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
使用栅格包下载 SRTM 数据？

我正在尝试使用获取 SRTM 数据 raster R 中的包但一旦我选择SRTM在 getData 命令中我会收到以下错误 library raster srtm lt getData SRTM lon 16 lat 48 tryin
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
AVAssetExportSession 输出文件

AVAssetExportSession 输出文件应该是什么样子我正在尝试压缩 ALAsset 项目中的视频但它不起作用我猜输出文件与它有关这是我正在使用的代码 NSString destinationPath NSHomeDire
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
python ttk treeview：如何选择并设置焦点在一行上？

我有一个 ttk Treeview 小部件其中包含一些数据行如何设置焦点并选择突出显示指定项目 tree focus set 什么也没做 tree selection set 0 抱怨尽管小部件明显填充了超过零个项目但未找到项目
如何为多组精灵创建随机位置？

我尝试使用 blit 和 draw 方法进行 for 循环并为 PlayerSprite 和 Treegroup 使用不同的变量 for PlayerSprite in Treegroup surface blit PlayerSprit
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python While 循环，and (&) 运算符不起作用

我正在努力寻找最大公因数我写了一个糟糕的运算密集型算法它将较低的值减一使用检查它是否均匀地划分了分子和分母如果是则退出程序但是我的 while 循环没有使用 and 运算符因此一旦分子可整除它就会停止即使它不是正确
Python unicode 字符代码？

有没有办法将 Unicode 字符插入 Python 3 中的字符串例如 gt gt gt import unicode gt gt gt string This is a full block s unicode charcode U
使用循环将对象添加到列表（python）

我正在尝试使用 while 循环将对象添加到列表中基本上这就是我想做的 class x pass choice raw input pick what you want to do while choice 0 if choice 1 E
使用 lambda 函数更改属性值

我可以使用 lambda 函数循环遍历类对象列表并更改属性值对于所有对象或满足特定条件的对象吗 class Student object def init self name age self name name self age ag
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including

随机推荐

DTO、VO、POJO、JavaBean 之间的区别？

看到过一些类似的问题 JavaBean 和 POJO 有什么区别 https stackoverflow com questions 1394265 what is the difference between a javabean and
laravel 重定向到新选项卡

我需要在发布请求后打开一个新的 URL 我已经在控制器的末尾完成了此操作 Redirect away url 上面的调用工作完美但是我想在新选项卡中打开 URL 我尝试了 Laravel 文档中的方法和预期方法没有一个按预期工作 Re
如何使用 g++47 允许 -z multidefs

我如何告诉链接器g 允许符号的多个定义选择第一个出现 z multidefs 允许多个符号定义默认情况下可重定位对象 o 文件之间出现多个符号定义将导致致命错误情况该选项抑制错误条件并允许采用第一个符号定义仅当指定 b sv
Paypal REST API 自适应/多次付款（更改收款人）

我刚刚开始关注 PaypalREST api https developer paypal com webapps developer docs api 我似乎看不到的一件事是贝宝通话功能自适应支付 https www x com deve
从java程序打开浏览器获取Google授权以询问已授予的权限

为了让 java 程序访问我的 google 驱动器我需要使用 json 凭证文件创建 oauth2 Credential 请参阅https console developers google com https console deve
如何将html id添加到rails form_tag

我正在使用 Rails 2 2 2 我想将 id 添加到由 form tag 生成的 html 表单代码中目前生产
嵌套 dokey 宏

我只是想知道是否有一种方法可以从另一个 doskey 宏中调用一个 doskey 宏我尝试了以下方法但它不起作用 gt doskey cleanpix PATH cleanpix bat gt doskey cp cleanpix 我究
NativeBase 选项卡强制 RTL 问题 - 修复

当我执行forceRtl 时我遇到了本机基本选项卡的问题一切正常但只有本机基础在初始加载时不显示任何内容所以我有一个临时解决方案在native base src basic Tabs index js中 import I18nMa
SSAS 分区切片表达式

我按最近 13 个月对多维数据集进行分区然后使用旧分区来保存较早的月份我已经成功创建了动态分区但现在我需要为每个分区添加一个动态切片我想我可以在分区切片表达式中使用它 Dim Date Month CStr Month Now la
Java 中的 var 关键字

对于Java 10或我们可以使用var关键字进行声明在初始化时编译器将推断类型当我实例化类并将其分配给声明的变量时会发生什么var 是接口的实现吗将推断哪种类型接口还是实现我的2美分来纠正问题和答案 The var is 不是
Leetcode 入室抢劫犯

我正在尝试入室抢劫者 https leetcode com problems house robber leetcode 上的问题 dp 问题来自一位 GTX 用户的解决方案看起来简单而优雅 int rob vector
以客户身份通过 iOS 应用程序登录 BigCommerce API

我正在为 BigCommerce com 上的商店开发 iOS 应用程序我已成功从 BigCommerce API 检索产品列表并且还使用该列表创建了一个新用户创建用户 https developer bigcommerce com
Flutter：自动路由：RouteGuard 在 AutoTabsScaffold 中不起作用

我正在尝试为我的 AutoTabsScaffold bottom nav 添加身份验证防护但它不起作用它可以在其他导航页面中工作但不仅仅在我的登陆页面内其中 AutoTabsScaffold 底部导航位于我在这里遗漏了什么吗 us
Apache mod_rewrite 域到子域？

我有这个地址http www example com http www example com并有这个页面http www example com world http www example com world 我可以用 mod rewr
android：什么时候使用onStart()、onStop()？

我读过几篇描述两者之间区别的帖子onStart and onResume onStart 当活动变得可见时调用 onResume 当活动准备好与用户交互时调用美好的我总是只是添加代码onPause and onResume 并且从不关心
htaccess子域

如何使用 htaccess 做到这一点 subdomain domain com gt domain com subdomain no redirect on client side domain com subdomain gt subd
jqGrid 在第一次加载时排序

我的网格有以下代码我使用与数据源位于同一目录中的 XML 文件 var handsetGrid products jqGrid url catalog xml datatype xml colNames SKU Name Brand De
操作错误：没有这样的表

所以我正在开发我的应用程序并向我的模型添加了一个 slugfield 然后像往常一样继续makemigrations 并且出现了巨大的红色错误墙 Traceback most recent call last File C Users A
在开始编码之前如何规划我的基于网络的项目？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我和我的朋友开始作为合作伙伴一起工作我们决定制作一个又一个的 Kick as 网站我们写下了大约 100 个想法是的我们首先在
如何在 python 中解压非常大的文件？

使用 python 2 4 和内置ZipFile库我无法读取非常大的 zip 文件大于 1 或 2 GB 因为它想要将未压缩文件的全部内容存储在内存中是否有另一种方法可以做到这一点使用第三方库或其他一些黑客或者我必须掏出并以这

如何在 python 中解压非常大的文件？

如何在 python 中解压非常大的文件？ 的相关文章

随机推荐

热门标签

如何在 python 中解压非常大的文件？的相关文章