如何使用包含额外数据的 Gzip 文件？

2024-04-02

我正在编写一个脚本，它将以 gzip 流的形式处理来自仪器的数据。在大约 90% 的情况下，gzip模块工作完美，但某些流导致它产生IOError: Not a gzipped file。如果 gzip 标头被删除并且 deflate 流直接馈送到zlib，我反而得到Error -3 while decompressing data: incorrect header check。经过大约半天的头撞墙后，我发现有问题的流末尾附加了看似随机数量的额外字节（不是 gzip 数据的一部分）。

让我感到奇怪的是，Python 无法使用这些文件有两个原因：

Gzip 和 7zip 都可以毫无问题地打开这些“填充”文件。（Gzip 产生消息decompression OK, trailing garbage ignored，7zip 默默地成功了。）
Gzip 和 Python 文档似乎都表明这应该有效：（强调我的）

Gzip的格式.txt http://www.gzip.org/format.txt:

一定可以使用任何压缩方法检测压缩数据的结尾，无论压缩数据的实际大小如何。尤其，解压缩器必须能够检测并跳过附加的额外数据到有效的压缩文件在面向记录的文件系统上，或者当压缩数据只能从设备中读取一定的块大小。

Python 的 gzip.GzipFile` http://docs.python.org/library/gzip.html#gzip.GzipFile:

呼叫一个GzipFile对象的close()方法没有关闭fileobj, 因为您可能希望在压缩数据后附加更多材料。这也允许您通过StringIO打开对象以写入为fileobj，并使用检索结果内存缓冲区StringIO对象的getvalue() method.

蟒蛇的zlib.Decompress.unused_data http://docs.python.org/library/zlib.html#zlib.Decompress.unused_data:

包含压缩数据末尾之后的任何字节的字符串。也就是说，这仍然是""直到包含压缩数据的最后一个字节可用。如果整个字符串包含压缩数据，则这是""，空字符串。

确定压缩数据字符串结束位置的唯一方法是实际解压缩它。这意味着当压缩数据包含在较大文件的一部分时，您只能通过以下方式找到它的结尾读取数据并将其后跟一些非空字符串输入解压对象的decompress()方法直到unused_data属性不再是空字符串。

这是我尝试过的四种方法。（这些示例是 Python 3.1，但我测试了 2.5 和 2.7，也遇到了同样的问题。）

# approach 1 - gzip.open
with gzip.open(filename) as datafile:
    data = datafile.read()

# approach 2 - gzip.GzipFile
with open(filename, "rb") as gzipfile:
    with gzip.GzipFile(fileobj=gzipfile) as datafile:
        data = datafile.read()

# approach 3 - zlib.decompress
with open(filename, "rb") as gzipfile:
    data = zlib.decompress(gzipfile.read()[10:])

# approach 4 - zlib.decompressobj
with open(filename, "rb") as gzipfile:
    decompressor = zlib.decompressobj()
    data = decompressor.decompress(gzipfile.read()[10:])

难道我做错了什么？

UPDATE

好吧，虽然问题是gzip似乎是模块中的错误，我的zlib问题都是自己造成的。 ;-)

在深入挖掘的同时gzip.py我意识到我做错了什么——默认情况下，zlib.decompress等人。期望 zlib 包装的流，而不是裸露的 deflate 流。通过传递负值wbits，你可以告诉zlib跳过 zlib 标头并解压缩原始流。这两者都有效：

# approach 5 - zlib.decompress with negative wbits
with open(filename, "rb") as gzipfile:
    data = zlib.decompress(gzipfile.read()[10:], -zlib.MAX_WBITS)

# approach 6 - zlib.decompressobj with negative wbits
with open(filename, "rb") as gzipfile:
    decompressor = zlib.decompressobj(-zlib.MAX_WBITS)
    data = decompressor.decompress(gzipfile.read()[10:])

这是一个错误。 Python 中的 gzip 模块的质量远远低于 Python 标准库应要求的质量。

这里的问题是 gzip 模块假设该文件是 gzip 格式文件的流。在压缩数据的末尾，它从头开始，期待一个新的 gzip header；如果找不到，则会引发异常。这是错误的。

当然，它is有效连接两个 gzip 文件，例如：

echo testing > test.txt
gzip test.txt
cat test.txt.gz test.txt.gz > test2.txt.gz
zcat test2.txt.gz
# testing
# testing

gzip 模块的错误是，如果第二次没有 gzip 标头，它不应该引发异常；它应该简单地结束文件。它应该only如果第一次没有标题，则引发异常。

如果不直接修改 gzip 模块，就没有干净的解决方法；如果你想这样做，请查看底部_read方法。它应该设置另一个标志，例如。reading_second_block，告诉_read_gzip_header募集EOFError代替IOError.

该模块还存在其他错误。例如，它进行不必要的查找，导致它在不可查找的流（例如网络套接字）上失败。这让我对这个模块信心不足：如果开发人员不知道 gzip 需要在没有搜索的情况下运行，那么他就根本没有资格为 Python 标准库实现它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

gzip

如何使用包含额外数据的 Gzip 文件？的相关文章

Mac OS 上的诗歌安装失败，显示“should_use_symlinks”

我正在尝试使用以下命令安装诗歌 curl sSL https install python poetry org python3 但它失败了但有以下例外例外此版本的 python 无法在不使用符号链接的情况下创建 venvs 下面是详
使用 matplotlib 从“列表列表”绘制 3D 曲面

我已经搜索了一些虽然我可以找到许多有用的网格网格示例但没有一个清楚地表明我如何将列表列表中的数据转换为可接受的形式以适应我所讨论的各种方式当谈到 numpy matplotlib 以及我所看到的建议的术语和步骤顺序时我有点迷失我
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
使用 pygame 显示 unicode 符号

我检查了其他答案但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
在 Windows 上使用 apache mod_wsgi 运行 Flask 应用程序时导入冲突

我允许您询问我在 Windows 上使用您的 mod wsgi portage 托管 Flask 应用程序时遇到的问题我有两个烧瓶应用程序由于导入冲突只有一个可以同时存在 IE 如果请求申请 1 我有回复然后如果我请求应用程序 2
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ？

我正在尝试计算玩家每周玩游戏的次数如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练

随机推荐

如何在 OpenCV 中为 InRange 阈值选择最佳 HSV 值

我有两个相关问题我正在 OpenCV 中使用以下命令进行颜色对象检测inRange阈值函数如果我手动选择 HSV 下限和上限我会得到出色的结果但这对照明条件非常敏感是否有一种算法可以根据目标和背景的 HSV 值确定最佳阈值范围例
如何在python中将不带引号的字符串转换为字典

我必须将不带引号的字符串转换为字典 device 0 name GeForce GTX 1080 8GB pci bus id 0000 01 00 0 设备名称和 pci 总线 id 必须是键 0 GeForce GTX 1080 8
无论枚举大小写如何，如何获取 swift 枚举的关联值

我有一个 FormField 对象它有两个属性 Stringname and a value它可以接受任何类型因此我做到了Any 然而有人告诉我一个单独的问题 https stackoverflow com questions 258
删除两个括号之间的所有文本

假设我有一些这样的文字 text lt c McCain We need tax policies that respect the wage earners and job creators Obama It s harder to sa
防止无限回调循环使用带有“dcc.Interval”和“dcc.Location”（即多页面应用程序）组件的 Gunicorn 部署 Dash 应用程序

我正在使用 Dash 2 0 并且我有interval py inside apps folder import numpy as np import dash import pandas as pd import plotly expre
编译错误：无法对表达式的结果使用 isset()

我在从 SF2 0 x 迁移到 SF2 7 的应用程序中遇到此错误 1 Symfony Component Debug Exception FatalErrorException Compile Error Cannot use isset
Android Tabview 布局与 Admob

我有一个 android XML 我试图让广告显示在选项卡视图的底部但它们没有显示我认为我只是错过了一些非常简单的东西但我已经关注这个问题太久了我希望有人可以帮助我这是 XML
将类型推到元组的末尾，并可选择跳过

I ve 发现 a 58547161 4928642如何将类型推到元组的末尾 type Cons
加快 ClickOnce 应用程序启动速度的方法

我有 Visual Studio 2005 C http en wikipedia org wiki C Sharp 28programming language 29ClickOnce 应用程序从以下位置获取其所有数据网络服务 https
有没有办法让 VSCode 显示 .d.ts 文件中未解析类型的错误？

我喜欢在 VSCode 中使用 TypeScript 并看到所有错误自动弹出并带有红色下划线我什至设置了 typescript tsserver experimental enableProjectDiagnostics true这样我就
在 WPF 工具包的 DataGrid 中跨多行记录

是否可以设置 WPF Toolkit 的 DataGrid 样式以便数据记录可以跨越多行屏幕截图示例 http www syncfusion com products user interface edition windows for
将电子表格连接到网络数据库的最佳方法[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在使用基于网络的数据库我需要为其前端添加电子表格功能我想我可以使用 Google 文档电子表格他们的 Google App Scrip
Istio 入口网关：404 NRroute_not_found

我想配置一个 Istio 入口网关它根据 HTTP 路径的前缀将流量路由到不同的服务例如 HTTP 流量路径我的服务应路由至服务我的服务到目前为止我已经创建了以下 YAML 配置 apiVersion apps v1 kind D
非虚拟析构函数的未定义行为 - 这是现实世界的问题吗？

考虑以下代码 class A public A A class B public A B B A b new B delete b undefined behaviour 我的理解是 C 标准说删除 b 是未定义的行为即 anything
优化 BaseX 中缓慢的 XQuery 查询

我有一个 BaseX XML 数据库只有一个小的 XML 文件这些文件基本上由两种结构组成一是PlatformCategory有 46 个实例另一个PlatformGenericType有 213 个实例 PlatformGener
UICollectionView 单元格阴影

我正在尝试为我的自定义添加阴影UICollectionViewCell 这是我在自定义集合视图单元格类中使用的代码 self layer shadowOffset CGSizeMake 1 0 self layer shadowColor
单击节点时打开分支？

我被困住了jsTree http www jstree com 这里到目前为止它有效我可以使用图标浏览和展开节点并在单击节点时打开页面但我仍然希望它在有人单击节点时展开所有直接节点我环视了至少两个小时但什么也没找到官方网站
如何更改Material UI表格中排序图标的样式？

我想让材质表中的排序图标即使在隐藏时也稍微可见目前当未选择不可见时图标的不透明度为 0 但我想将其更改为 0 4 以便它们稍微可见并且选择后不透明度将为 1 以便它们完全可见由于图标是 tableHead 的一部分并且我无权
从项目资源加载 json 时，json.net 反序列化抛出异常

这是产生问题的反序列化 public MyType ProblematicDeserialization jsonString return Newtonsoft Json JsonConvert DeserializeObject
如何使用包含额外数据的 Gzip 文件？

我正在编写一个脚本它将以 gzip 流的形式处理来自仪器的数据在大约 90 的情况下 gzip模块工作完美但某些流导致它产生IOError Not a gzipped file 如果 gzip 标头被删除并且 deflate 流直接馈

如何使用包含额外数据的 Gzip 文件？

如何使用包含额外数据的 Gzip 文件？ 的相关文章

随机推荐

热门标签

如何使用包含额外数据的 Gzip 文件？的相关文章