gzip.open().read() 的大小参数

2024-04-19

当与gzipPython 中的库，我经常遇到使用.read()函数的模式如下所示：

with gzip.open(filename) as bytestream:
    bytestream.read(16) 
    buf = bytestream.read(
        IMAGE_SIZE * IMAGE_SIZE * num_images * NUM_CHANNELS
    )
    data = np.frombuffer(buf, dtype=np.uint8).astype(np.float32)

虽然我熟悉上下文管理器模式，但我很难真正理解上下文管理器中的第一行代码是什么with上下文管理器正在做的事情。

这是该文档的文档read()功能：

从流中最多读取 n 个字符。

从底层缓冲区读取，直到有 n 个字符或到达 EOF。如果 n 为负数或被省略，则读取直到 EOF。

如果是这样的话，第一行的功能作用bytestream.read(16)必须读取并跳过前 16 个字符，大概是因为它们充当元数据或标题。但是，当我有一些图像时，我怎么知道使用16作为论证read打电话，而不是说 32 或 8 或 64？

我记得很多时候遇到与上面完全相同的代码，除了让作者使用bytestream.read(8)代替bytestream.read(16)或者同样可能是任何其他值。逐个字符地研究文件显示没有可辨别的模式来确定标题字符的长度。

换句话说，一个人如何确定要使用的参数read函数调用？或者如何知道 gzip 压缩文件中标头字符的长度？

我的猜测是它与字节有关，但在搜索文档和在线参考资料后我无法确认这一点。

可重复的细节

经过无数个小时的故障排除后，我的假设是前 16 个字符代表某种标头或元数据。所以该代码中的第一行是跳过 16 个字符并将剩余的存储在名为的变量中buf。然而，在深入研究数据后，我发现无法确定为什么或如何选择值 16。我已经逐个字符地读取了字节，并且还尝试将它们读取+转换为np.float，但没有明显的模式表明元数据在第 16 个字符结束，而实际数据从第 17 个字符开始。

下面的代码读取数据这个网站 http://yann.lecun.com/exdb/mnist/并提取前 30 个字符。请注意，标题行“结束”的位置（显然是在第二次出现 \x1c` 之后的第 16 行）和数据开始的位置是难以辨别的：

import gzip
import numpy as np

train_data_filename = 'data_input/train-images-idx3-ubyte.gz'
IMAGE_SIZE = 28
NUM_CHANNELS = 1

def extract_data(filename, num_images):
    with gzip.open(filename) as bytestream:
        first30 = bytestream.read(30)
        return first30

first30= extract_data(train_data_filename, 10)
print(first30)
# returns: b'\x00\x00\x08\x03\x00\x00\xea`\x00\x00\x00\x1c\x00\x00\x00\x1c\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'

如果我们修改代码将它们转换为np.float32，这样所有字符现在都是数字（浮点），同样没有明显的模式来区分标题/元数据结束的位置和数据开始的位置。

任何参考或建议将不胜感激！

从 gzip 的角度来看，它返回给您的所有内容都是数据。那里is该数据流前面没有元数据或 gzip 特定的标头内容，因此不需要任何类型的算法来计算 gzip 在该流前面的内容量：它前面的字节数为零。

向下滚动到您链接的页面底部；有一个标题为MNIST 数据库的文件格式.

该格式规范准确地告诉您格式是什么，以及每个标头使用了多少字节。具体来说，每个文件的前四项描述如下：

0000     32 bit integer  0x00000803(2051) magic number 
0004     32 bit integer  60000            number of images 
0008     32 bit integer  28               number of rows 
0012     32 bit integer  28               number of columns

因此，如果您想跳过所有这四个项目，则需要从顶部删除 16 个字节。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

gzip

gzip.open().read() 的大小参数的相关文章

Python Numpy TypeError：输入类型不支持 ufunc 'isfinite'

这是我的代码 def topK dataMat sensitivity meanVals np mean dataMat axis 0 meanRemoved dataMat meanVals covMat np cov meanRemov
为什么我在 Python 中收到“连接被拒绝”错误？（插座）

我是套接字新手请原谅我完全缺乏理解我有一个服务器脚本 server py usr bin python import socket import the socket module s socket socket Create a so
使用Python mysql.connector远程连接MySQL

以下代码在同一 LAN 内与 mysql 服务器不同的机器上运行使用 Python3 和 mysql connector 本地连接到 MySQL 数据库 import mysql connector cnx mysql connecto
多级QTreeView

我很难理解如何使用 QTreeView 和 QStandardItemModel 设置多级 QTree 这是我所拥有的 from PySide QtGui import import sys class MainFrame QWidget
在用户提交的正则表达式中查找捕获组

我有一个 python 应用程序需要处理用户提交的正则表达式出于性能考虑我想禁止捕获组和反向引用我的想法是使用另一个正则表达式来验证用户提交的正则表达式不包含任何命名或未命名的组捕获如下所示 def validate user r
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
使用 pymongo 查询空字段

我想使用 python 查询 mongo 中的空字段但是它很难处理单词 null 或 false 它要么给我错误它们在 python 中未定义要么在 mongo 中搜索字符串 null 和 false 这两种情况我都不希望发生 col
结束一天（日期时间）的最优雅的方式是什么？

我目前正在编写一些报告代码允许用户选择指定日期范围它的工作方式简化是用户可选指定年份用户可选指定月份用户可选指定一天这是一个代码片段以及描述我想要的内容的注释like to do from datetime i
为什么删除 DataFrame 的列或部分会增加内存使用量，以及如何确保对未使用的 DataFrame 切片进行垃圾回收

处理大型 DataFrame 时您需要小心内存使用情况例如您可能想要分块下载大数据处理这些块然后从内存中删除所有不必要的部分我找不到任何有关处理垃圾收集的最佳程序的资源pandas 但我尝试了以下方法并得到了令人惊讶的结果 im
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
传递宏作为参数 jinja dbt

Today date milliseconds 是我在项目中的宏如何将此宏重定向为参数以便默认情况下我可以在 yml 中编写另一个宏 test valid date model column name exclude condition
如何在Python中设置像素的alpha值

我正在尝试编辑image https drive google com file d 0B8JcwRV HVk0OURrcTFJczhmV2RlUGdMOG0ybldYUVRoamtF view usp sharing以一种将所有白色像素转
为什么这个记忆器适用于递归函数？

我不明白为什么下面的代码是这样的fib以线性而非指数时间运行 def memoize obj Memoization decorator from PythonDecoratorLibrary Ignores kwargs cache ob
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
尝试输入字符串时出现名称错误[重复]

这个问题在这里已经有答案了 import pickle import os import time class Person def init self number address self number number self addr
帮助我在 Python 中实现反向传播

EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
如何加速Python循环

我查看了几个网站上的一些讨论但没有一个给我解决方案这段代码运行时间超过5秒 for i in xrange 100000000 pass 我正在研究整数优化问题我必须使用O n log n 算法编辑 O n 4 算法其中n代表矩阵的
launchd执行python脚本，但导入失败

我使用 appscript 编写了一个 python 脚本来跟踪我当前活动的窗口我通过 launchd 运行它但是当我这样做时它无法导入 appscript 我已经在 launchd 的 plist 中设置了 PYTHONPATH 但
jupyter run magic 将参数传递给笔记本

当您在第一个 jupyter 笔记本 first ipynb 中时您可以执行第二个但如何传递参数呢假设第二个有以下内容 xx 10 您可以从第一个调用第二个如下所示 run second ipynb xx will print 10
在大型文本文件中查找重复记录

我在一台 Linux 机器 Redhat 上并且有一个 11GB 的文本文件文本文件中的每一行包含单个记录的数据并且该行的前 n 个字符包含该记录的唯一标识符该文件包含略多于 2700 万条记录我需要验证文件中不存在具有相同唯一标

随机推荐

如何将 ReactJS 与 Spring Boot 集成

我想整合ReactJS with 弹簧启动 and maven但我不知道怎么做我可以使用 npm 来安装它但我不知道将在哪个路径中执行此操作 npm init npm install save react react dom See 前
如何在 logback 自动加载 logback.xml 之前定义 logback 变量/属性？

我的公司有一个环境管理工具使您能够使用 Java 以编程方式从环境中查找属性我想利用这个工具来配置 logback 例如假设我有一个 logback xml 如下特别是文件附加器部分
如何在spec2中使用mockito定义自定义参数匹配器？

我想验证业务逻辑是否通过预期user反对 dao 但我不知道如何为其编写自定义参数匹配器 user should be saved in val dao new UserDao dao save any User returns mock
在 Mule 中测试子流程

我已经开始为我的 Mule 项目编写测试用例我为我的主流程编写了功能测试用例如下所示 public void testMainFlow 1 throws Exception MuleClient client muleContext g
如何使postMessage适用于所有子域

In window postMessage第二个属性指定我的消息可以发送到的域有没有办法指定它适用于所有子域尝试过的事情 iframe contentWindow postMessage The message to send http
使用 [NotNull] 作为方法的参数

考虑这段代码 https github com aspnet Mvc blob master src Microsoft AspNet Mvc Core Builder MvcApplicationBuilderExtensions cs
错误：未捕获（承诺中）：TypeError：无法将属性“isAdmin”设置为 null

firebase auth onAuthStateChanged user gt if user this isLoggedIn true Set user loggedIn is true this isAdmin false fireb
Java 编译错误：类版本不受支持

我最近在 Eclipse 中完成了一个项目它运行没有问题然后最近我导入了一项新作业要在课堂上完成但是当我完成旧项目时其图标上突然出现一个 x 我查看了代码没有任何改变但它在控制台中抛出了这个错误 java lang Unsupp
JS 函数构造函数每次都要重新解析？

在 MDN 中关于功能及功能范围 https developer mozilla org en US docs Web JavaScript Reference Functions and function scope Function
Windows 10 内的 Ubuntu 中的 tkinter。错误：“没有显示名称，也没有 $DISPLAY 环境变量”

我最近安装了适用于 Windows 10 的 Ubuntu 应用程序以便我可以在课堂上使用它我正在遵循一些神秘的作业指示来尝试 tkinter 我按照位于 Ubuntu 终端窗口中的说明安装了包 python3 tk这里如何在 ub
上传 Zip 文件并解压

我有一个表单 HTML 它将文件提交到 PHP 脚本该脚本将文件重命名为 ZIP 将其存储在文件夹随机名称中然后提取该文件文件已上传该文件夹已正确创建文件被正确重命名 zip 提取失败这是我的表格
导入错误：无法导入名称 defaultdict

我觉得这真的很奇怪ImportError跑步时from collections import defaultdict ImportError cannot import name defaultdict 我正在运行 python 2 7 奇
如何在 Mac OS X 上为 Java 应用程序启用视网膜模式

我想画完整的OSX 视网膜 http www apple com iphone features retina display html从 IDE 调试期间 Java Swing 应用程序中的解决方案我怎样才能做到这一点当我从 IDE
直接将托管标识与 Azure B2C 或 KeyVault 结合使用

Goal 在调用 Graph API 时防止使用客户端 ID 和密钥以下任一情况可能吗在使用 Azure B2C 进行身份验证的应用程序中使用 Azure 托管标识已被授予 Microsoft Graph API 权限从而避免使用客
从流中收集连续的对

给定一个流例如 0 1 2 3 4 我怎样才能最优雅地将它转换成给定的形式 new Pair 0 1 new Pair 1 2 new Pair 2 3 new Pair 3 4 当然假设我已经定义了类 Pair Edit 严格来说这
如何在导航栏 jqgrid 上添加第二个自定义删除按钮？

我已经在使用默认删除按钮进行自定义操作在服务器端它在删除之前复制行我想知道如何创建第二个删除按钮将删除操作发送到不同的 url 以便在数据库的表上删除我不想更改当前服务器端代码上的任何内容只想为从此按钮发送的删除操作创建新代码我
移动 Rigidbody 游戏对象的正确方法

我刚刚开始学习Unity 我尝试使用此脚本进行简单的盒子移动前提是每当有人按下 w 时盒子就会向前移动 public class PlayerMover MonoBehaviour public float speed private
单场淘汰赛 - 可能的组合数量

单场淘汰赛中 8 人参加的组合有多少种比赛总数为 7 场但我还需要这组比赛的组合数量如果玩家在树中的哪个位置开始并不重要而只关心他她与哪些对手战斗以及他她能坚持多久我们可以说左边的玩家总是获胜然后只需计算创建的方法数量最下面
AzureSearch-从数据源检测索引架构时出错

我通过 REST API 在 Azure 搜索上创建了一个数据源我使用 API 而不是门户因为我有一个尚未在门户上处理的 rowversion 数据类型我可以在门户上查看数据源当我尝试将数据源导入索引时出现以下错误从数据源检测索
gzip.open().read() 的大小参数

当与gzipPython 中的库我经常遇到使用 read 函数的模式如下所示 with gzip open filename as bytestream bytestream read 16 buf bytestream read IMA

gzip.open().read() 的大小参数

可重复的细节

gzip.open().read() 的大小参数 的相关文章

随机推荐

热门标签

gzip.open().read() 的大小参数的相关文章