下载并解压内存中的 gzip 文件？

2024-03-25

我想使用 urllib 下载文件并在保存之前将文件解压缩到内存中。

这就是我现在所拥有的：

response = urllib2.urlopen(baseURL + filename)
compressedFile = StringIO.StringIO()
compressedFile.write(response.read())
decompressedFile = gzip.GzipFile(fileobj=compressedFile, mode='rb')
outfile = open(outFilePath, 'w')
outfile.write(decompressedFile.read())

这最终会写入空文件。我怎样才能实现我所追求的目标？

更新答案：

#! /usr/bin/env python2
import urllib2
import StringIO
import gzip

baseURL = "https://www.kernel.org/pub/linux/docs/man-pages/"        
# check filename: it may change over time, due to new updates
filename = "man-pages-5.00.tar.gz" 
outFilePath = filename[:-3]

response = urllib2.urlopen(baseURL + filename)
compressedFile = StringIO.StringIO(response.read())
decompressedFile = gzip.GzipFile(fileobj=compressedFile)

with open(outFilePath, 'w') as outfile:
    outfile.write(decompressedFile.read())

你需要寻找开始compressedFile在写入之后但在将其传递给之前gzip.GzipFile()。否则将从末尾读取gzip模块并将显示为一个空文件。见下文：

#! /usr/bin/env python
import urllib2
import StringIO
import gzip

baseURL = "https://www.kernel.org/pub/linux/docs/man-pages/"
filename = "man-pages-3.34.tar.gz"
outFilePath = "man-pages-3.34.tar"

response = urllib2.urlopen(baseURL + filename)
compressedFile = StringIO.StringIO()
compressedFile.write(response.read())
#
# Set the file's current position to the beginning
# of the file so that gzip.GzipFile can read
# its contents from the top.
#
compressedFile.seek(0)

decompressedFile = gzip.GzipFile(fileobj=compressedFile, mode='rb')

with open(outFilePath, 'w') as outfile:
    outfile.write(decompressedFile.read())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

file

gzip

urllib2

StringIO

下载并解压内存中的 gzip 文件？的相关文章

将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
Python gdal 未定义符号 GDALRasterBandGetVirtualMem

我正在尝试使用Python GDAL 绑定 https pypi python org pypi GDAL 通过 pip 天真地安装绑定时安装失败并显示错误 VSIFTruncateL 未在此范围内声明 https gis stackex
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
pybind11：如何将 c++ 和 python 代码打包到一个包中？

我正在尝试使用 CMake 和 pybind 11 将现有的 Python 代码和新的 C 11 代码打包在一起我认为我缺少一些可以添加到 CMake 脚本中的简单内容但在任何地方都找不到它 pybind11 示例只有 C 代码和没有P
Tkinter：通过多处理启动进程会创建不需要的新窗口

我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因模拟应在单独的进程中从 GUI 启动为了玩一下我定义了一个函数 random process 来生成成对的 randn 数字这应该是一个真正的模拟过程
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df

随机推荐

目标没有战术支持

我有一些代码我想在一些策略的帮助下检查它们因为我有很多if then else声明我要申请elim term ite tactic 我使用了以下策略 check sat using then simplify arith lhs tr
使用基本 R 进行分组和堆叠条形图

我想创建一个组合条形图其中 data1 和 data2 内堆叠而 data1 和 data2 之间分组在基本 R 图形中安排上是这样的 data1 lt matrix c 1 5 rep 1 5 rep 4 5 ncol 5 data
HTML 重新加载下拉值 JavaScript

我有一个这样的脚本
如果列值为NULL，如何实现默认值？

我想用这些条件从表中检索一些列值如果值为 NULL 或空字符串则返回一些用户定义的值如果不满足条件则返回其值我怎样才能弄清楚这是我的表查询 CREATE TABLE AUCTION CAR BID bid seq bigint
graphviz.backend.ExecutableNotFound：无法执行 ['dot', '-Tpng']，请确保 Graphviz 可执行文件位于系统的 PATH 上

我花了一个小时找不到这个问题的任何解决方案所以决定最好在这里提问唯一给出的丰富信息here https stackoverflow com questions 35064304 runtimeerror make sure the gr
Ctrl-c 不使用 Git Bash 停止 Tomcat

正如标题所示我使用 Windows 7 在 Git Bash 上运行 Tomcat 但无法使用 Ctrl c 关闭服务器当我按下它时光标会消失半秒钟但除此之外什么也没有发生编辑在 VSCode 的集成终端中运行 git bash
C# 中的工程符号？

是否有任何代码或内置函数允许以工程符号输出浮点数例如 1 5e 4将显示为150 5e 3 将显示为5m 这可能需要重构 private static string ToEngineeringNotation this double
android 无法打开文件进行读取

您好我创建了我的第一个 Hello World 应用程序并按照以下说明进行操作发布在developer android上但是当我连接我的索尼xperia s时启用调试并运行我的应用程序我在 logcat 错误中看到说 E 444
如何在 CentOs 中安装 php-xml

我正在尝试在 CentOs 6 5 上安装 php xml 我输入命令yum install php xml 我收到此错误 Loaded plugins fastestmirror Loading mirror speeds from ca
maven（在开发配置文件下运行）如何包含index.html中的javascript文件？

从 2 0 版开始我就没有使用过 jhipster 目前我正在追赶版本 4 0 6 当我尝试通过 mvnw 构建初始应用程序时默认情况下devmaven 配置文件从命令行应用程序 javascript 文件不会添加到 index ht
引用 dll 而不复制它们 C#

当我们创建一个新的C 项目并引用一个dll时该dll在编译项目时会被复制到项目的输出目录中有没有一种方法可以引用 dll 文件而不将它们复制到项目的输出目录并让可执行文件在运行时使用它们类似于Assemblies如果我没错的话我尝
AWS CDK 将 API 网关 URL 传递到同一堆栈中的静态站点

我正在尝试在单个堆栈中部署 S3 静态网站和 API 网关 lambda S3 静态站点中的 JavaScript 调用 lambda 来填充 HTML 列表但它需要知道 lambda 集成的 API 网关 URL 目前我生成一个 Re
如何强制视图刷新而不从可观察对象自动触发它？

Note 这主要是为了调试和理解 KnockoutJS 有没有办法显式请求 Knockout 从已绑定视图模型刷新视图我正在寻找类似的东西 ko refreshView 我知道这不是 Knockout 的预期用途但我仍然想知道是否有
android studio 使用 build.gradle 进行地址清理

我正在尝试使用此处描述的地址清理程序使用 clang 构建我的应用程序 https github com google sanitizers wiki AddressSanitizer https github com google sa
获取HashMap值的count个数

使用这里的代码link https stackoverflow com questions 37129625 read and find string from text file将文本文件内容加载到 GUI Map
谷歌分析用户 ID 跟踪

我通过通用分析实现了 userID 跟踪 ga set uid 我认为我应该能够在报告中看到特定用户但似乎甚至不可能在任何类型的报告中显示不同的用户我在分析 API 中也没有找到这个选项我希望能够跟踪该特定用户创建的事件是否可以在不
如何重命名 git stash？

我有一个名称不正确的藏品我想修正这个名称使其准确如何重命名藏匿处让我们假设您的存储列表如下所示 git stash list stash 0 WIP on master Add some very important feature
如何使用 Astro 获取查询字符串参数

我正在使用一种名为 Astro 的新技术 https astro build https astro build 构建一个完全静态的服务器端渲染页面交付零 JS 我有一个带有简单文本输入表单的页面当用户填写该表单并单击提交按钮时它会向
gpus_ReturnGuiltyForHardwareRestart

我找到了有关该错误的更多详细信息它似乎与信息有关 gpus ReturnGuiltyForHardwareRestart google了一下似乎关于这个bug的信息相当有限您以前遇到过这种情况并且知道如何解决吗我认为我有必要更新我所
下载并解压内存中的 gzip 文件？

我想使用 urllib 下载文件并在保存之前将文件解压缩到内存中这就是我现在所拥有的 response urllib2 urlopen baseURL filename compressedFile StringIO StringIO c

下载并解压内存中的 gzip 文件？

下载并解压内存中的 gzip 文件？ 的相关文章

随机推荐

热门标签

下载并解压内存中的 gzip 文件？的相关文章