请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

2024-05-09

您好，我一直在使用此代码片段从网站下载文件，到目前为止，小于 1GB 的文件都很好。但我注意到 1.5GB 文件不完整

# s is requests session object
r = s.get(fileUrl, headers=headers, stream=True)

start_time = time.time()
with open(local_filename, 'wb') as f:
    count = 1
    block_size = 512
    try:
        total_size = int(r.headers.get('content-length'))
        print 'file total size :',total_size
    except TypeError:
        print 'using dummy length !!!'
        total_size = 10000000

    for chunk in r.iter_content(chunk_size=block_size):

        if chunk:  # filter out keep-alive new chunks

            duration = time.time() - start_time
            progress_size = int(count * block_size)
            if duration == 0:
                duration = 0.1
            speed = int(progress_size / (1024 * duration))
            percent = int(count * block_size * 100 / total_size)
            sys.stdout.write("\r...%d%%, %d MB, %d KB/s, %d seconds passed" %
                            (percent, progress_size / (1024 * 1024), speed, duration))

            f.write(chunk)
            f.flush()
            count += 1

使用最新请求2.2.1 python 2.6.6，centos 6.4 文件下载总是停止在 66.7% 1024MB，我错过了什么？输出：

file total size : 1581244542
...67%, 1024 MB, 5687 KB/s, 184 seconds passed

iter_content() 返回的生成器似乎认为所有块都已检索并且没有错误。顺便说一句，异常部分没有运行，因为服务器确实在响应标头中返回了内容长度。

请仔细检查您是否可以通过以下方式下载该文件wget和/或任何常规浏览器。可能是服务器的限制。据我所知你的代码可以下载大文件（大于 1.5Gb）

更新：请尝试反转逻辑 - 而不是

if chunk: # filter out keep-alive new chunks                                                                                                                                                                                                         
    f.write(chunk)                                                                                                                                                                                                                                   
    f.flush()

try

if not chunk:
   break

f.write(chunk)                                                                                                                                                                                                                                   
f.flush()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

urllib

pythonrequests

请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

特征密集稀疏矩阵乘积是线程化的吗？

我知道稀疏密集产品是根据文档进行线程化的 https eigen tuxfamily org dox TopicMultiThreading html https eigen tuxfamily org dox TopicMultiThre
从 Xamarin Forms 的输入控件中删除下划线

我是 Xamarin Forms 的新手正在开发登录表单并使用 Material Design IVisual 我创建了一个自定义 Entry 类并继承它MaterialEntryRenderer来定制它我想要实现的目标是删除下划线En
获取键盘事件中的鼠标位置

我试图在用户按住 Shift 键时出现选择轮滚轮应以鼠标位置为中心然而当我测试这个时 pageX and clientX两者在事件对象上都未定义是否可以通过键盘事件获取鼠标坐标不只需跟踪mousemove事件并持续保存当前位置以
为什么 Visual Studio 不移动发布中的某些文件？

当我尝试发布项目时 Visual Studio 不会将某些文件移动到目标发布文件夹目前我有这个问题 json文件我正在使用 Visual Studio 2010 和 MVC4 是否有关于应发布哪些文件或 mime 类型并将其移动到目标文
列出 Docker 容器的卷

如何列出 Docker 容器的所有卷我知道它应该很容易获得但我找不到如何获得另外是否可以获取已删除容器的卷并将其删除您可以使用 docker ps 获取容器 id 并写入 docker检查container id 像这儿 Volu
当IRQL下降时，Windows中如何触发软件中断？

我知道对于硬件中断当 KeAcquireInterruptSpinLock 调用 KeLowerIrql 时 HAL 会调整 LAPIC 中的中断掩码这将允许自动服务排队的中断可能在 IRR 中但是对于软件中断例如 ntdll d
在 VSCode 的集成终端中运行任务？

当我过去运行任务 tasks json 时它们在 VSCode 的集成终端内运行但是在重置我的开发计算机并重新安装所有内容后我的任务现在在新的 cmd 窗口中运行当任务因错误而失败时就会出现问题在这种情况下 cmd 窗口刚刚关
Google BigQuery 另存为表

我用 Google BigQuery 运行了这个查询 SELECT repo id count as count FROM TABLE DATE RANGE githubarchive day events TIMESTAMP 2015 0
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
使用 PHP 将子项添加到 XML 文件

添加子项时抛出此错误无法添加孩子父级不是 XML 树的永久成员我无法解决这个问题这是我的代码 if visited FIRST xml new SimpleXMLElement
在tensorflow .ckpt文件中使用预训练模型

我有一个 ckpt 文件我只想得到 cnn 的权重我已经从 ckpt 检查点文件中进行了训练 inception resnet v2 2016 08 30 import tensorflow as tf saver tf train S
日期时间的自定义 JavaScriptConverter？

我有一个对象它有一个 DateTime 属性我想通过 AJAX JSON 将该对象从 ashx 处理程序传递回网页我不想使用第 3 方控件当我这样做时 new JavaScriptSerializer Serialize DateT
在简单注入器中注册具有多个构造函数和字符串依赖项的类型

我正在尝试弄清楚如何使用 Simple Injector 我在项目中使用了它注册简单服务及其组件没有任何问题但是当组件具有两个以上实现接口的构造函数时我想使用依赖注入器 public DAL IDAL private Logger
Firefox OS 后台服务

我想构建一个应用程序用户可以通过它输入一些设置并且应用程序将启动后台服务来根据这些设置执行一些任务我只想在模拟器中运行应用程序和后台服务我知道它需要认证模式才能运行后台服务但我现在不考虑在 Firefox Marketplac
Typeahead.js 干扰 Bootstrap 输入组

如何防止 Typeahead js 拆分我的 Twitter Bootstrap 3 输入组每当我将 Typeahead javascript 指向属于输入组一部分的文本区域时连接的文本区域和提交按钮就会停止连接这只是 Typeahe
在 UITableView 中创建隐藏的 UISegmentedControl

与 iBooks 应用程序一样当您下拉表格视图时会出现搜索栏和分段控件以允许您在两种类型的视图之间搜索和切换当您向下拉得足够远时它会停留在该位置或者当您将桌面视图拉得足够远时它会被隐藏我正在尝试用一个来实现同样的事情UISe
按组内顺序排序

order by 在第二个查询中不起作用我需要先按 DNAID 订购然后按 DNBID 订购首先查询其顺序为 111221 第二个查询的顺序为 112112 有关我想要完成的任务的更多信息和细节https stackoverflow
dropdownlist DataTextField 由属性组成？

有没有一种方法可以通过 C 使 asp net 中的下拉列表的 datatextfield 属性由对象的多个属性组成 public class MyObject public int Id get set public string Nam
日志记录在 Android 设备上实际上有什么作用？

我一直在 Android 示例中看到这样的代码 try catch Exception e Log e Error e getMessage 什么是Log e实际上在物理设备上做什么它进入系统日志开发人员可以通过 SDK 工具访问该日志
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers

请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？ 的相关文章

随机推荐

热门标签

请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？的相关文章