Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

2024-02-24

当循环抓取多个网站时，我注意到之间的速度存在相当大的差异，

sleep(10)
response = requests.get(url)

and,

response = requests.get(url, timeout=10)

那是，timeout速度要快得多。

此外，对于这两种设置，我预计在请求下一页之前每页的抓取持续时间至少为 10 秒，但事实并非如此。

为什么速度会有这么大的差别呢？
为什么每页抓取时长不到10秒？

我现在使用多处理，但我认为记住上述内容也适用于非多处理。

time.sleep停止你的脚本运行一定的秒数，而timeout是检索 url 的最长时间等待时间。如果在之前检索到数据timeout时间已到，剩余时间将被跳过。所以使用它可能需要不到 10 秒的时间timeout.

time.sleep不同的是，它会完全暂停您的脚本，直到它完成睡眠，然后它将再花几秒钟运行您的请求。所以time.sleep每次都会花费10秒以上。

它们有非常不同的用途，但对于您的情况，您应该创建一个计时器，这样如果它在 10 秒之前完成，则让程序等待。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

timeout

screenscraping

sleep

difference

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）的相关文章

Flask 无法播放 html 中的视频

我有一个 Flask 应用程序应该在加载页面时播放视频但它只显示在左上角并且不会从视频的第一帧开始改变我已经尝试将其插入 html 代码但它不起作用 extends base html block content
对于确实存在的字典，pdb 下“NameError：未定义全局名称”

我遇到了一个范围问题lambda功能我可以成功地将 foo 输出到标准输出但在使用时出现错误max 包括一个lambda 请参阅下面的简化代码总而言之我正在尝试找到嵌套键的最大值budget在未知数量的一阶密钥内 Pdb foo s
当包含非 ASCII 字符时，无法使用 lambda S3 事件给出的密钥

我有一个 Python lambda 脚本可以在图像上传到 S3 时缩小图像当上传的文件名包含非 ASCII 字符在我的例子中是希伯来语时我无法获取该对象禁止就好像该文件不存在一样这是我的一些代码 s3 client b
使用Python Selenium访问网页上的表对象

一段时间以来我尝试从网页中提取下表我正在尝试进入网站上不同页面的 tr 对象 1 8 我设法存储并打开页面并希望循环遍历表 tbody 其中包含 tr 对象表示我想要访问的信息行然而当运行以下代码时我只获得所有 8 个页面中的
为什么我的自定义 JSONEncoder.default() 忽略布尔值？

我想将字典转换为带有布尔值的 JSON 字符串True值转换为数字1和布尔值False值转换为数字0 我正在使用一个JSONEncoder子类但它似乎忽略布尔值 import json class MyEncoder json JSONE
我如何在 ruby 中执行范围正则表达式，例如 awk /start/,/stop/

我想做一个 AWK 风格的范围正则表达式如下所示 awk hoststatus file 在 AWK 中这将打印文件中两个模式之间的所有行 hoststatus host name myhost modified attributes
导入错误：无法导入名称 md5

真的不知道这里发生了什么我需要在弹性beanstalk上部署我的flask应用程序但不知何故改变了路径并且无法再运行python application py dotnet info NET Core SDK reflecting an
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
python 命令行应用程序的最佳布局是什么？

什么是正确的方法或者我会满足于good方式布置一个中等复杂度的命令行 python 应用程序我使用 Paster 创建了一个 Python 项目框架它为我提供了一些文件 myproj init py MyProj egg info
使用 Pyinstaller 制作 exe 文件时出现问题（使用 tkinter 和 Custom tkinter 制作的文件）

我正在尝试使用 tkinter 和自定义 tkinter 制作一个用于数据输入的小型应用程序代码在 python 中运行良好我使用它制作了 exe 文件 pyinstaller onefile noconsole try45 py 但在
Python 中快速、小型且重复的矩阵乘法

我正在寻找一种使用 Python Cython Numpy 快速将许多 4x4 矩阵相乘的方法任何人都可以给出任何建议吗为了展示我当前的尝试我有一个需要计算的算法 A 1 A 2 A 3 A N 哪里每个 A i A j Python
python 使用 shapefile 掩码 netcdf 数据

我正在使用以下软件包 import pandas as pd import numpy as np import xarray as xr import geopandas as gpd 我有以下存储数据的对象 print precip d
Pyside QPushButton 和 matplotlib 的连接

我正在尝试使用 matplotlib 开发一个非常简单的 pyside Qt 程序我希望按下按钮时绘制图表到目前为止我可以在构造函数上绘制一些东西但无法将 Pyside 事件与 matplotlib 连接起来有没有办法做到这一点
如何重定向到外部404页面Python Flask

我正在尝试将 404 重定向到外部 URL 如下所示 app route 404 def http error handler error return flask redirect http www exemple com 404 404
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正
使用 numpy 数组时出现内存错误 Python

我原来的list 函数有超过 200 万行代码当我运行计算的代码时出现内存错误有什么办法可以绕过它吗这list 下面是实际 numpy 数组的一部分熊猫数据 import pandas as pd import math impo
如何在matplotlib_venn中将维恩图保存为PNG图

使用以下代码我尝试创建维恩图然后另存为文件 import matplotlib from matplotlib venn import venn2 set1 set A B C D set2 set B C D E plt venn2 s
Python pycrypto 模块：为什么 simplejson 无法转储加密字符串？

表明统一码错误 utf8 codec can t decode byte 0x82 in position 0 unexpected code byte 这是代码 from Crypto Cipher import AES import s
Keras 导入错误 Nadam

我在尝试导入 Keras 模块 Nadam 时遇到导入错误 gt gt gt from keras optimizers import Nadam Traceback most recent call last File

随机推荐

正则表达式匹配不在引号内的所有实例

From this q a https stackoverflow com questions 2700953 a regex to match a comma that isnt surrounded by quotes 我推断匹配给定正
C 中的局部变量和静态变量

编译时 external definitions int value1 0 static int value2 0 gcc 编译器生成以下程序集 globl value1 bss align 4 type value1 object siz
加载 AVPlayer 时出现错误线程 1：EXC_BAD_ACCESS (code=EXC_I386_GPFLT)

当我选择一个collectionViewCell时我试图加载一个AVPlayer 这是我的代码didSelectItem func collectionView collectionView UICollectionView didSel
给定 y，在贝塞尔曲线上获取 x

我有一条贝塞尔曲线 0 0 25 1 25 1 and 1 1 此处以图形方式显示 http cubic bezier com 25 1 25 1 http cubic bezier com 25 1 25 1 我们看到x轴上是时间这是我
手动引导 AngularJS 然后获取模块

一般来说我会执行以下操作并且会有一个ng app在我的 HTML 中 var myApp angular module myApp myApp controller AttributeCtrl function scope scope
Rails 应用程序希望我重新启动 webrick 服务器以应对控制器中的任何更改

我正在开发一个现有的 Rails 2 3 x 应用程序所以我正在开发它这是一个混乱的代码我很难运行该应用程序但是现在对于我的控制器之一中的每一个小更改它都希望我重新启动我的服务器否则更改不会反映回来让我们在这里举一个示例场景
错误：无法解析“\node_modules\@angular-devkit\build-angular\src\angular-cli-files\models”中的“core-js/es7/reflect”

更新到 Angular 7 3 6 后我在 ngserve 上收到以下错误错误于 node modules Angular devkit build Angular src Angular cli files models jit po
如何在Python中创建带换行符的字符串？ [复制]

这个问题在这里已经有答案了我有一段文字没有你聪明的嘴我该怎么办把我拉进去你又把我踢出去你让我头晕目眩别开玩笑了我无法阻止你那美丽的心灵里到底在想什么我在你的神奇神秘旅程中我很头晕不知道是什么击中了我但我会没事的现在我想用这
如何在 Flutter 中将类似 Duration 的字符串转换为真实的 Duration？

正如标题所示我得到一个字符串 01 23 290 它看起来像一个持续时间但不是现在我需要用它来与真实的 Duration 进行比较但我不知道如何处理它有什么方法吗使用这样的解析函数然后使用比较方法Duration Durati
对 Xamarin.iOS Storyboard 的 MVVMCross 支持

由于支持即将制作稳定流的 iOS 故事板的 XS 集成我希望能够将此功能与 MVVMCross 结合使用从根本上来说它似乎确实有点不应该工作因为故事板指示视图项目中的导航层次结构而不是像 MVVMCross 这样的视图模型项目但
Jackson 从 Class 创建 JavaType

必须有一种方法来创建JavaType from String class 注意方法的输入must be JavaType对于我的用例因为该值是使用动态创建的TypeFactory Returns a JavaType for Map
如何使用 C# 在代码中进行数据绑定？

我打算在我的几个类之间使用数据绑定换句话说我不是在模型类和 UI 之间绑定值而是在不同类之间绑定变量我在多个地方读到过有关 C 中的数据绑定的内容但大多数都是指 Windows 窗体和源对象之间的绑定我还是 C 新手这就是我理
jpGraph 的替代方案

这是我第一次使用 php 生成图表你知道 jpGraph 有什么替代品吗排名不分先后这里有一些 PHP 图表库图表总监 http www advsofteng com cdphp html 石墨矿 http graphpite so
Firebase 安全规则：公共数据与私有数据

我有一个签名集合其中每个签名都有一些属性公共全名城市然后是电子邮件我想保持电子邮件属性的私密性并且我一直在努力编写正确的规则以仅返回全名和城市这是我的rules json 到目前为止的样子 rules signatures
在 Coq 中证明可逆列表是回文

这是我对回文的归纳定义 Inductive pal X Type list X gt Prop pal0 pal pal1 forall x X pal x pal2 forall x X l list X pal l gt pal x l
默默地从Python字典中删除键[重复]

这个问题在这里已经有答案了我有一个 python 字典我想默默地删除其中一个None and 我的字典中的键所以我想出了这样的东西 try del my dict None except KeyError pass try del my
无法检索运营商名称

使用iPhone6 Xcode 8 1 运行iOS 10 1 1 执行以下命令我不断收到 Swift 代码无法检索运营商名称错误消息出现在我的第一个消息之前ViewController甚至负载我搜索了类似但不相同的解决方案Car
web.xml 过滤器映射不转发到 struts

我正在尝试做一些微不足道的事情但看不到我错过了什么我有以下 web xml
获取 RibbonControlsLibrary.Aero2 的 FileNotFoundException

我最近在尝试运行使用 WPF 功能区的项目时开始收到此错误它之前一直在这台机器上运行但由于某种原因现在不能运行图书馆来自here http www microsoft com en us download details aspx i
Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

当循环抓取多个网站时我注意到之间的速度存在相当大的差异 sleep 10 response requests get url and response requests get url timeout 10 那是 timeout速度要快得

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

Python网络抓取：睡眠和请求之间的区别（页面，超时= x） 的相关文章

随机推荐

热门标签

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）的相关文章