多线程Python请求[重复]

2024-02-27

对于我的学士论文，我需要从大约 40000 个网站中获取一些数据。因此，我使用 python 请求，但目前从服务器获取响应非常慢。

有没有办法加快速度并保持当前的标题设置？我发现的所有教程都没有标题。

这是我的代码片段：

def parse(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/39.0.2171.95 Safari/537.36'}
    r = requests.get(url, headers=headers)

    for line in r.iter_lines():
        ...

那么你可以使用线程，因为这是一个I/O 限制问题。使用内置的threading图书馆是您最好的选择。我用的是Semaphore https://docs.python.org/2/library/threading.html#semaphore-objects对象来限制可以同时运行的线程数。

import time
import threading

# Number of parallel threads
lock = threading.Semaphore(2)


def parse(url):
   """
   Change to your logic, I just use sleep to mock http request.
   """

    print 'getting info', url
    sleep(2)

    # After we done, subtract 1 from the lock
    lock.release()


def parse_pool():
    # List of all your urls
    list_of_urls = ['website1', 'website2', 'website3', 'website4']

    # List of threads objects I so we can handle them later
    thread_pool = []

    for url in list_of_urls:
        # Create new thread that calls to your function with a url
        thread = threading.Thread(target=parse, args=(url,))
        thread_pool.append(thread)
        thread.start()

        # Add one to our lock, so we will wait if needed.
        lock.acquire()

    for thread in thread_pool:
        thread.join()

    print 'done'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pythonrequests

多线程Python请求[重复] 的相关文章

由于“环境错误：[错误 13]：权限被拒绝：'usr/local/bin/f2py'”而无法安装软件包

我正在尝试在 macOS X 上安装 numpy 但执行命令后pip install numpy我收到错误环境错误错误13 权限被拒绝 usr local bin f2py 我如何解决它这对我有用 pip3 install user
Django 是否使用一个线程来处理 WSGI 或 Gunicorn 中的多个请求？

根据标题我想知道 Django 在通过 WSGI 或 Gunicorn 运行时是否使用一个线程来处理多个请求我知道从不应该访问的地方访问请求是一种不好的做法但我仍然想这样做我认为有充分的理由例如在我的自定义模板加载器中访问当前用户
用于在 Windows 中自动执行桌面活动的 Python 代码

我想使用 Python 在 Windows 环境中自动化桌面活动怎样才能做到呢一些例子也会有帮助我所说的桌面活动是指控制鼠标和键盘访问活动窗口属性双击桌面上的图标最小化和最大化窗口通过键盘向输入弹出窗口输入数据等操作看一下S
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
Python3 http.server：将日志保存到文件中

我使用Python3 6编写了一个简单的HTTP服务器来重定向所有请求我写的文件可以找到here https github com kmahyyg learn py3 blob master antiscanhttp py 我可以在 Ub
当图例位于轴之外时选择 matplotlib 图例

当我修改 legend picking py 示例时我遇到了一个有趣的怪癖其中图例位于轴之外如下所示 leg ax legend loc upper left fancybox True shadow True leg ax lege
Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil

随机推荐

具有多列的雄辩 WHERE LIKE 子句

我正在实现一个搜索栏可以按名字姓氏或两者搜索客户所以举例来说 Mike Hizer将匹配Mike Hizer zer Mike Hizer等等这是我想出的 Customer where DB raw concat first na
为 Windows 制作热键最简单的方法是什么？

For example you push Ctrl V and insert the buffer content into the window How can I create my own hotkeys like that Sorr
在 C#/.NET 中将参数标记为不可为空？

是否有一个简单的属性或数据契约可以分配给函数参数来阻止null从 C NET 中传递理想情况下这也会在编译时进行检查以确保文字null没有在任何地方使用它并且在运行时抛出ArgumentNullException 目前我写的东西像 if
Cocos2d for android 支持不同分辨率

我正在尝试构建一款游戏并且想知道如何支持不同的分辨率和屏幕尺寸对于精灵的位置我实现了一个基本函数它根据一定的比例设置位置这是通过从sharedDirector的winSize方法获取屏幕宽度和高度获得的但这种方法没有经过测试因
使用 std::fill 用递增的数字填充向量

我想填写一个vector
git status --ignored 无限期挂起

tl dr 跑步git status ignored在我的项目的根永远不会完成 git status工作正常我开始从我的 IDE PhpStorm 中看到此问题的症状尽管此问题适用于所有 IntelliJ IDE 没有与 git 相关的
如何在 TreeTable 的第二列中显示树线

我正在使用 TreeTable com jidesoft grid 请参阅树表 http www jidesoft com javadoc com jidesoft grid TreeTable html 来显示分层数据它在第一列上使用特
typedef 和模板参数同名

为什么这种情况不正确这是合乎逻辑的 template
Python物理库？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有适用于 Linux 的 Python 的最新物理库我刚刚开始使用 PyGame 来学习 Pyt
您如何处理 C# 的新功能，以免它们导致编写出糟糕的代码？

C 3 0 中引入了许多让我感到不安的功能例如对象初始值设定项扩展方法和隐式类型变量现在在 C 4 0 中像动态关键字这样的东西我变得更加担心我知道这些功能中的每一个CAN以适当的方式使用BUT在我看来它们使开发人员更容易做出
如何从我的应用程序将信用卡添加到 Google Pay？

我正在开发移动银行应用程序显然它管理我们的银行信用卡所以现在我需要在我的应用程序中实现将此卡添加到 Google Pay 按钮但如何为此执行 Google Pay API 请求我无法找到任何相关文档这这里只有一个关于 SO 的问
如何知道用户是否已付费订阅

我正在看这个tutorial https www patchesoft com paypal api subscription php创建我自己的贝宝订阅网关我以前从未对 API 如此困惑和迷失过因此当我们创建计划时我们会设置商家偏
相同的元组给出不同的泡菜

这种情况很奇怪我希望有一些关于 pickle 模块的东西我不知道我有两个元组s1 and s2 如果我比较它们它会返回True s1 s2 True 如果我腌制它们并比较结果它会返回False pickle dumps s1 pick
Kendo UI 工具提示显示，访问目标？

可以通过传递参数来访问目标e到匿名函数获取内容 gridToolTipz grid kendoTooltip filter td role gridcell content function e var target e target th
SOAP 和 REST 如何与 XML/JSON 响应配合使用？

这是一个在堆栈溢出时一次又一次被问到的非常常见的问题我读了很多关于这个问题的答案但我仍然有点困惑我需要从 iPhone sdk 调用网络服务这是我的问题我不清楚 SOAP 或 REST 返回什么响应是否有什么具体说明如果响应是
是否有布尔值的后赋值运算符？

你好 Java 中可能有这样的事情吗 boolean flag true if flag return flag false return true and assign false to flag afterwards 澄清上面的方法有
在 redshift postgresql 中我可以使用复制功能跳过列吗

我有一个 csv 表 t1 其中包含以下列亚马逊 S3 存储中的 c1 c2 c3 我想将其复制到亚马逊红移中我创建包含以下列的表 c1 c2 c3 其中所有列均可为空我用命令复制复制 t1a c1 c3 从 t1 我预计它会从 t
本地网络上的 WebRTC？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我一直在阅读有关 WebRTC 的内容它看起来非常有前途我想制作一个简单的局域网游戏自动连接同一网络上的人们尽管我可以找到人们
此电子邮件验证正则表达式中不可打印控制字符的用途是什么？

背景资料我们使用 SonarQube 来获取有关代码库的质量指标根据规则 SonarQube 在我们的 Node js 代码库中标记了十多个错误S6324 https rules sonarsource com javascript R
多线程Python请求[重复]

这个问题在这里已经有答案了对于我的学士论文我需要从大约 40000 个网站中获取一些数据因此我使用 python 请求但目前从服务器获取响应非常慢有没有办法加快速度并保持当前的标题设置我发现的所有教程都没有标题这是我的代码片

多线程Python请求[重复]

多线程Python请求[重复] 的相关文章

随机推荐

热门标签