示例 urllib3 和 python 中的线程

2024-04-16

我正在尝试在简单线程中使用 urllib3 来获取多个 wiki 页面。该脚本将

为每个线程创建 1 个连接（我不明白为什么）并永远挂起。 urllib3 和线程的任何提示、建议或简单示例

import threadpool
from urllib3 import connection_from_url

HTTP_POOL = connection_from_url(url, timeout=10.0, maxsize=10, block=True)

def fetch(url, fiedls):
  kwargs={'retries':6}
  return HTTP_POOL.get_url(url, fields, **kwargs)

pool = threadpool.ThreadPool(5)
requests = threadpool.makeRequests(fetch, iterable)
[pool.putRequest(req) for req in requests]

@Lennart 的脚本出现此错误：

http://en.wikipedia.org/wiki/2010-11_Premier_LeagueTraceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/threadpool.py", line 156, in run
 http://en.wikipedia.org/wiki/List_of_MythBusters_episodeshttp://en.wikipedia.org/wiki/List_of_Top_Gear_episodes http://en.wikipedia.org/wiki/List_of_Unicode_characters    result = request.callable(*request.args, **request.kwds)
  File "crawler.py", line 9, in fetch
    print url, conn.get_url(url)
AttributeError: 'HTTPConnectionPool' object has no attribute 'get_url'
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/threadpool.py", line 156, in run
    result = request.callable(*request.args, **request.kwds)
  File "crawler.py", line 9, in fetch
    print url, conn.get_url(url)
AttributeError: 'HTTPConnectionPool' object has no attribute 'get_url'
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/threadpool.py", line 156, in run
    result = request.callable(*request.args, **request.kwds)
  File "crawler.py", line 9, in fetch
    print url, conn.get_url(url)
AttributeError: 'HTTPConnectionPool' object has no attribute 'get_url'
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/threadpool.py", line 156, in run
    result = request.callable(*request.args, **request.kwds)
  File "crawler.py", line 9, in fetch
    print url, conn.get_url(url)
AttributeError: 'HTTPConnectionPool' object has no attribute 'get_url'

添加后import threadpool; import urllib3 and tpool = threadpool.ThreadPool(4)@user318904 的代码出现此错误：

Traceback (most recent call last):
  File "crawler.py", line 21, in <module>
    tpool.map_async(fetch, urls)
AttributeError: ThreadPool instance has no attribute 'map_async'

这是我的看法，使用 Python3 的更新解决方案和concurrent.futures.ThreadPoolExecutor.

import urllib3
from concurrent.futures import ThreadPoolExecutor

urls = ['http://en.wikipedia.org/wiki/2010-11_Premier_League',
        'http://en.wikipedia.org/wiki/List_of_MythBusters_episodes',
        'http://en.wikipedia.org/wiki/List_of_Top_Gear_episodes',
        'http://en.wikipedia.org/wiki/List_of_Unicode_characters',
        ]

def download(url, cmanager):
    response = cmanager.request('GET', url)
    if response and response.status == 200:
        print("+++++++++ url: " + url)
        print(response.data[:1024])

connection_mgr = urllib3.PoolManager(maxsize=5)
thread_pool = ThreadPoolExecutor(5)
for url in urls:
    thread_pool.submit(download, url, connection_mgr)

一些备注

我的代码基于类似的示例Python Cookbook作者：比兹利和琼斯。
我特别喜欢这样一个事实：除了这个之外，你只需要一个标准模块urllib3.
设置非常简单，如果您只想获得副作用download（如打印、保存到文件等），连接线程不需要额外的工作。
如果你想要一些不一样的东西，ThreadPoolExecutor.submit实际上返回任何内容download会回来，包裹在Future.
我发现将线程池中的线程数与线程数对齐很有帮助HTTPConnection位于连接池中（通过maxsize）。否则，当所有线程尝试访问同一服务器时（如示例中所示），您可能会遇到（无害的）警告。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Multithreading

http

urllib2

urllib3

示例 urllib3 和 python 中的线程的相关文章

Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
带括号的上下文管理器

我试图了解新的新内容带括号的上下文管理器Python 3 10 中的功能新功能中的顶部项目here https docs python org 3 10 whatsnew 3 10 html 我的测试示例是尝试编写 with open f
Pip install 导致此错误“ cl.exe' failed with exit code 2 ”

我已经阅读了有关此错误的所有其他问题但令人沮丧的是没有一个给出有效的解决方案如果我跑pip install sentencepiece在命令行中它给出了以下输出 src sentencepiece sentencepiece wra
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

由于我想删除 html 网站中重复的占位符因此我使用 BeautifulSoup 的 next sibling 运算符只要重复项位于同一行就可以正常工作参见数据但有时它们之间有一个空行所以我希望 next sibling 忽略它
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
C# - 如何进行 HTTP 调用

我想对网站进行 HTTP 调用我只需要点击 URL 不想上传或下载任何数据最简单最快的方法是什么我尝试了下面的代码但它很慢并且在第二次重复请求后它只是超时 59 秒然后恢复 WebRequest webRequest Web
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
使用 Python 的文本中的词频但忽略停用词

这给了我文本中单词的频率 fullWords re findall r w allText d defaultdict int for word in fullWords d word 1 finalFreq sorted d iterit
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
Flask SQLAlchemy 与 MyPy - 模型类型错误

我遇到了以下组合问题flask sqlalchemy and mypy 当我定义一个新的 ORM 对象时例如 class Foo db Model pass where db是使用创建的数据库SQL炼金术应用于flask app mypy
如何使用数据库在 Django 中的应用程序之间交换数据？

我正在使用 Django 在网络上工作我创建了 2 个应用程序第一个用于客户端注册并将其数据添加到数据库第二个应用程序供用户访问和查看交互界面这个想法是使用第二个应用程序从数据库中的客户端获取数据并使用它向用户显示一些信息我的问
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id

随机推荐

如何将 NSMutableArray 的元素转换为 NSString

我有 1 个 NSMutableArray 我想转换数组中的任何数据将在 NSString 中告诉我代码 Array 只是 NSMutableArray 类的对象如果您只想要数组的元素那么您可以尝试 ComponentsJoinedB
Eclipse Bug：未处理的事件循环异常没有更多句柄

我使用 Swing 和 MigLayout 构建了一个 GUI 我在 Windows 7 Ultimate 上使用 Eclipse 4 2 2 64 位每次我单击返回窗口编辑代码时都会出现一个弹出窗口然后提示我重新启动 Eclipse
如何将 YAML 转换为 JSON？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找在 YAML 文件和 JSON 之间进行转换这真的很难找到任何信息如果不需要 Json NET 的功能也可以直接使用 Se
需要：Rikulo UXL 示例

我想让一些 UXL 与 Dart 编辑器一起使用我担心我感觉示例代码用户体验实验室概述 http docs rikulo org ui latest UXL Fundamentals UXL Overview html要么已经过时要么缺
龙卷风错误处理

我希望能够处理输入错误 URL 时显示的更好的错误E g localhost 8000 AFDADSFDKFADS 我收到一条丑陋的 python 回溯消息因为抛出了一个ornado web HTTPError 异常我知道我可以使用正则
iOS 9+ 通用链接不适用于 Google 应用

我工作的公司让我问以下问题当在其他应用程序原生 Apple 应用程序 Slack 等中点击通用链接时我们的应用程序会打开但如果在任何 Google 应用程序环聊收件箱等中点击相同链接则不会直接打开通用链接通过我们的应用程序
在 Visual Studio 2017 中删除垂直虚线缩进线

我刚刚安装了 Visual Studio 2017 代码编辑器中出现了奇怪的垂直缩进标记我怎样才能删除它们附我禁用了所有扩展但这没有帮助下面有一个选项Tools Options Text Editor called Show st
mvc3 路由设置为 id, id2 id3

我有以下区域路线设置 context MapRoute Admin default3 Admin controller action id id2 id3 new action Index context MapRoute Admin de
capistrano，：db 角色，它的用途是什么？

据我所知卡皮斯特拉诺 db角色仅用于运行迁移因此在大多数情况下它可能不应该实际上是运行数据库的服务器为什么那里会有 ruby rails 堆栈或者允许 ssh 登录它只是您想要实际执行 Rails 迁移的任何服务器并且只有标
实现移动运动体

Project 我正在制作一个简单的项目其中我希望能够制作一个运动体并将其从 x 点移动到 y 点创建运动体似乎没有太多直接内容我一直在关注一些关于实现运动体的不同教程因为我找不到指定如何正确执行此操作的教程 Problem 这似
如何使用数据列表比较并返回数据

我是 Haskell 的新手我正在努力寻找一种使用类成员变量来返回我正在寻找的成员变量的方法我有这个数据 data Place Place name String north Float east Float rainfall Int
奥尔森时区到 windows

我需要在 Windows 中从奥尔森时区转换时区使用PHP 我找到了这个http unicode org repos cldr trunk common supplemental windowsZones xml http unicode
用于搜索 Google 云端硬盘的 Google Apps 脚本

是否可以使用 Google Apps 脚本在 Google 云端硬盘中搜索文档和文件夹谷歌已经取消了自己的文档驱动器搜索小工具因为它似乎依赖于 iGoogle 谷歌企业支持也承认了这一点谢谢我想你正在寻找搜索文件 https de
Unity使用Invoke在另一个脚本上调用方法

我有两个脚本其中一个重新启动场景另一个是倒计时器而不是在第一个脚本中调用重新启动场景方法但是它没有重新启动即使没有错误我也不明白为什么重新启动场景的第一个脚本 using UnityEngine using UnityEng
在编译时通过 constexpr 或模板函数获取多维 std::array 的大小

我用的是三维std array 因为大小在编译时已知但是我注意到 size 函数不是静态的因此 constexpr 模板函数无法访问我已经找到了下面的演示示例它估计一维的大小std array 然而这不适用于二维或更多维度有没
C# 中的并发集合

我正在寻找一种方法来获得并发收集 in C 或者至少是一个支持的集合并发枚举器现在我得到了InvalidOperationException当我正在迭代的集合发生变化时我可以深度复制该集合并使用私人副本但我想知道是否有更好的方法代码
DisplayMemberPath 在 WPF 中不起作用

我要显示CustomerList CustomerName财产项目ListBox using ItemsSource DisplayMemberPath仅限财产但它不起作用我不想使用DataContext或我的问题中的任何其他绑定请帮
实体框架 6 和集合

我正在开发我的第一个实体框架应用程序我正在使用 EF 版本 6 来自 Nuget 和 net 4 0 然而我在一些对我来说似乎应该非常简单的事情上遇到了一些困难我在互联网上发现了很多相互矛盾的建议和解决方案但是在花了几天时间尝试解决
Firebase - Firestore - 使用 collection.add() 获取密钥

我在使用 Firebase 的新 Firestore 时遇到问题情况我有一个collection room 我创建房间collection room add room 我正在尝试做的事情我需要更新一个房间为此我使用 collect
示例 urllib3 和 python 中的线程

我正在尝试在简单线程中使用 urllib3 来获取多个 wiki 页面该脚本将为每个线程创建 1 个连接我不明白为什么并永远挂起 urllib3 和线程的任何提示建议或简单示例 import threadpool from url

示例 urllib3 和 python 中的线程

一些备注

示例 urllib3 和 python 中的线程 的相关文章

随机推荐

热门标签

示例 urllib3 和 python 中的线程的相关文章