aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数

2024-01-05

我想我想通过制作一个简单的脚本来学习新的 python async wait 语法，更具体地说是 asyncio 模块，该脚本允许您一次下载多个资源。

但现在我被困住了。

在研究时，我发现了两种限制并发请求数量的选项：

将 aiohttp.TCPConnector （带有 limit 参数）传递给 aiohttp.ClientSession 或
使用 asyncio.Semaphore。

如果您只想限制并发连接数，是否有首选选项或者可以互换使用它们？就性能而言（大致）相同吗？

而且两者似乎都有 100 个并发连接/操作的默认值。如果我仅使用限制为 500 的信号量，aiohttp 内部是否会隐式将我锁定为 100 个并发连接？

这对我来说都是非常新的和不清楚的。请随时指出我的任何误解或代码中的缺陷。

这是我当前包含两个选项的代码（我应该删除哪个？）：

奖金问题：

如何处理（最好重试 x 次）抛出错误的 coros？
coro 完成后立即保存返回数据（通知我的 DataHandler）的最佳方法是什么？我不希望最后保存所有内容，因为我可以尽快开始处理结果。

import asyncio
from tqdm import tqdm
import uvloop as uvloop
from aiohttp import ClientSession, TCPConnector, BasicAuth

# You can ignore this class
class DummyDataHandler(DataHandler):
    """Takes data and stores it somewhere"""

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def take(self, origin_url, data):
        return True

    def done(self):
        return None

class AsyncDownloader(object):
    def __init__(self, concurrent_connections=100, silent=False, data_handler=None, loop_policy=None):

        self.concurrent_connections = concurrent_connections
        self.silent = silent

        self.data_handler = data_handler or DummyDataHandler()

        self.sending_bar = None
        self.receiving_bar = None

        asyncio.set_event_loop_policy(loop_policy or uvloop.EventLoopPolicy())
        self.loop = asyncio.get_event_loop()
        self.semaphore = asyncio.Semaphore(concurrent_connections)

    async def fetch(self, session, url):
        # This is option 1: The semaphore, limiting the number of concurrent coros,
        # thereby limiting the number of concurrent requests.
        with (await self.semaphore):
            async with session.get(url) as response:
                # Bonus Question 1: What is the best way to retry a request that failed?
                resp_task = asyncio.ensure_future(response.read())
                self.sending_bar.update(1)
                resp = await resp_task

                await  response.release()
                if not self.silent:
                    self.receiving_bar.update(1)
                return resp

    async def batch_download(self, urls, auth=None):
        # This is option 2: Limiting the number of open connections directly via the TCPConnector
        conn = TCPConnector(limit=self.concurrent_connections, keepalive_timeout=60)
        async with ClientSession(connector=conn, auth=auth) as session:
            await asyncio.gather(*[asyncio.ensure_future(self.download_and_save(session, url)) for url in urls])

    async def download_and_save(self, session, url):
        content_task = asyncio.ensure_future(self.fetch(session, url))
        content = await content_task
        # Bonus Question 2: This is blocking, I know. Should this be wrapped in another coro
        # or should I use something like asyncio.as_completed in the download function?
        self.data_handler.take(origin_url=url, data=content)

    def download(self, urls, auth=None):
        if isinstance(auth, tuple):
            auth = BasicAuth(*auth)
        print('Running on concurrency level {}'.format(self.concurrent_connections))
        self.sending_bar = tqdm(urls, total=len(urls), desc='Sent    ', unit='requests')
        self.sending_bar.update(0)

        self.receiving_bar = tqdm(urls, total=len(urls), desc='Reveived', unit='requests')
        self.receiving_bar.update(0)

        tasks = self.batch_download(urls, auth)
        self.loop.run_until_complete(tasks)
        return self.data_handler.done()


### call like so ###

URL_PATTERN = 'https://www.example.com/{}.html'

def gen_url(lower=0, upper=None):
    for i in range(lower, upper):
        yield URL_PATTERN.format(i)   

ad = AsyncDownloader(concurrent_connections=30)
data = ad.download([g for g in gen_url(upper=1000)])

有首选的选择吗？

是的，见下图：

aiohttp 内部会隐式将我的并发连接数限制为 100 个吗？

是的，默认值 100 会锁定您，除非您指定其他限制。您可以在此处的源代码中看到它：https://github.com/aio-libs/aiohttp/blob/master/aiohttp/connector.py#L1084 https://github.com/aio-libs/aiohttp/blob/master/aiohttp/connector.py#L1084

它们在性能方面（大致）相等吗？

否（但性能差异应该可以忽略不计），因为aiohttp.TCPConnector无论如何，检查可用连接，无论它是否被信号量包围，在这里使用信号量只是不必要的开销。

如何处理（最好重试 x 次）抛出错误的 coros？

我不相信有一种标准方法可以做到这一点，但一种解决方案是将您的调用包装在如下方法中：

async def retry_requests(...):
    for i in range(5):
        try:
            return (await session.get(...)
        except aiohttp.ClientResponseError:
            pass

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

asyncawait

python35

pythonasyncio

aiohttp

aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数的相关文章

在 Django 中定义视图和 url。为什么调用函数时不使用括号？

我已经在经历 Python速成课程目前正在进行 Django Web应用程序项目学习日志阶段有些东西与我已经学到的相矛盾 views py file from django shortcuts import render def i
Matplotlib 标准化颜色条 (Python)

我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图它有效它绘制了它应该绘制的内容但不幸的是我无法设置颜色条范围问题是我有很多图并且需要所有图都具有相同的颜色条相同的最小值和最大值相同的颜色我复制并粘贴了在
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
Python unicode 字符代码？

有没有办法将 Unicode 字符插入 Python 3 中的字符串例如 gt gt gt import unicode gt gt gt string This is a full block s unicode charcode U
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
Python Flask 是否定义了路由顺序？

在我看来我的设置类似于以下内容 app route test def test app route
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb

随机推荐

检查 url 是否包含 http:// 或 https:// [重复]

这个问题在这里已经有答案了可能的重复检查 url 是否包含 http 或 https https stackoverflow com questions 7334491 check if the url is contains the
如何在加载时打开 React Native Maps 标记的标注

我希望在安装屏幕组件时打开所有标记的所有标注目前它仅在单击标记时打开如何在功能组件中使用 useRef 来执行此操作 const markerRef useRef React createRef return
使用 C++17 Constexpr 查找数组

我正在尝试编写一个 constexpr find 函数它将返回包含特定值的 std array 的索引下面的函数似乎工作正常除非包含的类型是const char include
哪个班级设计比较好？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案哪个类设计更好为什么 public class User public String UserName public String
在 OS X 上以管理员权限运行脚本

我已经尽力在 Stack Overflow 和互联网上找到许多脚本问题的解决方案但我似乎找不到我需要的解决方案我想要做的是创建一个更加自动化且点击次数更少的解决方案来删除系统上的所有移动缓存用户帐户我一直在登录并手动转到用户帐户然后
如何设置 clojureScript 项目以使用规范并在运行时测试 clojure.core 函数？

Clojure 1 9 推出specs https clojure org guides spec clojure core 库中的函数现在有规范如何设置 clojurescript 项目以使用规范并在运行时测试 clojure core
我可以采取什么措施来加快 S3 上传/更新速度？

今天我一整天都在尝试向 s3 上传一些小东西 500 个目录中约有 20k 个文件总计约 3GB 对于名为简单存储服务的服务来说这是绝对合理的我可以平均以大约 500k s 1mb s 1 8 到 3 6 GB h 之间的速度上
Java 中最好的企业购物车是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
未针对早午餐编译供应商 CSS 文件

我对 b 有疑问电子邮件受保护 cdn cgi l email protection不编译 Bower Component CSS 文件如同在 Brunch 中分离应用程序和供应商 CSS https stackoverflow com
在 C 中创建数组时出现分段错误

我最近迁移到一台新笔记本电脑 HP dv6119tx 英特尔酷睿 i5 4 GB RAM 它安装了 Windows 7 Home Premium 64 位我正在尝试创建一个类型的数组int长度为 10 6 的 C Dev C 我曾经在我的
在 React Native 中使用 PanResponder 锁定移动

使用本机反应泛响应器 https facebook github io react native docs panresponder html 当屏幕触摸坐标超出一定值范围时如何阻止移动例如如何防止用户将组件移动到屏幕上某个 y 位置
比较堆转储 (HPROF) 文件

是否可以比较两个 HPROF 文件如何根据我的发现您只能比较对象的直方图为此请转到直方图视图然后单击与另一个堆转储比较并选择另一个 hprof 文件 Here is screenshot
获取孩子的所有孩子等等

我使用 MongoDb 作为数据库我想要所有孩子的孩子等等让我们假设 A 有 B 和 C 孩子 B 有 D 和 E 孩子 D 有 F 和 G 孩子所以当我查询子节点时A 我将所有孩子作为输出例如 B C D E F G C Cust
检查一个数据帧的值是否按确切顺序存在于另一个数据帧中

我有 1 个数据数据框和多个参考数据框我正在尝试自动检查数据帧的值是否与参考数据帧的值匹配重要的是这些值的顺序也必须与参考数据帧中的值相同这些列是重要的列但我的真实数据集包含更多列下面是一个玩具数据集 Dataframe g
1个月后自动将列表数据从一个列表复制到另一个列表

我列出了在提交信息路径表单后动态存储数据的列表我想在任何数据创建日期 30 天后存档此数据你能建议我该怎么做吗看看我可以通过工作流程做到这一点但我如何设置条件在创建任何列表后 30 天完成后它将自动复制到其他列表中首先我想问为
如何防止XSS攻击

渗透测试团队告诉我以下 URL 正在引发 XSS 攻击这是我的 download msg jsp 代码
存储过程参数默认值

我正在尝试创建一个带有默认参数的存储过程在我的查询中我会这样做 DECLARE mydate DATETIME DECLARE MT DATETIME DECLARE MY DATETIME SELECT mydate GETDATE S
填充seaborn / matplotlib中两个正态分布之间的重叠区域

我想填充两个正态分布之间重叠的区域我有x最小值和最大值但我不知道如何设置y边界我看过plt文档 https matplotlib org gallery lines bars and markers fill between demo
使用 mongo-cxx-driver 构建 C++ 项目时出现链接错误

我目前正在开发一个C 需要使用的应用程序mongo cxx driver用于访问MongoDB实例我尝试了几种安装方法但每次都会遇到相同的链接器问题最初我尝试安装mongo cxx drivers and mongod c driv
aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数

我想我想通过制作一个简单的脚本来学习新的 python async wait 语法更具体地说是 asyncio 模块该脚本允许您一次下载多个资源但现在我被困住了在研究时我发现了两种限制并发请求数量的选项将 aiohttp TCP

aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数

aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数 的相关文章

随机推荐

热门标签

aiohttp.TCPConnector （带有 limit 参数）与 asyncio.Semaphore 用于限制并发连接数的相关文章