如何使用asyncio下载s3存储桶上的文件

2024-02-11

我使用以下代码下载 s3 存储桶中的所有文件：

def main(bucket_name, destination_dir):
    bucket = boto3.resource('s3').Bucket(bucket_name)
    for obj in bucket.objects.all():
        if obj.key.endswith('/'):
            continue
        destination = '%s/%s' % (bucket_name, obj.key)
        if not os.path.exists(destination):
            os.makedirs(os.path.dirname(destination), exist_ok=True)
        bucket.download_file(obj.key, destination)

如果可能的话，我想知道如何使其异步。

提前谢谢你。

您可以使用generate_presigned_urls3 客户端的方法来获取带有 AWS 凭证的 URL（请参阅docs https://boto3.amazonaws.com/v1/documentation/api/latest/guide/s3-presigned-urls.html），然后通过异步 HTTP 客户端发送下载文件的请求（aiohttp https://docs.aiohttp.org/en/stable/client_reference.html例如）

aiohttp 应用 URL 规范化，如果密钥包含空格或非 ASCII 字符，这可能会导致问题。使用URL(..., encoded=True)将解决这个问题。

import boto3
import asyncio
from aiohttp import client
from yarl import URL

bucket = 'some-bucket-name'

s3_client = boto3.client('s3')
s3_objs = s3_client.list_objects(Bucket=bucket)['Contents']

async def download_s3_obj(key: str, aiohttp_session: client.ClientSession):
    request_url = s3_client.generate_presigned_url('get_object', {
        'Bucket': bucket,
        'Key': key
    })

    async with aiohttp_session.get(URL(request_url, encoded=True)) as response:
        file_path = 'some-local-folder-name/' + key.split('/')[-1]

        with open(file_path, 'wb') as file:
            file.write(await response.read())

async def get_tasks():
    session = client.ClientSession()

    return [download_s3_obj(f['Key'], session) for f in s3_objs], session

loop = asyncio.get_event_loop()
tasks, session = loop.run_until_complete(get_tasks())
loop.run_until_complete(asyncio.gather(*tasks))

loop.run_until_complete(session.close())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

amazons3

boto

boto3

如何使用asyncio下载s3存储桶上的文件的相关文章

通过 subprocess.communicate 在 python 脚本之间传输 pickled 对象输出

我有两个 python 脚本 object generator py 它会腌制给定的对象并打印它另一个脚本 object consumer py 通过 subprocess communicate 选择第一个脚本的输出并尝试使用 pic
使用 boto3 和 ftplib 将文件从 FTP 复制到 S3 存储桶失败，并显示“500 语法错误，命令无法识别”

我需要将数据从 FTP 服务器发送到 S3 存储桶而不将文件保存到本地驱动器在互联网上我发现我们可以使用io BytesIO 作为缓冲区但我的代码失败了 error perm 500 语法错误命令无法识别剧本 ftp ftpli
如何使用 eval dataframe 方法在自定义函数中返回 numpy 数组或列表？

我正在使用 python 3 X 我正在尝试使用eval https pandas pydata org pandas docs stable generated pandas eval html pandas eval数据框方法包括这样
如何在自动模式下获取 pytest 夹具返回值？

我是新来学习 pytest 的在下面的示例代码中我怎样才能得到A 对象在test one夹具处于状态时的功能autouse mode import pytest import time class A def init self sel
如何在列表的解析参数中解析列表（字符串）而不是列表（字符）？

我在flask中使用flask restful 我的代码如下 from flask restful import Resource reqparse apilink parser reqparse RequestParser apilink
使用魔法函数 %matplotlib inline

我试图看看使用之间的区别 matplotlib 内联并且没有这个声明但两次输出没有区别然后它有什么用 Output without matplotlib inline line Output with matplotlib inline
无法让我的脚本自动生成一些值以在有效负载中使用

我创建了一个脚本通过随后发送两个 https 请求来从目标页面获取 html 元素我的脚本可以完美地完成这件事但是我必须从 chrome 开发工具复制四个值来填充其中的四个键payload为了发送最终的http请求到达目标页面这是
Amazon S3 EPIPE 错误

UPDATE 让它工作从命令行 http www timkay com aws 向该用户添加完全访问策略权限后现在当我使用 Node 执行此操作时没有错误但我在 s3 文件管理器中看不到这些文件我在使用 Amazon 的 S3 服
向 Python 函数添加属性的最佳方法

以计算数学函数的 Python 函数为例 def func x a b c Return the value of the quadratic function ax 2 bx c return a x 2 b x c 假设我想以函数属性的
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
使用Python批量重命名文件

下面是我的代码来批量重命名给定目录中的图片 def multi filename change i 0 files askstring Select your folder Paste your directory path where y
Python替换多个字符串同时支持反向引用

有一些好方法 https stackoverflow com questions 6116978 python replace multiple strings处理 python 中的同时多字符串替换但是我在创建一个高效的函数来实现这一
Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
AWS CLI s3 复制失败并出现 403 错误，尝试管理用户上传的对象

尝试将文件从 S3 存储桶复制到我的本地计算机 aws s3 cp s3 my bucket name audio 0b7ea3d0 13ab 4c7c ac66 1bec2e572c14 wav fatal error An error
致命错误：Python.h：没有这样的文件或目录，python-Levenshtein 安装

首先我正在使用 Python 3 7 开发 Amazon EC2 实例 Amazon linux 版本 2 AMI 我正在尝试使用以下命令安装 python Levenshtein 包 pip3 install python Levens
Windows 中的 Python 多处理池奇怪行为

Python 多处理池在 Linux 和 Windows 之间有不同的行为当按工作人员数量运行方法映射时在 Linux 中它会在您作为参数提供的特定函数的范围内运行该进程但在 Windows 中每个工作进程都在父进程的范围内运行
亚马逊 CloudFront 延迟

我正在为我正在开发的 Web 应用程序尝试使用 AWS S3 和 CloudFront 在应用程序中我允许用户将文件上传到 S3 存储桶使用 AWS SDK 并通过 CloudFront CDN 提供该文件但问题是即使文件已上传并在

随机推荐

如何在 Android 上将文件从内部应用程序存储移动/重命名到外部存储？

我正在从互联网下载文件并将流数据保存到我的应用程序内部存储中的临时文件中获取文件目录 http developer android com reference android content Context html getFilesDir
IllegalArgumentException：类 TestDatabaseAutoConfiguration$EmbeddedDataSourceFactoryBean 中没有可见的构造函数

我正在尝试使用 h2 数据库为 Spring Boot JPA 应用程序编写集成测试不知何故 TestEntityManager 没有被创建我尝试在论坛上寻找一些帮助但找不到任何相关信息感谢任何人可以提供帮助或提供一些指导 Than
将 wc 行附加到文件名

标题说明了一切我已经设法得到这样的行 lines wc file txt awk print 1 但我可以使用辅助功能将其附加到文件名中向我展示如何循环遍历当前目录中的所有 txt 文件的奖励积分 find name txt execd
在 mac、ios、linux 上使用 calibri 风格

由于 Windows 操作系统中存在 calibri 样式但 linux mac ios 中不存在 calibri 样式如果我的项目仅在 calibri 中具有其样式并且我必须严格使用它那么如果用户使用linux 并运行我的项目那
在android中使用Geocoder获取地址

我尝试通过提供静态地理坐标来获取特定位置的地址我无法获取地址有人可以帮忙吗我只需要检查这个功能是否适合我这是我的片段 Geocoder geocoder new Geocoder AddressSimulator this Loca
如何使用 docker-compose 将环境变量设置到 docker 容器中

我想设置凭据以使用 Google Translate Api 客户端因此我必须设置环境变量GOOGLE APPLICATION CREDENTIALS该值是凭证文件的路径来自 Google Cloud 当我被利用的时候docker bu
将未知长度的 char** (c) 转换为 vector (c++) [重复]

这个问题在这里已经有答案了如何将 C char 转换为 C 矢量是否有一些内置功能可以用来做到这一点或者通过一系列迭代步骤来完成它是否更好编辑由于各种原因 C 数组中的元素数量未知我可以将其作为另一个参数传递但这绝对有必要吗
如何在反应中使用复选框形式？

有两个组件container and presenter 下面的代码显示单个复选框状态变为 true 并且另一个复选框也正在更新那么如何处理具有状态的多个复选框容器 export default class ApplyFormCont
为什么点击设置innerHTML会在Chrome上触发两个解析事件？

使用Chrome开发者工具中的时间轴我使用了这一小段代码来记录事件内部HTML
如何分发 Android 库

我一直在为 android 库项目旋转一个 jar 并将这个 jar 包含在我的其他应用程序中但在developer android com上 http developer android com tools projects index
REST API 404：URI 错误或缺少资源？

我正在构建 REST API 但遇到了问题设计 REST API 时公认的做法似乎是如果请求的资源不存在则返回 404 然而对我来说这增加了不必要的歧义传统上 HTTP 404 与错误的 URI 相关所以实际上我们是说要么你
将 ILMerge 与 .NET 4 库结合使用

两个问题 1 基本 NET 程序集不包含在 ILMerged 程序集中从 NET 3 5 Visual Studio 2008 升级到 NET 4 Visual Studio 2010 后我在构建后使用 ILMerge 时遇到问题我有
以列表作为参数的 defun

我正在尝试选择 Lisp 作为我的新语言但我在解决如何让函数的一部分作用于传递给它的列表的每个元素上时遇到了一些问题为了学习如何解决这个问题我试图编写一个相当基本的除法形式当列表的一个元素为 0 时不会发出声音而是只返回 0 de
Java 中 String 享元实现的最佳替代方案

我的应用程序是多线程的具有密集的字符串处理我们遇到内存消耗过多的情况分析表明这是由字符串数据引起的我认为使用某种享元模式实现甚至缓存会极大地提高内存消耗我确信字符串经常是重复的尽管我在这方面没有任何硬数据我研究过 Java C
如何在关闭网页时丢弃会话变量？

我们在开发网页时遵循的一个流程是将页面绑定到一个或多个会话变量这些会话变量仅用于该页面用于保存当前处理对象因此在关闭页面时不需要它们如何在关闭页面时丢弃这些会话变量关于该技术或如何解决该问题有什么建议吗离开关闭页面时不会引发
如何以编程方式监视 docker 容器是否退出？

我在 VM 主机上运行多个命名的 docker 容器 200 多个我有一个管理器脚本代码应该从主机管理容器我想知道是否有任何基于事件的机制可以在容器停止失败时收到通知这样我就可以重新启动已停止的容器我能想到的一个解决方案是定期
何时使用枚举、类或标签？

假设您有一个特定页面类型的页面例如普通页面帐户页面等页面由 Page 对象表示我的问题是如何为页面分配页面类型我看到这些选项通过使用 Page 对象中设置的 PageType 枚举通过使用 PageType 类并在 Pag
如何使用每列以前的值填充缺失的信息？ [复制]

这个问题在这里已经有答案了可能的重复用最新的非 NA 值替换 NA https stackoverflow com questions 7735647 replacing nas with latest non na value 如何使
如何更改node.js中process.env.PORT的值？

我想改变的值process env PORT 我怎样才能做到这一点我运行的是 Ubuntu 12 04 仅运行一次在 unix shell 提示符下 PORT 1234 node app js 更永久 export PORT 1234
如何使用asyncio下载s3存储桶上的文件

我使用以下代码下载 s3 存储桶中的所有文件 def main bucket name destination dir bucket boto3 resource s3 Bucket bucket name for obj in bucke

如何使用asyncio下载s3存储桶上的文件

如何使用asyncio下载s3存储桶上的文件 的相关文章

随机推荐

热门标签

如何使用asyncio下载s3存储桶上的文件的相关文章