使用 dask 加载大型压缩数据集

2024-02-20

我正在尝试将一个大型压缩数据集加载到 python 中，其结构如下：

year.zip
- year
  - month
    - 很多 .csv 文件

到目前为止，我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们。

zf = ZipFile(year.zip)

for file in zf.namelist:
    try:
        pd.read_csv(zf.open(file))

这需要很长时间，我正在考虑优化代码。我遇到的一种选择是使用 dask 库。但是，我不知道如何最好地实现它以通过一个命令访问至少整个月的 CSV 文件。有什么建议么？也对其他优化方法持开放态度

有几种方法可以做到这一点。与您的建议最相似的是：

zf = ZipFile("year.zip")
files = list(zf.namelist)
parts = [dask.delayed(pandas.read_csv)(f) for f in files)]
df = dd.from_delayed(parts)

这是可行的，因为 zip 文件具有偏移列表，因此可以独立读取组件文件；但是，性能可能取决于存档的创建方式，请记住：您只有一个存储设备，无论如何，该设备的吞吐量可能是您的瓶颈。

也许更daskian的方法可以做到这一点如下，利用以下功能fsspec，dask 使用的文件系统抽象

df = dd.read_csv('zip://*.csv', storage_options={'fo': 'year.zip'})

（当然，选择适合您的文件的 glob 模式；如果您在文件前面添加“zip://”，您也可以在此处使用文件列表）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

zip

Dask

使用 dask 加载大型压缩数据集的相关文章

在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
C# 将数据写入 CSV 文件

我正在尝试写入csv使用 C 语言逐行文件这是我的功能 string first reader 0 ToString string second image ToString string csv string Format 0 1 n
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
如何使用 php 将 *.xlsb 转换为数组或 *.csv

我正在尝试转换 xlsb文件到php array or csv文件或至少 xls 我尝试使用PHPExcel 但看起来它无法识别该文件中的内容我注意到你可以重命名 xlsb文件到 zip文件然后使用命令行解压缩unzip zip 之
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

使用错误的表别名生成查询的原则

我正在尝试做一个简单的 gt find 使用原则规则 2 5 1 查询非常简单 this gt get order repository gt find 10 但这会生成一个复杂的查询选择 s0 number AS number 0 s
SYSTEM_HANDLE_INFORMATION结构

这个结构从何而来我知道它是在著名的 ntdll h 中声明的并且是未记录的 Windows API 的一部分但不同版本的windows之间不是有差异吗有没有办法从工作系统中转储这个结构我在 Windbg 中尝试了 dt SYSTE
如何复制内存

说我有 unsigned char varA varB varC varA malloc 64 varB malloc 32 varC malloc 32 我怎样才能把first将 32 字节的 varA 放入 varB 中last32字节
编写带有垂直标题的 HTML 表格的最常见方法？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案您编写具有垂直标题的 HTML 表格的首选方式是什么通过垂直标题我的意思是表格有标题 th 标签位于左侧通常 Header 1数据数据数据
最大连续数

我正在练习两个指针技术来解决最大连续数 LeetCode https leetcode com problems max consecutive ones 给定一个二进制数组找出该数组中连续 1 的最大数量示例1 Input 1 1 0
Html-Webpack-Plugin 模板：模块构建失败：SyntaxError：意外的标记

当我尝试使用 index ejs 模板文件使用 html webpack plugin 进行构建时会引发以下错误即使我尝试加载为 html 文件或安装 ejs loader 仍然失败我不确定 ejs loader 是否与 html w
mysql 错误 2002 (HY000): 无法通过套接字 '/var/run/mysqld/mysqld.sock' 连接到本地 MySQL 服务器 (2)

我使用在 Ubuntu 13 上安装了 MYSQL sudo apt get install mysql 但跑完之后 mysql u root p 然后输入密码就会出现错误 ERROR 2002 HY000 无法通过套接字连接到本地 M
在Python中初始化二维数组

我在 python 中初始化二维数组时遇到问题我想要一个 6x6 阵列我做到了 arr None 6 6 但是当我这样做时 gt gt gt arr 1 2 10 gt gt gt arr None None 10 None None
电子邮件中的 URL 是否已被搜索引擎索引，以便可以公开搜索？

我在这里阅读了一些有关电子邮件客户端预取电子邮件中的 URL 的问题对此的答案似乎是添加一个新的确认页面用户必须在其中单击按钮来确认所需的操作 But this https stackoverflow com a 42147812 11
外键到底是什么？

好的所以我知道数据库中的主键是什么如果数据库中有一个表则主键是表中每一行唯一的单个值例如 id name whatever 1 Alice 2 Bob 45 Eve 988 所以我需要一个好的简单的例子来解释外键到底是什么因为我
仅使用单精度浮点近似 [0,pi] 上的余弦

我目前正在研究余弦的近似值由于最终的目标设备是自行开发的 32 位浮点 ALU LU 并且有专门的 C 编译器因此我无法使用 C 库数学函数 cosf 我的目标是编写在准确性和指令周期数量方面有所不同的各种方法我已经尝试过很多不同的
空对象的条件类型

是否有可能有一个条件类型可以测试可以为空的对象例如 function test
如何将我自己的代码/函数和外部java库添加到azure函数应用程序

我编写了一些代码来在代码运行时创建一个文件我的计划是按照定期计划将其放在 Microsoft Azure 函数应用程序上因此它每小时或每天运行一次我将使用计时器触发器并在那里也有一个 HTTP 请求触发器进行测试但是我不知道在哪里
计算 C 中一致字符串的数量

所以这是 leetcode 的一个问题我遇到了一些问题我已经看到解决这个问题的代码发布到 leetcode 的讨论部分但我想知道是否有人可以帮助我解决这个问题我已经写过的代码这就是问题所在给你一个字符串allowed由不同的字符和
Visual Studio：针对私有和内部成员缺少 XML 文档发出警告

我正在使用 Visual Studio 2005 VS 8 0 并且我希望强制执行所有类成员而不仅仅是公共成员都被记录的要求虽然设置 Visual Studio 在公共受保护或内部受保护成员未记录时生成警告很简单但我正在寻找一种方
Cygwin 中的 .seh_savexmm 寄存器无效

制作我曾使用 cygwin 但遇到编译错误我不确定 seh savexmm 的无效寄存器是什么请帮我我在谷歌上搜索了这个问题但没有找到问题很多但没有灵魂请帮我 perl generate functions pl file o
如何在 VSCode 中使用 yapf（或 black）

我使用以下命令安装了 yapf conda install yapf 并在我的中添加下一行 vscode settings json file python linting pylintEnabled true python linting
使用 Firebase 云功能实现发送电子邮件

对于我们的网络应用程序我们目前使用 Firebase 的免费计划并且需要发送有关各种事件触发器的电子邮件问题是我认为 Mailgun 及其云功能可以完美地完成此任务但看起来只能将其 API 与 Firebase 的付费计划一起使
无法在 C++20 中将 std::cin 与 char* 或 char[] 一起使用

It used上班阅读std cin到动态分配的chararray 或作为参数传入的数组请参阅下面的 MCVE include
使用 dask 加载大型压缩数据集

我正在尝试将一个大型压缩数据集加载到 python 中其结构如下 year zip year month 很多 csv 文件到目前为止我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi

使用 dask 加载大型压缩数据集

使用 dask 加载大型压缩数据集 的相关文章

随机推荐

热门标签

使用 dask 加载大型压缩数据集的相关文章