使用 dask 加载大型数据集

2024-01-17

我处于具有集群、紧密耦合互连和支持 Lustre 文件系统的 HPC 环境中。我们一直在探索如何利用 Dask 不仅提供计算，而且充当分布式缓存来加速我们的工作流程。我们专有的数据格式是 n 维且规则的，并且我们编写了一个惰性读取器以传递到 from_array/from_delayed 方法中。

我们在跨 Dask 集群加载和保存大于内存的数据集时遇到了一些问题。

hdf5 示例：

# Dask scheduler has been started and connected to 8 workers
# spread out on 8 machines, each with --memory-limit=150e9.
# File locking for reading hdf5 is also turned off
from dask.distributed import Client
c = Client({ip_of_scheduler})
import dask.array as da
import h5py
hf = h5py.File('path_to_600GB_hdf5_file', 'r')
ds = hf[hf.keys()[0]]
x = da.from_array(ds, chunks=(100, -1, -1))
x = c.persist(x) # takes 40 minutes, far below network and filesystem capabilities
print x[300000,:,:].compute() # works as expected

我们还从我们自己的一些文件格式加载了数据集（使用切片、dask.delayed 和 from_delayed），并且随着文件大小的增加，性能也出现了类似的下降。

我的问题：使用 Dask 作为分布式缓存是否存在固有的瓶颈？所有数据都会被迫通过调度程序吗？工作人员是否能够利用 Lustre，或者功能和/或 I/O 是否以某种方式序列化？如果是这样的话，不对海量数据集调用 persist，而只让 Dask 在需要时处理数据和计算会更有效吗？

使用 Dask 作为分布式缓存是否存在固有的瓶颈？

每个系统都存在瓶颈，但听起来您还没有接近我期望 Dask 遇到的瓶颈。我怀疑你遇到了其他事情。
所有数据都会被迫通过调度程序吗？

不，工作人员可以执行自己加载数据的函数。这些数据将保留在工作人员身上。
工作人员是否能够利用 Lustre，或者功能和/或 I/O 是否以某种方式序列化？

Workers 只是 Python 进程，因此如果集群上运行的 Python 进程可以利用 Lustre（几乎可以肯定是这种情况），那么 Dask Workers 就可以利用 Lustre。
如果是这样的话，不对海量数据集调用 persist，而只让 Dask 在需要时处理数据和计算会更有效吗？

这当然很常见。这里需要权衡 NFS 的分布式带宽和分布式内存的可用性。

在你的位置上，我会使用 Dask 的诊断来找出是什么占用了这么多时间。您可能想阅读有关的文档了解绩效 http://dask.pydata.org/en/latest/understanding-performance.html以及关于仪表板 http://dask.pydata.org/en/latest/diagnostics-distributed.html尤其。该部分有一个视频可能特别有帮助。我想问两个问题：

工人是否一直在执行任务？（状态页、任务流图）
在这些任务中，什么占用了时间？（个人资料页）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDF5

Dask

使用 dask 加载大型数据集的相关文章

从多个 hdf5 组创建数据集

从多个 hdf5 组创建数据集团体代码 np array hdf get all my groups 然后我添加了用于从组创建数据集的代码 with h5py File train h5 w as hdf hdf create datas
在python中读取15M行csv文件的有效方法

对于我的应用程序我需要读取多个文件每个文件有 15 M 行将它们存储在 DataFrame 中并将 DataFrame 保存为 HDFS5 格式我已经尝试过不同的方法特别是具有 chunksize 和 dtype 规范的 pan
无法转置 dask.dataframe - 出现未绑定本地错误

我正在尝试转置一个非常大的数据框由于文件的大小我使用了 Dask 并搜索了如何转置 dask 数据帧 import pandas as pd import numpy as np import dask dataframe as dd
Dask 数据帧并行任务

我想从数据帧创建功能附加列并且我有以下许多功能的结构遵循本文档https docs dask org en stable delayed best practices html https docs dask org en stabl
使用 HDF5 进行大型数组存储（而不是平面二进制文件）是否具有分析速度或内存使用优势？

我正在处理大型 3D 数组我经常需要以各种方式对其进行切片以进行各种数据分析典型的立方体可以约为 100GB 并且将来可能会变得更大看来Python中大型数据集的典型推荐文件格式是使用HDF5 h5py或pytables 我的问题
将多个 csv 文件读取到 HDF5 时出现 Pandas ParserError EOF 字符

使用Python3 Pandas 0 12 我正在尝试将多个 csv 文件总大小为 7 9 GB 写入 HDF5 存储以供稍后处理每个 csv 文件包含大约 100 万行 15 列数据类型主要是字符串但也有一些浮点数但是当我尝试
C/C++ HDF5 读取字符串属性

我的一位同事使用labview在HDF5文件中写入一个ASCII字符串作为属性我可以看到该属性存在并读取它但无法打印它该属性如 HDF Viewer 中所示日期 2015 07 09 所以日期就是它的名字我正在尝试使用此代码读
生成 parquet 文件 - R 和 Python 之间的差异

我们已经生成了一个parquet文件输入Dask Python 并与Drill R 使用Sergeant包我们注意到几个问题的格式Dask i e fastparquet has a metadata and a common meta
在 Python 中将分层 pandas DatetimeIndex 保存到 hdf5 时丢失时区感知

我使用的是 pandas 0 14 1 假设我需要使用时区按分层索引中的两个时间戳对数据进行索引将生成的 DataFrame 保存到 hdf5 时我似乎失去了时区意识 import pandas as pd dti1 pd Dateti
Python（pandas）：使用多索引将数据帧存储在hdf5中

我需要使用具有多索引的大尺寸数据框因此我尝试创建一个数据框来学习如何将其存储在 hdf5 文件中数据框是这样的前2列有多重索引 Symbol Date 0 C 2014 07 21 4792 B 2014 07 21 4492 A 2
如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

我将 pandas 中的数据帧保存在 HDF5 文件中 import numpy as np import pandas as pd np random seed 1 frame pd DataFrame np random randn 4
dask 数据帧 head() 返回空 df

我有一个 dask 数据框其中一列上有索引问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目因此如果我执行 df re
dask 中不支持项目分配的解决方法

我正在尝试将我的代码库从 numpy 数组转换为 dask 因为我的 numpy 数组超出了Memory Error限制但是我发现可变数组的功能尚未实现dask arrays所以我得到了 NotImplementedError Item
缺少 hdf5 的依赖项：图腾

安装以下命令时出现如下错误 parag parag torch hdf5 sudo luarocks make hdf5 0 0 rockspec LIBHDF5 LIBDIR usr lib x86 64 linux gnu Missin
Dask“没有名为 xxxx 的模块”错误

使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数在工人中我有以下错误没有名为 worker 的模块但是我无法弄清楚我在这里做错了什么这是我的代码示例 import worker def run self
将 lambda 函数应用于 dask 数据框

我正在寻找申请lambda如果列中的标签小于一定百分比则使用 dask 数据框的函数来更改列中的标签我使用的方法适用于 pandas 数据框但相同的代码不适用于 dask 数据框代码如下 df pd DataFrame A ant
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample
如何查找分布式dask中任务失败的原因？

我正在开发一个分布式计算系统dask distributed 我通过以下方式提交给它的任务Executor map功能有时会失败而其他看起来相同的功能却可以成功运行该框架是否提供了诊断问题的方法 update我所说的失败是指增加 Bok
测试 hdf5/c++ 中的组是否存在

我正在打开一个现有的 HDF5 文件来附加数据我想向那个叫做的小组保证 A存在以供后续访问我正在寻找一种简单的方法来创建 A有条件地如果不存在则创建并返回新组或者返回现有组一种方法是测试 A存在我怎样才能高效地做到这一点根据
在 Dask 中，是否有一种方法可以在依赖项可用时对其进行处理，如 multiprocessing.imap_unordered 中那样？

我有一个简单的图形结构它接受 N 个独立的任务然后聚合它们我不关心独立任务的结果以什么顺序聚合有没有一种方法可以通过在依赖项变得可用时对其进行操作来加速计算考虑以下示例其中并行任务各自等待一段随机时间然后返回另一项任务收集

随机推荐

HTTP 与 HTTPS 性能

http 和 https 之间的性能有什么重大差异吗我似乎记得读到过 HTTPS 的速度是 HTTP 的五分之一这对于当前一代网络服务器浏览器有效吗如果是的话有任何白皮书支持吗对此有一个非常简单的答案分析您的 Web 服务器的
如何从文本中提取命名实体+动词

嗯我的目标是从文本中提取 NE 人和与其相关的动词例如我有这样的文字邓布利多转身沿着街道走回去哈利波特在毯子里翻了个身没有醒来作为理想的结果我应该得到邓布利多转身走了哈利波特卷起我使用斯坦福 NER 来查找和标记人
Angular 5 与 Canvas drawImage 未显示

尝试使用drawImage 将背景图像添加到画布但它没有显示我知道图像的路径是正确的因为我可以 img src 那行得通其他一切在 JavaScript 中都可以正常工作但不能很好地转换为 Angular HTML
使用 Jquery 删除 CSS 属性

我发现的所有其他答案仅删除属性的设置而不是完全删除属性我正在将元素从绝对定位更改为固定定位我需要删除 right 定位属性并将其替换为 margin right 以便该元素位于其父 DIV 内的右侧如果没有删除 right 属性该
加盐和哈希，为什么不使用用户名？

我必须承认我对大多数与 Web 应用程序相关的高科技安全问题一无所知但我至少认为我可以问一件事因为这是一个直接的问题并且希望有具体的答案以这个网站为例 http www 15seconds com issue 000217 ht
如何在 macOS 上使用终端重新启动 android adb？

我一直遇到 Android Studio ADB 无法识别我的设备的问题到目前为止我找到的唯一解决方案是完全重新启动整个计算机但这是不切实际的我希望能够从终端重新启动 ADB 因为我在这里看到了其他帖子声称它将解决该问题但是我
无法在 HTC One M8 Lollipop 上进行 systrace

我正在尝试使用systrace来自 Android Studio 的默认设置systrace选项设置我还没有root手机 HTC Sense v6 0 Android 5 0 1 HTC SDK API 级别 6 55 当我这样做时我得
如何在Java中生成随机JSON字符串？

我想测试apache kafka的一个功能所以我需要用Java生成随机JSON字符串我的生产数据是JSON格式我用谷歌搜索找到了这些网站如何生成随机字母数字字符串 https stackoverflow com questions
根据滚动隐藏和显示工具栏

这个问题仅涉及代号一我需要使 Codename One Form 的工具栏移动如该视频所示 https www informatica libera net videoLavoro hideShowToolbarOnScrolling
排序日期和时间

我正在尝试编写一个控制台应用程序来根据开始日期按升序对我的日期和时间进行排序这是我正在尝试做的一个示例我的输入 break Start1 15 02 12 12 30PM break End1 15 02 12 01 30PM brea
如何利用 FileReader 的异步特性实现进度条和回调

我在 for 循环中调用了 FileReader API 以迭代多个文件对象我使用 FileReader 本质上显示图像的预览 function for var i in Files var fileReader new FileRead
在 .NET 中，如何在不重新压缩 JPEG 的情况下编写 Exif 标头？

我有一个JPEG http en wikipedia org wiki JPEG我想要设置的图像Exif http en wikipedia org wiki Exchangeable image file format标题特别是作者在
限制Spring Boot中的Tomcat只能访问某些IP地址

我需要将基于 Spring Boot 的应用程序的嵌入式 tomcat 限制为某些 IP 地址我只想允许来自两个 IP 地址的传入连接而不是全部我知道如何在未运行嵌入式的 Tomcat 中执行此操作但不知道在 Spring Boot
使用 Travis CI 将 Maven 版本部署到 Github

我成功地使用标签将 JAR 从 Maven 项目部署到了 Github 但是当前配置假设 JAR 的文件名始终保持不变但事实并非如此当我发布新版本时这将相应更改因此部署将失败有没有办法在 YAML 文件中使用通配符根据我在 S
使用 PouchDB 过滤设计文档

我正在使用设计文档来确保只有所有者才能修改文档如何防止 couchdb 复制此设计文档您可以使用过滤选项 http pouchdb com api html replication in changes and replicate e
ZF2：Zend Framework 2 完整 URL（包括主机名）

在我看来我需要绘制完整的 URL 像这样 http hostename com default url 当我尝试使用时 this gt url default array 1 2 3 我只得到 index get 有没有任何 Zend 方
Carrierwave - 如果文件类型不在白名单上，则触发存在验证

在我的 Rails 4 应用程序中我使用 Carrierwave 上传图像 class UserItemImage lt ActiveRecord Base include PicturesHelper attr accessor foo
占位符张量需要机器学习引擎预测中的值，但不需要本地预测

我一直在开发一个与云 ML 引擎的在线预测服务一起使用的模型我的模型包含一个placeholder with default我用它来保存预测显着性阈值的张量 threshold tf placeholder with default 0
Backbone.js：更改未在 model.change() 上触发

我在 Backbone js 上面临更改事件未触发问题这是我对用户模型的看法 window UserView Backbone View extend initialize function this model on destroy
使用 dask 加载大型数据集

我处于具有集群紧密耦合互连和支持 Lustre 文件系统的 HPC 环境中我们一直在探索如何利用 Dask 不仅提供计算而且充当分布式缓存来加速我们的工作流程我们专有的数据格式是 n 维且规则的并且我们编写了一个惰性读取器以传递到

使用 dask 加载大型数据集

使用 dask 加载大型数据集 的相关文章

随机推荐

热门标签

使用 dask 加载大型数据集的相关文章