Dask

如何将压缩的 (gz) CSV 文件读入 dask Dataframe 中？

有没有办法读取通过 gz 压缩到 dask 数据帧中的 csv 文件我直接尝试过 import dask dataframe as dd df dd read csv Data gz 但出现 unicode 错误可能是因为它正在解释压缩

python csv pandas Dask

dask 持久行为不一致

如果我注释掉这一行我发现 dask 的奇怪行为仍然存在 client Client memory limit 20GB n workers 1 Connect to distributed cluster and override def

python python3x Dask daskdistributed

如何从 Dask-Yarn 作业中捕获工人的日志？

我尝试过使用以下内容 config dask distributed yaml and config dask yarn yaml logging file config path to config ini or logging vers

Dask

如何使用 Dask.array 高效地将大型 numpy 数组发送到集群

我的本地计算机上有一个大型 NumPy 数组我想将其与集群上的 Dask array 并行化 import numpy as np x np random random 1000 1000 1000 然而当我使用 dask array

NumPy Dask

Dask 数据帧连接并重新分区大文件以实现时间序列和关联

我有 11 年的数据每秒一条记录行大约超过 100 列它用一系列日期时间进行索引用 Pandas 创建to datetime 我们需要能够在列之间进行一些相关性分析这样一次只能加载 2 列我们可能会在长达 11 年的时间内以较

python DataFrame concatenation Dask

Dask Dataframe 将列表的列拆分为多列

在 Pandas 中可以轻松完成相同的任务 import pandas as pd df pd DataFrame lists i i 1 for i in range 10 df left right pd DataFrame x for

python pandas DataFrame Dask

使用 Dask 导入大型 CSV 文件

我正在使用 Dask 导入一个非常大的 csv 文件 680GB 但是输出不是我所期望的我的目标是仅选择一些列 6 50 并可能过滤它们我不确定因为似乎没有数据 import dask dataframe as dd file pa

python DataFrame Dask daskdataframe vaex

Pandas 数据帧太大而无法附加到 dask 数据帧？

我不确定我在这里缺少什么我认为 dask 可以解决我的内存问题我有 100 多个以 pickle 格式保存的 pandas 数据帧我希望将它们全部放在同一个数据框中但不断遇到内存问题我已经增加了 jupyter 中的内存缓冲区看

python pandas DataFrame jupyter Dask

如何使用 dask/dask-cudf 将单个大型镶木地板文件读取到多个分区？

我正在尝试阅读一个大的parquet文件大小 gt gpu size 使用dask cudf dask但它目前正在将其读入单个分区我猜测这是从文档字符串推断出的预期行为 dask dataframe read parquet path

Dask cudf

替换 dask 数据框分区

我可以将 dask 数据帧分区替换为我单独创建的另一个具有相同行数和相同结构的 dask 数据帧分区吗如果是怎么办是否可以使用不同的行数您可以使用以下命令将分区添加到 Dask 数据帧的开头或结尾dd concat功能您可以通过切

Dask

核心 4D 图像 tif 存储为 hdf5 python

我有 27GB 的 2D tiff 文件代表 3D 图像电影的切片我希望能够像简单的 numpy4d 数组一样对这些数据进行切片看起来 dask array 是一个很好的工具可以在数组作为 hdf5 文件存储在内存中后干净地操作数组

python h5py Dask

为什么 Pandas 中的多重处理比简单计算慢？

这与如何在 Pandas 中使用 apply 并行化许多模糊字符串比较再次考虑这个简单但有趣的例子 import dask dataframe as dd import dask multiprocessing import da

python pandas multiprocessing pythonmultiprocessing Dask

如何在Dask中进行行处理和项目分配

类似的未回答问题 Dask DataFrame 的逐行处理我正在处理数百万行长的数据帧因此现在我尝试并行执行所有数据帧操作我需要转换为 Dask 的此类操作之一是 for row in df itertuples ratio row

python pandas DataFrame Dask

从 dask 中具有多个值的列创建虚拟对象

我的问题与此主题类似从 pandas 中具有多个值的列创建虚拟对象目标我想在下面产生类似的结果但使用 dask 在熊猫中 import pandas as pd df pd DataFrame fruit Banana Apple D

Dask

即使有块，Dask 也会出现内存不足的情况

我正在处理大型 CSV 文件并且我需要制作笛卡尔积合并操作我尝试用 Pandas 来解决这个问题你可以检查 Panda 的代码和数据格式示例对于同样的问题 here 由于内存错误而没有成功现在我正在尝试使用 Dask 它应该可以管

python python3x Dask

从嵌套字典创建 Dataframe

我正在尝试从具有嵌套字典的值列表创建一个数据框所以这是我的数据 d user 200 p val a 10 b 200 f val a 20 b 300 life 8 user 202 p val a 100 b 200 f val a 2

python3x pandas Dask

使用 SQLAlchemy 表达式时 Dask read_sql_table 出错

我正在尝试将 SQLAlchemy 表达式与 dask 的 read sql table 结合使用以获取通过连接和过滤几个不同表创建的数据集这文档表明这应该是可能的下面的示例不包含任何联接因为不需要它们来复制问题我构建连接字符串

python python3x sqlalchemy Dask

使用变量设置 Dask Worker

我想在工作人员加载时分发一个更大的对象或从磁盘加载并将其放入全局变量例如calib data 这对 Dask 工作人员有用吗好像是客户端方法注册工人回调在这种情况下可以做你想做的事你仍然需要某处放置你的变量因为在 python

Dask

如何转置 dask 数据框（将列转换为行）以实现整洁的数据原则

TLDR 我从 dask bag 创建了一个 dask 数据框 dask 数据框将每个观察事件视为一列因此我没有为每个事件提供几行数据而是为每个事件提供一列目标是将列转置为行就像 pandas 使用 df T 转置数据帧一样

python twitter DataFrame transpose Dask

Dask Workers 有哪些活动线程？

当运行 Dask 工作线程时我注意到有一些额外的线程超出了我的预期我应该看到 Dask Worker 运行多少个线程以及它们在做什么 Dask 工作线程有以下线程用于运行任务的线程池这通常介于 1 和计算机上逻辑核心的数量之间一个

Dask