Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何将压缩的 (gz) CSV 文件读入 dask Dataframe 中?
有没有办法读取通过 gz 压缩到 dask 数据帧中的 csv 文件 我直接尝试过 import dask dataframe as dd df dd read csv Data gz 但出现 unicode 错误 可能是因为它正在解释压缩
python
csv
pandas
Dask
dask 持久行为不一致
如果我注释掉这一行 我发现 dask 的奇怪行为仍然存在 client Client memory limit 20GB n workers 1 Connect to distributed cluster and override def
python
python3x
Dask
daskdistributed
如何从 Dask-Yarn 作业中捕获工人的日志?
我尝试过使用以下内容 config dask distributed yaml and config dask yarn yaml logging file config path to config ini or logging vers
Dask
如何使用 Dask.array 高效地将大型 numpy 数组发送到集群
我的本地计算机上有一个大型 NumPy 数组 我想将其与集群上的 Dask array 并行化 import numpy as np x np random random 1000 1000 1000 然而 当我使用 dask array
NumPy
Dask
Dask 数据帧连接并重新分区大文件以实现时间序列和关联
我有 11 年的数据 每秒一条记录 行 大约超过 100 列 它用一系列日期时间进行索引 用 Pandas 创建to datetime 我们需要能够在列之间进行一些相关性分析 这样一次只能加载 2 列 我们可能会在长达 11 年的时间内以较
python
DataFrame
concatenation
Dask
Dask Dataframe 将列表的列拆分为多列
在 Pandas 中可以轻松完成相同的任务 import pandas as pd df pd DataFrame lists i i 1 for i in range 10 df left right pd DataFrame x for
python
pandas
DataFrame
Dask
使用 Dask 导入大型 CSV 文件
我正在使用 Dask 导入一个非常大的 csv 文件 680GB 但是 输出不是我所期望的 我的目标是仅选择一些列 6 50 并可能过滤它们 我不确定 因为似乎没有数据 import dask dataframe as dd file pa
python
DataFrame
Dask
daskdataframe
vaex
Pandas 数据帧太大而无法附加到 dask 数据帧?
我不确定我在这里缺少什么 我认为 dask 可以解决我的内存问题 我有 100 多个以 pickle 格式保存的 pandas 数据帧 我希望将它们全部放在同一个数据框中 但不断遇到内存问题 我已经增加了 jupyter 中的内存缓冲区 看
python
pandas
DataFrame
jupyter
Dask
如何使用 dask/dask-cudf 将单个大型镶木地板文件读取到多个分区?
我正在尝试阅读一个大的parquet文件 大小 gt gpu size 使用dask cudf dask但它目前正在将其读入单个分区 我猜测这是从文档字符串推断出的预期行为 dask dataframe read parquet path
Dask
cudf
替换 dask 数据框分区
我可以将 dask 数据帧分区替换为我单独创建的另一个具有相同行数和相同结构的 dask 数据帧分区吗 如果是 怎么办 是否可以使用不同的行数 您可以使用以下命令将分区添加到 Dask 数据帧的开头或结尾dd concat功能 您可以通过切
Dask
核心 4D 图像 tif 存储为 hdf5 python
我有 27GB 的 2D tiff 文件 代表 3D 图像电影的切片 我希望能够像简单的 numpy4d 数组一样对这些数据进行切片 看起来 dask array 是一个很好的工具 可以在数组作为 hdf5 文件存储在内存中后干净地操作数组
python
h5py
Dask
为什么 Pandas 中的多重处理比简单计算慢?
这与如何在 Pandas 中使用 apply 并行化许多 模糊 字符串比较 再次考虑这个简单 但有趣 的例子 import dask dataframe as dd import dask multiprocessing import da
python
pandas
multiprocessing
pythonmultiprocessing
Dask
如何在Dask中进行行处理和项目分配
类似的未回答问题 Dask DataFrame 的逐行处理 我正在处理数百万行长的数据帧 因此现在我尝试并行执行所有数据帧操作 我需要转换为 Dask 的此类操作之一是 for row in df itertuples ratio row
python
pandas
DataFrame
Dask
从 dask 中具有多个值的列创建虚拟对象
我的问题与此主题类似从 pandas 中具有多个值的列创建虚拟对象 目标 我想在下面产生类似的结果 但使用 dask 在熊猫中 import pandas as pd df pd DataFrame fruit Banana Apple D
Dask
即使有块,Dask 也会出现内存不足的情况
我正在处理大型 CSV 文件并且我需要制作笛卡尔积 合并操作 我尝试用 Pandas 来解决这个问题 你可以检查 Panda 的代码和数据格式示例对于同样的问题 here 由于内存错误而没有成功 现在 我正在尝试使用 Dask 它应该可以管
python
python3x
Dask
从嵌套字典创建 Dataframe
我正在尝试从具有嵌套字典的值列表创建一个数据框所以这是我的数据 d user 200 p val a 10 b 200 f val a 20 b 300 life 8 user 202 p val a 100 b 200 f val a 2
python3x
pandas
Dask
使用 SQLAlchemy 表达式时 Dask read_sql_table 出错
我正在尝试将 SQLAlchemy 表达式与 dask 的 read sql table 结合使用 以获取通过连接和过滤几个不同表创建的数据集 这文档表明这应该是可能的 下面的示例不包含任何联接 因为不需要它们来复制问题 我构建连接字符串
python
python3x
sqlalchemy
Dask
使用变量设置 Dask Worker
我想在工作人员加载时分发一个更大的对象 或从磁盘加载 并将其放入全局变量 例如calib data 这对 Dask 工作人员有用吗 好像是客户端方法注册工人回调在这种情况下可以做你想做的事 你仍然需要某处放置你的变量 因为在 python
Dask
如何转置 dask 数据框(将列转换为行)以实现整洁的数据原则
TLDR 我从 dask bag 创建了一个 dask 数据框 dask 数据框将每个观察 事件 视为一列 因此 我没有为每个事件提供几行数据 而是为每个事件提供一列 目标是将列转置为行 就像 pandas 使用 df T 转置数据帧一样
python
twitter
DataFrame
transpose
Dask
Dask Workers 有哪些活动线程?
当运行 Dask 工作线程时 我注意到有一些额外的线程超出了我的预期 我应该看到 Dask Worker 运行多少个线程以及它们在做什么 Dask 工作线程有以下线程 用于运行任务的线程池 这通常介于 1 和计算机上逻辑核心的数量之间 一个
Dask
«
1
2
3
4
5
6
7
»