Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何转置 dask 数据框(将列转换为行)以实现整洁的数据原则
TLDR 我从 dask bag 创建了一个 dask 数据框 dask 数据框将每个观察 事件 视为一列 因此 我没有为每个事件提供几行数据 而是为每个事件提供一列 目标是将列转置为行 就像 pandas 使用 df T 转置数据帧一样
python
twitter
DataFrame
transpose
Dask
Dask Workers 有哪些活动线程?
当运行 Dask 工作线程时 我注意到有一些额外的线程超出了我的预期 我应该看到 Dask Worker 运行多少个线程以及它们在做什么 Dask 工作线程有以下线程 用于运行任务的线程池 这通常介于 1 和计算机上逻辑核心的数量之间 一个
Dask
使用 csv 读取将值添加到 DASK 数据帧导入的列
假设使用以下命令将五个文件导入到 DASKcsv read 为此 我使用以下代码 import dask dataframe as dd data dd read csv final file list msg header None 每个
python
csv
DataFrame
Dask
从 dask 读取并行 excel 表
您好 到目前为止我遇到的使用 dask 的所有示例都有 使用 dask read csv 读取文件夹中的多个 csv 文件 称呼 如果我提供了一个包含多个选项卡的 xlsx 文件 我可以使用任何内容吗 在DASK并行阅读它们 附 我正在使用
python27
Dask
如何高效地将 npy 转换为 xarray / zarr
我有一个 37 GB 的 npy 文件 我想将其转换为 Zarr 存储 以便可以包含坐标标签 理论上我有代码可以做到这一点 但我总是内存不足 我想在中间使用 Dask 来促进分块执行此操作 但我仍然耗尽内存 这些数据是人们股骨软骨的 厚度图
python
Dask
pythonxarray
zarr
使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe
我正在努力转换dask bag的字典到dask delayed pandas DataFrames进入决赛dask dataframe 我有一个函数 make dict 将文件读入相当复杂的嵌套字典结构 另一个函数 make df 将这些字
Dask
daskdelayed
将文件夹中的许多羽毛文件加载到dask中
一个文件夹有很多 feather文件 我想将它们全部加载到 python 中的 dask 中 到目前为止 我已经尝试了以下来自 GitHub 上类似问题的内容https github com dask dask issues 1277 fi
python
pandas
Dask
feather
沿 dask 数组的轴应用函数
我正在分析来自气候模型模拟的海洋温度数据 其中 4D 数据数组 时间 深度 纬度 经度 表示为dask array下面 通常具有 6000 31 189 192 的形状和 25GB 的大小 因此我希望使用 dask 尝试使用 numpy 处
python
Dask
如何指定dask用于临时文件的目录?
Dask 似乎写入 tmp 文件夹 如何更改 dask 用于临时文件的文件夹 Setting TMPDIR可能会导致问题 因为它也可能影响其他应用程序 另一种方法是使用dask config set gt gt gt import dask
Dask
在 Dask 中排序
我想找到替代方案pandas dataframe sort value在 dask 中运行 我走过来了设置索引 但它会按单个列排序 如何对 Dask 数据框的多列进行排序 目前为止Dask似乎还不支持多列排序 但是 创建一个新列来连接已排序
Sorting
Dask
daskdistributed
daskdelayed
在 Dask DataFrame.apply() 上,在处理实际行之前接收 n 行值 1
在下面的代码片段中 我希望日志打印数字 0 4 我知道数字可能不是按这个顺序 因为任务将被分解为多个并行操作 代码片段 from dask import dataframe as dd import numpy as np import p
python
parallelprocessing
Dask
Dask For 并行循环
我正在尝试找到使用带有 dask 延迟的 for 循环的正确语法 我找到了几个教程和其他问题 但没有一个适合我的条件 这是非常基础的 首先 这是并行运行 for 循环的正确方法吗 time list names a b c d keep r
Dask
daskdelayed
如何检查 dask 数据框是否为空
有没有相当于 pandas 的 daskempty功能 我想检查 dask 数据框是否为空 但是df empty return AttributeError DataFrame object has no attribute empty D
python
pandas
Dask
将 Dask 标量转换为整数值(或将其保存到文本文件)
我已经计算过使用dask by from dask import dataframe all data dataframe read csv path total sum all data account balance sum csv 文
python
pandas
csv
Dask
Dask 不支持项目分配
我们可以通过哪些方式在 Dask 数组中执行项目分配 即使是非常简单的项目分配 例如 a 0 2 不起作用 正确的 这是文档中指出的第一个限制 一般来说 涉及 for 循环和直接分配各个元素的工作流程很难并行化 Dask 阵列没有进行此尝试
Dask
DASK:Typerrror:列分配不支持 numpy.ndarray 类型,而 Pandas 工作正常
我正在使用 Dask 读取 10m 行 csv 并执行一些计算 到目前为止 它被证明比 Pandas 快 10 倍 下面我有一段代码 与 pandas 一起使用时工作正常 但与 dask 一起使用时会引发类型错误 我不确定如何克服打字错误
python
pandas
NumPy
Dask
将本地文件从客户端加载到dask分布式集群上
这是一个初学者问题 但我无法找到相关的答案 基本上 我的有关 7GB 的数据位于我的本地计算机上 我有在本地网络上运行的分布式集群 我怎样才能把这个文件放到集群上 通常的 dd read csv 或 read parquet 会失败 因为工
python
python3x
Dask
Dask read_csv 失败,而 pandas 则失败
尝试使用 dask 的read csv在文件中 pandas 的位置read csv像这样 dd read csv data ecommerce new csv 失败并出现以下错误 pandas errors ParserError Err
python
pandas
Dask
Python dask 数组对象的项分配
我创建了一个 Python dask 数组 并尝试按如下方式修改数组的一部分 import numpy as np import dask array as da x np random random 20000 100 100 Creat
python27
Dask
map_partitions的返回值是多少?
dask API 表示 map partition 可用于 在每个 DataFrame 分区上应用 Python 函数 根据此描述并根据 map 的通常行为 我期望 map partitions 的返回值是 类似于 一个长度等于分区数量的列
python
pandas
Dask
«
1
2
3
4
5
6
7
»