Dask

dask 数据帧 head() 返回空 df

我有一个 dask 数据框其中一列上有索引问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目因此如果我执行 df re

python Dask

使用非唯一索引列日期提取 Dask 数据框中的最新值

我对 pandas 数据帧非常熟悉但对 Dask 还很陌生所以我仍在尝试并行化我的代码我已经使用 pandas 和 pandarallel 获得了我想要的结果所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度假设

python pandas Dask

python 或 dask 并行生成器？

是否有可能在Python中也许使用dask 也许使用多重处理将生成器放置在核心上然后并行地单步执行生成器并处理结果它需要特别是生成器或带有 iter 生成器生成的所有生成元素的列表不适合内存尤其有了熊猫我可以打电话rea

python pandas pythonmultiprocessing Dask

Dask 的默认 pip 安装给出“ImportError：没有名为 toolz 的模块”

我安装了Dask https github com dask dask像这样使用点 pip install dask 当我尝试做时import dask dataframe as dd我收到以下错误消息 gt gt gt import da

python installation pip ImportError Dask

Dask 分布式。如何在正在计算的函数中获取任务密钥ID？

我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job

python27 Distributed distributedcomputing Dask

如何在单线程中运行 dask.distributed 集群？

如何在单个线程中运行完整的 Dask distributed 集群我想用它来调试或分析注意这是一个常见问题我将这里的问题和答案添加到 Stack Overflow 中仅供将来重用本地调度程序如果您可以使用单机调度程序的 API

python Dask

如何加快大型 xlsx 文件的导入速度？

我想要处理一个 200MB 的大型 Excel xlsx 文件包含 15 个工作表和 100 万行每行 5 列并根据数据创建 pandas 数据框 Excel 文件的导入速度非常慢最多 10 分钟不幸的是 Excel 导入文件格式

python pandas openpyxl Dask xlrd

计算 Dask 中过去 n 天的滚动平均值

我正在尝试计算大型数据集过去 n 天 n 30 的滚动平均值在 Pandas 中我将使用以下命令 temp chunk groupby id code apply lambda x x set index entry time flat

python pandas Dask daskdataframe

生成 parquet 文件 - R 和 Python 之间的差异

我们已经生成了一个parquet文件输入Dask Python 并与Drill R 使用Sergeant包我们注意到几个问题的格式Dask i e fastparquet has a metadata and a common meta

r parquet Dask apachedrill fastparquet

数据类型映射参数中的键只能使用列名

我已经使用 dask read sql table 从 Oracle 数据库成功引入了一张表但是当我尝试引入另一个表时出现此错误KeyError 只有列名可以用作数据类型映射参数中的键我已经检查了我的连接字符串和架构所有这些都很好

python pandas Dask

重塑 dask 数组（从 dask 数据框列获得）

我是 dask 新手正在尝试弄清楚如何重塑从 dask 数据帧的单列获得的 dask 数组但遇到了错误想知道是否有人知道修复方法无需强制计算谢谢 Example import pandas as pd import numpy a

python Dask

如何获得DataFrame的n个最长条目？

我正在尝试获取 dask DataFrame 的 n 个最长条目我尝试打电话nlargest https docs dask org en latest dataframe api html dask dataframe DataFram

python Dask

使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个

pandas Dask largedata

如何从 url 列表创建 Dask DataFrame？

我有一个 URL 列表我很想将它们读取到 dask 数据框中立刻但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗这是一个例子 link http web mta info developers data d

python pandas Dask

使用 dask 加载大型压缩数据集

我正在尝试将一个大型压缩数据集加载到 python 中其结构如下 year zip year month 很多 csv 文件到目前为止我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi

python pandas csv zip Dask

Dask 数据帧并行任务

我想从数据帧创建功能附加列并且我有以下许多功能的结构遵循本文档https docs dask org en stable delayed best practices html https docs dask org en stabl

Dask daskdistributed daskdataframe daskdelayed

如何在 dask/distributed 中存储工作线程局部变量

使用dask 0 15 0 分布式1 17 1 我想记住每个工作人员的一些事情比如访问谷歌云存储的客户端因为实例化它是昂贵的我宁愿将其存储在某种工作者属性中执行此操作的规范方法是什么或者全局变量是正确的选择吗关于工人您可以通过

python Distributed Dask

无法转置 dask.dataframe - 出现未绑定本地错误

我正在尝试转置一个非常大的数据框由于文件的大小我使用了 Dask 并搜索了如何转置 dask 数据帧 import pandas as pd import numpy as np import dask dataframe as dd

python DataFrame Dask transpose

在python中读取15M行csv文件的有效方法

对于我的应用程序我需要读取多个文件每个文件有 15 M 行将它们存储在 DataFrame 中并将 DataFrame 保存为 HDFS5 格式我已经尝试过不同的方法特别是具有 chunksize 和 dtype 规范的 pan

python pandas DataFrame Dask

使用 pandas 从 Google Cloud Storage 读取 CSV 文件

我正在尝试将一堆 CSV 文件从 Google Cloud Storage 读取到 pandas 数据帧中如中所述将 csv 从 Google Cloud 存储读取到 pandas 数据框 https stackoverflow com

pandas googlecloudstorage Dask