Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
dask 数据帧 head() 返回空 df
我有一个 dask 数据框 其中一列上有索引 问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目 因此 如果我执行 df re
python
Dask
使用非唯一索引列日期提取 Dask 数据框中的最新值
我对 pandas 数据帧非常熟悉 但对 Dask 还很陌生 所以我仍在尝试并行化我的代码 我已经使用 pandas 和 pandarallel 获得了我想要的结果 所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度 假设
python
pandas
Dask
python 或 dask 并行生成器?
是否有可能在Python中 也许使用dask 也许使用多重处理 将生成器 放置 在核心上 然后并行地单步执行生成器并处理结果 它需要特别是生成器 或带有 iter 生成器生成的所有生成元素的列表不适合内存 尤其 有了熊猫 我可以打电话rea
python
pandas
pythonmultiprocessing
Dask
Dask 的默认 pip 安装给出“ImportError:没有名为 toolz 的模块”
我安装了Dask https github com dask dask像这样使用点 pip install dask 当我尝试做时import dask dataframe as dd我收到以下错误消息 gt gt gt import da
python
installation
pip
ImportError
Dask
Dask 分布式。如何在正在计算的函数中获取任务密钥ID?
我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件 用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job
python27
Distributed
distributedcomputing
Dask
如何在单线程中运行 dask.distributed 集群?
如何在单个线程中运行完整的 Dask distributed 集群 我想用它来调试或分析 注意 这是一个常见问题 我将这里的问题和答案添加到 Stack Overflow 中 仅供将来重用 本地调度程序 如果您可以使用单机调度程序的 API
python
Dask
如何加快大型 xlsx 文件的导入速度?
我想要处理一个 200MB 的大型 Excel xlsx 文件 包含 15 个工作表和 100 万行 每行 5 列 并根据数据创建 pandas 数据框 Excel 文件的导入速度非常慢 最多 10 分钟 不幸的是 Excel 导入文件格式
python
pandas
openpyxl
Dask
xlrd
计算 Dask 中过去 n 天的滚动平均值
我正在尝试计算大型数据集过去 n 天 n 30 的滚动平均值 在 Pandas 中 我将使用以下命令 temp chunk groupby id code apply lambda x x set index entry time flat
python
pandas
Dask
daskdataframe
生成 parquet 文件 - R 和 Python 之间的差异
我们已经生成了一个parquet文件输入Dask Python 并与Drill R 使用Sergeant包 我们注意到几个问题 的格式Dask i e fastparquet has a metadata and a common meta
r
parquet
Dask
apachedrill
fastparquet
数据类型映射参数中的键只能使用列名
我已经使用 dask read sql table 从 Oracle 数据库成功引入了一张表 但是 当我尝试引入另一个表时 出现此错误KeyError 只有列名可以用作数据类型映射参数中的键 我已经检查了我的连接字符串和架构 所有这些都很好
python
pandas
Dask
重塑 dask 数组(从 dask 数据框列获得)
我是 dask 新手 正在尝试弄清楚如何重塑从 dask 数据帧的单列获得的 dask 数组 但遇到了错误 想知道是否有人知道修复方法 无需强制计算 谢谢 Example import pandas as pd import numpy a
python
Dask
如何获得DataFrame的n个最长条目?
我正在尝试获取 dask DataFrame 的 n 个最长条目 我尝试打电话nlargest https docs dask org en latest dataframe api html dask dataframe DataFram
python
Dask
使用 dask 合并大型数据集
我有两个数据集 一个约为 45GB 包含 1 年的日常交易 第二个数据集为 3 6GB 包含客户 ID 和详细信息 我想将两者合并到一个公共列上以创建一个数据集 这超出了服务器的内存 因为每个客户可能有多个交易 我正在开发一个具有 16 个
pandas
Dask
largedata
如何从 url 列表创建 Dask DataFrame?
我有一个 URL 列表 我很想将它们读取到 dask 数据框中 立刻 但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗 这是一个例子 link http web mta info developers data d
python
pandas
Dask
使用 dask 加载大型压缩数据集
我正在尝试将一个大型压缩数据集加载到 python 中 其结构如下 year zip year month 很多 csv 文件 到目前为止 我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi
python
pandas
csv
zip
Dask
Dask 数据帧并行任务
我想从数据帧创建功能 附加列 并且我有以下许多功能的结构 遵循本文档https docs dask org en stable delayed best practices html https docs dask org en stabl
Dask
daskdistributed
daskdataframe
daskdelayed
如何在 dask/distributed 中存储工作线程局部变量
使用dask 0 15 0 分布式1 17 1 我想记住每个工作人员的一些事情 比如访问谷歌云存储的客户端 因为实例化它是昂贵的 我宁愿将其存储在某种工作者属性中 执行此操作的规范方法是什么 或者全局变量是正确的选择吗 关于工人 您可以通过
python
Distributed
Dask
无法转置 dask.dataframe - 出现未绑定本地错误
我正在尝试转置一个非常大的数据框 由于文件的大小 我使用了 Dask 并搜索了如何转置 dask 数据帧 import pandas as pd import numpy as np import dask dataframe as dd
python
DataFrame
Dask
transpose
在python中读取15M行csv文件的有效方法
对于我的应用程序 我需要读取多个文件 每个文件有 15 M 行 将它们存储在 DataFrame 中 并将 DataFrame 保存为 HDFS5 格式 我已经尝试过不同的方法 特别是具有 chunksize 和 dtype 规范的 pan
python
pandas
DataFrame
Dask
使用 pandas 从 Google Cloud Storage 读取 CSV 文件
我正在尝试将一堆 CSV 文件从 Google Cloud Storage 读取到 pandas 数据帧中 如中所述将 csv 从 Google Cloud 存储读取到 pandas 数据框 https stackoverflow com
pandas
googlecloudstorage
Dask
«
1
2
3
4
5
6
7
»