使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe

2023-11-27

我正在努力转换dask.bag的字典到dask.delayed pandas.DataFrames进入决赛dask.dataframe

我有一个函数（make_dict）将文件读入相当复杂的嵌套字典结构，另一个函数（make_df）将这些字典转换为pandas.DataFrame（每个文件生成的数据帧约为 100 mb）。我想将所有数据帧附加到一个单一的dask.dataframe以供进一步分析。

到目前为止我一直在使用dask.delayed对象来加载、转换和附加所有工作正常的数据（参见下面的示例）。然而，对于未来的工作，我想将加载的字典存储在dask.bag using dask.persist().

我设法将数据加载到dask.bag，产生一个字典列表或列表pandas.DataFrame我可以在调用后在本地使用compute()。当我尝试转动dask.bag into a dask.dataframe using to_delayed()但是，我遇到了一个错误（见下文）。

感觉我在这里错过了一些相当简单的东西，或者也许是我的方法dask.bag是错的？

下面的示例显示了我使用简化函数的方法并引发了相同的错误。任何有关如何解决此问题的建议都将受到赞赏。

import numpy as np
import pandas as pd
import dask
import dask.dataframe
import dask.bag

print(dask.__version__) # 1.1.4
print(pd.__version__) # 0.24.2

def make_dict(n=1):
    return {"name":"dictionary","data":{'A':np.arange(n),'B':np.arange(n)}}

def make_df(d):
    return pd.DataFrame(d['data'])

k = [1,2,3]

# using dask.delayed
dfs = []
for n in k:
    delayed_1 = dask.delayed(make_dict)(n)
    delayed_2 = dask.delayed(make_df)(delayed_1)
    dfs.append(delayed_2)
ddf1 = dask.dataframe.from_delayed(dfs).compute() # this works as expected

# using dask.bag and turning bag of dicts into bag of DataFrames
b1 = dask.bag.from_sequence(k).map(make_dict)
b2 = b1.map(make_df)

df = pd.DataFrame().append(b2.compute()) # <- I would like to do this using delayed dask.DataFrames like above
ddf2 = dask.dataframe.from_delayed(b2.to_delayed()).compute() # <- this fails

# error:
# ValueError: Expected iterable of tuples of (name, dtype), got [   A  B
# 0  0  0]

我最终想使用分布式调度程序做什么：

b = dask.bag.from_sequence(k).map(make_dict)
b = b.persist()
ddf = dask.dataframe.from_delayed(b.map(make_df).to_delayed())

在 bag 的情况下，延迟对象指向元素列表，因此您有一个 pandas 数据帧列表的列表，这不完全是您想要的。两个建议

只要坚持使用 dask.delayed 即可。看起来很适合你
Use the Bag.to_dataframe方法，它需要一包字典，并自行进行数据帧转换

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dask

daskdelayed

使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe 的相关文章

从嵌套字典创建 Dataframe

我正在尝试从具有嵌套字典的值列表创建一个数据框所以这是我的数据 d user 200 p val a 10 b 200 f val a 20 b 300 life 8 user 202 p val a 100 b 200 f val a 2
从 dask 中具有多个值的列创建虚拟对象

我的问题与此主题类似从 pandas 中具有多个值的列创建虚拟对象目标我想在下面产生类似的结果但使用 dask 在熊猫中 import pandas as pd df pd DataFrame fruit Banana Apple D
替换 dask 数据框分区

我可以将 dask 数据帧分区替换为我单独创建的另一个具有相同行数和相同结构的 dask 数据帧分区吗如果是怎么办是否可以使用不同的行数您可以使用以下命令将分区添加到 Dask 数据帧的开头或结尾dd concat功能您可以通过切
使用 Dask 导入大型 CSV 文件

我正在使用 Dask 导入一个非常大的 csv 文件 680GB 但是输出不是我所期望的我的目标是仅选择一些列 6 50 并可能过滤它们我不确定因为似乎没有数据 import dask dataframe as dd file pa
如何从 Dask-Yarn 作业中捕获工人的日志？

我尝试过使用以下内容 config dask distributed yaml and config dask yarn yaml logging file config path to config ini or logging vers
Dask 中的遮罩

我只是想知道是否有人可以帮助我展示如何使用 dask 在掩码数组上应用 sum 或 mean 等函数我希望仅计算没有掩码的值的数组的总和平均值 Code import dask array as da import numpy as n
有没有办法获得 dask 中每组最大的项目？

我有以下数据集 location category percent A 5 100 0 B 3 100 0 C 2 50 0 4 13 0 D 2 75 0 3 59 0 4 13 0 5 4 0 我正在尝试获取数据框中按位置分组的最大类别
如何正确使用dask的upload_file()将本地代码传递给worker

我有一个函数local code py我想通过 dask 传递给工作人员的文件我在这里看到了问题的答案说这可以使用upload file 功能但我似乎无法让它工作因为我仍然得到ModuleNotFoundError 相关部分代码如下
Dask：定期更新已发布的数据集并从其他客户端提取数据

我想将数据附加到published dask dataset来自队列如 redis 然后其他 python 程序将能够获取最新数据例如每秒分钟一次并执行一些进一步的操作这可能吗应该使用哪个附加接口我应该将它加载到pd Data
使用 Python 在 Parquet 中嵌套数据

我有一个文件每行一个 JSON 这是一个示例 product id abcdef price 19 99 specs voltage 110v color white user Daniel Severo 我想创建一个包含以下列的镶木地板
如何加快Python中的嵌套交叉验证？

据我发现还有另外 1 个这样的问题加速嵌套交叉验证 https stackoverflow com questions 49629112 speed up nested cross validation 但是在尝试了该网站和微软上建议
气流+芹菜或dask。为了什么，什么时候？

我阅读了 Airflow 官方文档下列 https airflow apache org configuration html scaling out with celery 这究竟意味着什么作者所说的横向扩展是什么意思那是 when
带有大文件的 Amazon s3 上的 dask read_csv 超时

s3 上的 dask read csv 大文件超时 s3fs S3FileSystem read timeout 5184000 one day s3fs S3FileSystem connect timeout 5184000 one d
dask：并行模型中的共享内存

我已经阅读了 dask 文档博客等但我仍然不是 100 清楚如何做到这一点我的用例我有大约 10GB 的参考数据一旦加载它们就是只读的通常我们将它们加载到 Dask Pandas 数据框中我需要这些参考数据来处理丰富修改
Dask dataframe：“set_index”可以将单个索引放入多个分区吗？

根据经验似乎每当你set index在 Dask 数据帧上 Dask 始终将具有相同索引的行放入单个分区中即使这会导致分区严重不平衡这是一个演示 import pandas as pd import dask dataframe as
使用 pandas 从 Google Cloud Storage 读取 CSV 文件

我正在尝试将一堆 CSV 文件从 Google Cloud Storage 读取到 pandas 数据帧中如中所述将 csv 从 Google Cloud 存储读取到 pandas 数据框 https stackoverflow com
使用xarray，如何在多维数据集上并行化一维操作？

我有一个 4D xarray 数据集我想在特定维度此处为时间上的两个变量之间进行线性回归并将回归参数保留在 3D 数组中其余维度我设法通过使用此串行代码获得了我想要的结果但速度相当慢 add empty arrays to s
将 lambda 函数应用于 dask 数据框

我正在寻找申请lambda如果列中的标签小于一定百分比则使用 dask 数据框的函数来更改列中的标签我使用的方法适用于 pandas 数据框但相同的代码不适用于 dask 数据框代码如下 df pd DataFrame A ant
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample
将字符串转换为字典，然后访问键：值？？？如何访问 Python 中的数据？

我在访问字典内的数据时遇到问题系统 Macbook 2012Python Python 3 5 1 Continuum Analytics Inc 我正在与一个dask dataframe http dask pydata org en

随机推荐

如何在PHP中获取客户端IP地址

如何使用 PHP 获取客户端 IP 地址我想保留通过 IP 地址登录我的网站的用户的记录 Answer recommended by PHP Collective 无论您做什么请确保不要信任客户端发送的数据 SERVER REMOTE
如何在 Swift 中旋转 UIButton 和 UILabel 的文本？

如何旋转文本UIButton and UILabel 90度 180度 Note 在您将其标记为重复之前我有意将我的问题建模为该问题的 Swift 版本如何在 Objective C 中旋转 UIButton 和 UILabel 的文本
使用 Html Agility Pack 从 HTML BODY 节点提取内部文本

需要一些有关 HTML Agility Pack 的帮助基本上我想抓住纯文本在 HTML 的 body 节点内到目前为止我已经在 vb net 中尝试过但它无法返回内部文本含义没有看到任何变化至少从我看来是这样 Dim html
为什么带有 splat 参数的 Ruby 过程/块的行为与方法和 lambda 不同？

为什么带有 splat 参数的 Ruby 2 0 过程块的行为与方法和 lambda 不同 def foo ids args p ids end foo 1 2 3 gt 1 2 3 bar lambda do ids args p id
Git 支持在问号后标记数字的提示主题

我在 WSL2 上使用 Ubuntu 并在 oh my zsh 上安装了 powerlevel10k git 分支名称旁边那个奇怪的问号数字是什么它是什么意思您的存储库中有 1 个未跟踪的文件做git status short and
如何在 Python 中解码 Firebase JWT 令牌

我添加了 Firebase 以允许客户端直接从 Web 应用程序客户端浏览器进行身份验证我正在使用firebase 网络JS 包效果很好我可以在浏览器中看到我收到一个用户对象其中包含有关用户的信息包括idToken 然后我需要
Flutter APK 未在 Mac m2 中构建，无法打开“font-subset”，因为 Apple 无法检查其是否存在恶意软件

font subset 无法打开因为 Apple 无法检查它是否存在恶意软件没有健全零安全的建筑 Dart 3 仅支持声音空安全请参阅https dart dev null safety 运行 Gradle 任务 assembleRe
使用浮点变量作为循环计数器及其在非“==”条件下的小数增量/减量是否存在风险？

我们可以安全地使用浮点数作为循环计数器并在每次迭代时按小数部分递增递减它们吗就像下面看似无风险的程序一样当然我知道使用浮点数作为操作数但是出于正常目的使用浮点数作为其他比较运算的操作数有什么问题呢我所说的正常是指好吧
MySQL 将 DATE 字符串与 DATETIME 字段中的字符串进行比较

我有一个问题是否可以通过将一个 DATE 字符串 2010 04 29 与存储为 DATETIME 2010 04 29 10 00 的字符串进行比较来从 MySQL 数据库中进行选择我有一个可以过滤数据的日期选择器我想通过 DATE
如何对csv表中的数据进行行到列转置？

我是脚本新手我有一张桌子 Table1 txt 并且我需要创建另一个表其中 Table1 的行按列排列反之亦然我已经找到了 Perl 和 SQL 的这个问题的解决方案但没有找到 Python 的解决方案我两天前刚刚开始学习Pyt
Java nio FileSystem Watcher 锁定目录。删除变得不可能[重复]

这个问题在这里已经有答案了我正在使用 Java7 的新功能来监视目录的更改如以下教程中所述 http download oracle com javase tutorial essential io notification html
模态引导随着更改事件流星消失

我使用带有 bootstrap 的模态所以我有一个带有 3 个选项卡的模态在此选项卡之一中我有一个如下选择 div class modal body ul class nav nav tabs li a href onglet1 Li
C - 在 Mac OSX Lion 上编译时架构 x86_64 的未定义符号

我在 Mac OSX Lion 上编译一个非常非常简单的 name c 文件时遇到一些问题现在我开始在 cs50 net 上学习哈佛 CS50 课程我对编程并不是完全陌生但我很好奇这门课程是如何教授的这是name c的来源 inc
如何获取 iPhone 中音频文件的详细信息

我使用 AVAudioPlayer 制作了自定义播放器现在我想获取添加在资源文件夹中的音频文件的详细信息例如艺术家姓名专辑名称等 MPMusicPlayer 提供了用于获取详细信息的 API 但它使用 iPod 库并且不从应用程序的
我应该为 XML 站点地图发送什么 Content-Type 值？

我以为我应该发送 text xml 但后来我读到我应该发送 application xml 有关系吗有人可以解释其中的区别吗 The 之间的区别text xml and 应用程序 xml是默认的字符编码如果charset省略参数当字符
RX：序列的状态转换，例如指数移动平均线

如何在 RX 中对序列进行简单有状态的转换假设我们想要对 IObservable 噪声序列进行指数移动平均变换每当noisySequence勾选时 emaSequence应该勾选并返回值前一个EmaSequenceValue 1 l
spring-data JPA：手动提交事务并重新启动新事务

我有一个导入数据的方法如果导入很大则无法在单个事务中运行并且由于巨大的事务语句缓存而可能导致 OutOfMemoryError 我想要的是在语句缓存中的n条记录之后手动提交我怎样才能实现这个目标最好在 Transactional
自动装箱和拆箱在 Java 和 C# 中的行为是否不同

我正在手动将代码从 Java 1 6 转换为 C 并发现基元 int 和 double 的行为存在一些困难在 C 中似乎几乎所有转换都会自动发生 List
两个日期相减得到时间增量

我正在尝试从我的数据库值之一获取一个值该值将通过从今天的日期减去购买日期来给出我这样写了我的代码 delta datetime now item purchase date 但这给了我这个错误 unsupported operand t
使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe

我正在努力转换dask bag的字典到dask delayed pandas DataFrames进入决赛dask dataframe 我有一个函数 make dict 将文件读入相当复杂的嵌套字典结构另一个函数 make df 将这些字

使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe

使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe 的相关文章

随机推荐

热门标签