将数据帧转换为没有列名的嵌套字典

2023-12-28

这是我的 pandas 数据框的示例，它包含接近 100k 行

import pandas as pd
df = pd.DataFrame({'cluster': ['5', '5', '5', '5', '5', '5'],
         'mdse_item_i': ['23627102',
                         '23627102',
                         '23627102',
                         '23627102',
                         '23627102',
                         '23627102'],
         'predPriceQty': ['35.675543',
                         '33.236678',
                         '35.675543',
                         '35.675543',
                         '35.675543',
                         '35.675543'],
         'schedule_i': ['56', '56', '56', '56', '56', '56'],
         'segment_id': ['4123', '4123', '4144', '4161', '4295', '4454'],
         'wk': ['1', '2', '1', '1', '1', '1']} )

segment_id	cluster	schedule_i	mdse_item_i	wk	predPriceQty
4123	5	56	23627102	1	35.675543
4123	5	56	23627102	2	33.236678
4144	5	56	23627102	1	35.675543
4161	5	56	23627102	1	35.675543
4295	5	56	23627102	1	35.675543
4454	5	56	23627102	1	35.675543

下面是我想要实现的字典的嵌套格式

{(4123, 5): {56.0: {23627102.0: {1: 35.6755430505491, 2:33.236678}}},
 (4144, 5): {56.0: {23627102.0: {1: 35.6755430505491}}},
 (4161, 5): {56.0: {23627102.0: {1: 35.6755430505491}}},
 (4295, 5): {56.0: {23627102.0: {1: 35.6755430505491}}},
 (4454, 5): {56.0: {23627102.0: {1: 35.6755430505491}}}}

下面的代码适用于我，但对于巨大的数据框，创建字典需要几个小时，我正在尝试避免逐行迭代

forecast_dict_all = {}
for _, row in df.iterrows():
        item_agg_id = int(row[segment_id])
        mdse_item_i = row["mdse_item_i"]
        cluster = int(row["cluster"])
        wk = int(row["wk"])
        forecast = float(row["predPriceQty"])
        schedule_id = row["schedule_i"]
        
        if (item_agg_id, cluster) not in forecast_dict_all:
            forecast_dict_all[item_agg_id, cluster] = {
                schedule_id: {mdse_item_i: {wk: forecast}}
            }

到目前为止我的解决方案

dict(df.groupby(['segment_id','cluster'],as_index=False).apply(lambda x: x.to_dict()).to_dict())

df.set_index(['segment_id', 'cluster'], inplace=True)
    
di = df.to_dict(orient='index')
    
forecast_dict_all = {k:{v['schedule_i']: {v['mdse_item_i']: {v['wk']: v['predPriceQty']}}} 
                            for k,v in di.items()}

df.set_index(['segment_id', 'cluster'], inplace=True)
{k:{grp['schedule_i']: {grp['mdse_item_i']: {grp['wk']: grp['predPriceQty']}}}
for k, grp in df.groupby(['schedule_i','mdse_item_i','wk','predPriceQty'])}

我什至尝试使用压缩，但在这两种情况下，我都无法实现所需的输出。

编辑我在用蟒蛇：2.7.13.final.0 熊猫：0.20.1

任何帮助表示赞赏，谢谢

我不知道这是否会更快，但它给出了示例数据的预期输出。

df = pd.DataFrame(d)
df = df.astype(dtype={'cluster': int, 'mdse_item_i': int, 'predPriceQty': float,
                'schedule_i': int, 'segment_id': int, 'wk': int})
df.drop_duplicates(inplace=True)
df.set_index(['segment_id', 'cluster'], inplace=True)
answer = df.apply(lambda row:
                {row['schedule_i']: {row['mdse_item_i']: {row['wk']: row['predPriceQty']}}},
                axis=1).to_dict()

Result:

{(4123, 5): {56.0: {23627102.0: {1.0: 35.675543}}},
 (4144, 5): {56.0: {23627102.0: {1.0: 35.675543}}},
 (4161, 5): {56.0: {23627102.0: {1.0: 35.675543}}},
 (4295, 5): {56.0: {23627102.0: {1.0: 35.675543}}},
 (4454, 5): {56.0: {23627102.0: {1.0: 35.675543}}}}

Note：我修复了数据框的类型，因为您在代码中这样做，但获得正确类型的最佳时间是在创建数据框时。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dictionary

将数据帧转换为没有列名的嵌套字典的相关文章

希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav

随机推荐

为什么 Visual Studio 在使用“注释选择”注释多行选择时诉诸单行注释？

Something small that I ve always wondered about regarding the Comment Selection option in Visual Studio Ctrl K Ctrl C 当我
SVG，动画一条从 x1,y1 到 x2,y2 的线？

animate 属性的记录非常松散不幸的是对我来说 W3 文档 SVG 的方式非常难以理解和交叉引用我已经让它工作了至少向前迈出了一步应该知道将秒转换为毫秒拍打额头我已经更新了代码以反映我的下一个垫脚石遇到了另一个问题当
将数据帧作为 csv 文件从 google colab 导出到 google Drive

我想将 csv 数据帧从 colab 上传到 google Drive 我尝试了很多但没有成功我可以上传一个简单的文本文件但无法上传 csv 我尝试了以下代码 import pandas as pd df pd DataFrame 1
如何指定一个单独的 Maven 目标来运行（Cucumber）验收测试？

我有以下项目结构 MyProject src test acceptance step definitions features unit 我希望能够在 Maven 中与 test unit 中声明的单元测试分开运行我的黄瓜测试在测试验
在 SwiftUI 中，如何访问 UIViewRepresentable 中 .foregroundColor 和其他修饰符的当前值？

给出以下示例代码 struct ActivityIndicatorView UIViewRepresentable var style UIActivityIndicatorView Style medium func makeUIView
Javafx 和观察者模式 - 更新 UI

我正在尝试在 JavaFx 应用程序中实现观察者模式我从来没有在这里问过问题但这让我有点疯狂本质上我尝试使用观察者模式来监视正在解析电话号码文件的类并在解析文件时自动更新 UI 在回答我的问题之前这是我的代码抽象类Observ
pathlib：无法从“集合”导入名称“序列”

自从我重建项目以来已经有几天了但是当我今天早上测试一些东西时由于我的 Multidict 类遇到问题我想更新我的 Werkzeug 包我重建并开始收到此错误 17 73 14 ERROR Command errored out wi
OData 异常已超出热门查询的“0”限制

当我尝试使用 OData Web Api 查询时我正在使用版本 4 的 OData Web API top参数它返回我以下异常消息 URI 中指定的查询无效已超出热门查询的 0 限制传入请求的值为 10 我使用 Apache Ign
K8s 上广告的 kafka 连接休息侦听器

我正在努力以分布式模式在 Kubernetes DockerEE 上设置 Kafka Connect 目前我在三个相应的 k8s pod 上有一个由三个工作人员组成的集群我面临的问题是我的员工很难相互沟通至少我是这么认为的当我尝试启
将dustjs-helpers 与Kraken js 一起使用

我使用 Kraken 1 0 1 和 yo kraken 创建了一个项目模板引擎为dustjs 但我无法使用函数dustjs helpers 我的 config json express view cache false view eng
在“类 xxx”上设置“xxx”时捕获意外异常：用值 [“x”，] 设置表达式“xxx”时出错

我将一些参数传递给一个执行操作的类ModelDriven
SpriteKit SKView 不再在 iOS 9 中的场景之间转换

我们有一个于 2013 年编写并发布的代码库但在 iOS 9 中该应用程序不再在SKScene当presentScene transition 消息已发送至我们的SKView The SKScene收到didMoveToView 消息
Django 1.8 迁移无法将列 id 转换为整数

我正在将我的网站从 SQLite 后端迁移到 Postgres 后端从项目一开始我们就一直在运行原生 Django 风格的迁移即不是 South 大多数迁移运行良好但我们的应用程序出现了问题我们在 Postgres 迁移中已经走到
PHP中有没有SMTP邮件传输库

我想编写一个电子邮件传输服务需要用 MTU 替换 sendmail postfix 我不是在寻找如何传递到发送 SMTP 服务器如 SMTP 端口上的后缀列表我也不需要服务器的接收部分反弹等将转到不同的现有后缀所有这些都是纯 PH
如何从顶部栏/状态栏删除这种灰色

我有一个应用程序我将顶部栏状态栏设置为上升颜色它适用于棒棒糖上的大多数屏幕但在其中一个屏幕上出现问题这是一项活动代码如下
从 Jekyll 插件返回目录中的文件列表？

我不知道如何在 jekyll 插件中创建过滤器或标签以便我可以返回目录并循环其内容我找到了这些 http pastebin com LRfMVN5Y http pastebin com LRfMVN5Y http snippets dz
Python 协议/接口的综合列表[重复]

这个问题在这里已经有答案了最近我在看一些Python 习语我发现了很多Python中使用的协议的描述例如排序 cmp 或发电机除此之外还有类似的方法 hash 这是为每个对象定义的我想在互联网上进行一些搜索后我还没有找到这
从 UserControl 抽象子类继承

我有一组用户控件需要具有一些类似的属性因此我定义了 UserControl 的一个抽象子类它定义了这些属性并更新了 xaml cs 和 g cs 文件以从该基类继承一切都编译良好并且运行良好伟大的但是 g cs 文件已生成并将重
在 ASP.net 中返回纯文本或其他任意文件

如果我要使用 PHP 中的纯文本响应 http 请求我会执行以下操作我如何在 ASP NET 中实现同等功能如果你只想返回这样的纯文本我会使用 ashx 文件 VS 中的通用处理程序然后只需在 ProcessRequest 方法中
将数据帧转换为没有列名的嵌套字典

这是我的 pandas 数据框的示例它包含接近 100k 行 import pandas as pd df pd DataFrame cluster 5 5 5 5 5 5 mdse item i 23627102 23627102 23

将数据帧转换为没有列名的嵌套字典

将数据帧转换为没有列名的嵌套字典 的相关文章

随机推荐

热门标签

将数据帧转换为没有列名的嵌套字典的相关文章