将多嵌套 dict/json 加载到 pandas 中

2024-05-01

我正在尝试加载一个非常令人困惑的多重嵌套JSON变成熊猫。我已经在使用了json_规范化 http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.json.json_normalize.html但试图弄清楚我如何加入两个类似的嵌套dict以及解压他们的子包dicts and lists一直难倒我。我对 pandas 的了解有限，但我假设如果我能把它记下来，我就可以利用它的性能优势。

我有 2 个包含战争数据的字典，一个从 JSON API 响应加载，另一个在数据库中。我正在尝试比较两者的新攻击和防御。

战争例子

{
  "state": "active",
  "team_size": 20,
  "teams": {
    "id": "12345679",
    "name": "Good Guys",
    "level": 10,
    "attacks": 4,
    "destruction_percentage": 22.6,
    "members": [
      {
        "id": "1",
        "name": "John",
        "level": 12
      },
      {
        "id": "2",
        "name": "Tom",
        "level": 11,
        "attacks": [
          {
            "attackerTag": "2",
            "defenderTag": "4",
            "damage": 64,
            "order": 7
          }
        ]
      }
    ]
  },
  "opponent": {
    "id": "987654321",
    "name": "Bad Guys",
    "level": 17,
    "attacks": 5,
    "damage": 20.95,
    "members": [
      {
        "id": "3",
        "name": "Betty",
        "level": 17,
        "attacks": [
          {
            "attacker_id": "3",
            "defender_id": "1",
            "damage": 70,
            "order": 1
          },
          {
            "attacker_id": "3",
            "defender_id": "7",
            "damage": 100,
            "order": 11
          }
        ],
        "opponentAttacks": 0,
        "some_useless_data": "Want to ignore, this doesn't show in every record"
      },
      {
        "id": "4",
        "name": "Fred",
        "level": 9,
        "attacks": [
          {
            "attacker_id": "4",
            "defender_id": "9",
            "damage": 70,
            "order": 4
          }
        ],
        "opponentAttacks": 0
      }
    ]
  }
}

现在我假设 pandas 就性能而言是我的最佳选择，而不是将它们压缩在一起并循环遍历每个成员并比较它们。

所以我尝试得到dataframe至少可以说，平坦且易于穿越的东西很难。最好我假设以下布局。我只是想把两支球队打成一个队df仅限所有成员。我们可以省略state and team_size键并专注于让每个成员及其各自的attacks and team_id's

example df （预期结果）:

id   name   level  attacks         member.team_id  ...
1    John   12     NaN             "123456789"
2    Tom    11     [{...}]         "123456789"
3    Betty  17     [{...}, {...}]  "987654321"
4    Fred   9      [{...}]         "987654321"

这就是我作为一个人想要的基本要点df。这样我就可以获取两个数据帧并比较新的攻击。

Note I just pop()'d state and team_size来自我尝试之前的指令，因为我想要的只是所有成员，并且团队几乎融入其中

我尝试了以下方法，但没有成功，我知道这不是正确的方法，因为它是在字典树上向后工作的。

old_df = json_normalize(war,
                        'members',
                        ['id', 'name', 'level', 'attacks'],
                        record_prefix='member')

#Traceback (most recent call last):
#  File "test.py", line 83, in <module>
#    new_parse(old_war, new_war)
#  File "test.py", line 79, in new_parse
#    record_prefix='member')
#  File "/home/jbacher/.local/lib/python3.7/site-packages/pandas/io/json/normalize.py", line 262, in json_normalize
#    _recursive_extract(data, record_path, {}, level=0)
#  File "/home/jbacher/.local/lib/python3.7/site-packages/pandas/io/json/normalize.py", line 238, in _recursive_extract
#    recs = _pull_field(obj, path[0])
#  File "/home/jbacher/.local/lib/python3.7/site-packages/pandas/io/json/normalize.py", line 185, in _pull_field
#    result = result[spec]
#KeyError: 'members'

我以为我可以使用类似以下的东西，但这也不起作用。

df = pd.DataFrame.from_dict(old, orient='index')
df.droplevel('members')

#Traceback (most recent call last):
#  File "test.py", line 106, in <module>
#    new_parse(old_war, new_war)
#  File "test.py", line 87, in new_parse
#    df.droplevel('members')
#  File "/home/jbacher/.local/lib/python3.7/site-packages/pandas/core/generic.py", line 4376, in __getattr__
#    return object.__getattribute__(self, name)
#AttributeError: 'DataFrame' object has no attribute 'droplevel'

我很感激任何指导！希望我投入了足够的精力来帮助理解我的预期结果，如果没有，请告诉我！

Edit公平地说，我确实知道如何做到这一点，只需循环字典并创建具有适当日期的新成员列表，但我觉得这比使用 pandas 效率低得多，因为我正在为数百万场战争这样做线程应用程序以及我能从中获得的每一点性能对我和应用程序来说都是额外的好处。 - 再次感谢！

我相信你可以使用：

need = ['member.id', 'member.name', 'member.level', 'member.attacks','id']
df1 = json_normalize(war['teams'],
                     'members',
                     ['id', 'name', 'level', 'attacks'], 
                     record_prefix='member.')[need]
#print (df1)

df2 = json_normalize(war['opponent'],
                     'members',
                     ['id', 'name', 'level', 'attacks'], 
                     record_prefix='member.')[need]
#print (df2)


df1.columns = np.where(df1.columns.str.startswith('member.'), 
                       df1.columns.str.split('.', n=1).str[1],
                       'member.' + df1.columns)
df2.columns = np.where(df2.columns.str.startswith('member.'), 
                       df2.columns.str.split('.', n=1).str[1],
                       'member.' + df2.columns)


df = pd.concat([df1, df2], sort=False, ignore_index=True)
print (df)
  id   name  level                                            attacks  \
0  1   John     12                                                NaN   
1  2    Tom     11  [{'attackerTag': '2', 'defenderTag': '4', 'dam...   
2  3  Betty     17  [{'attacker_id': '3', 'defender_id': '1', 'dam...   
3  4   Fred      9  [{'attacker_id': '4', 'defender_id': '9', 'dam...   

   member.id  
0   12345679  
1   12345679  
2  987654321  
3  987654321

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将多嵌套 dict/json 加载到 pandas 中的相关文章

Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
列出 JSON 的所有键和值

假设我有一些如下所示的 JSON items item id 0001 type donut name Cake ppu 0 55 batters batter
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
如何在 C# 中获取 Json 数组？

我有一个像这样的 Json 字符串我想将它加载到 C 数组中当我尝试这样做时我收到异常我的字符串 customerInformation customerId 123 CustomerName Age 39 Gender Male
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
动态创建 JSON 对象

我正在尝试使用以下格式创建 JSON 对象 tableID 1 price 53 payment cash quantity 3 products ID 1 quantity 1 ID 3 quantity 2 我知道如何使用 JSONOb
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
Anaconda 无法导入 ssl 但 Python 可以

Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk

随机推荐

ValueError：BitVect 的长度必须相同（rdkit）

我正在计算 2 个摩尔之间的结构相似性概况rdkit 当我在 google colab 中运行程序时 rdkit 2020 09 2 python 3 7 程序运行良好当我在 PC 上运行时出现错误 rdkit 2021 03 2 pyt
Cloudformation 模板 - 具有 cloudfront 分发的 S3 存储桶网站 - 分发无法访问源

我只是想在 S3 存储桶上获取一个静态站点并且只能通过 CloudFront 发行版访问它但是缺少一些东西我不知道是什么目前我的堆栈有用于站点托管的 S3 存储桶用于为站点提供服务的云前端发行版存储桶策略仅允许分配访问该存储
AJAX 以渐进方式读取数据，而不仅仅是在完成时读取数据

我喜欢为我的 ajax 调用创建一个进度条为此我可以使我的服务器端脚本返回其进度状态所以我需要 JavaScript 来读取这个进度级别并显示它有可能吗还是我走错了路你可以尝试这样的事情一些伪代码假设是 jQuery 因为你已
如何以编程方式将数据写入Azure Blob存储？

我正在使用下面的 PowerShell 脚本通过 REST API 调用从源读取 JSON 数据现在我想将 Result 的数据加载到 Azure Blob 存储中有什么想法吗 Params URI https 3ea5e53b 817
Apache：配置应用程序侦听器时出错

当我尝试运行该应用程序时我遇到了这个问题警告 SetContextPropertiesRule Context 设置属性源到 org eclipse jst j2ee server CongressApp 没有找到匹配的财产 20
运行时签名是什么？

当涉及到有界类型时我对 Java 的类型擦除有一些理解上的问题考虑一下 class Event From the API class FooEvent extends Event abstract class Foo
带参数的多重继承

我已经阅读了很多有关继承的内容但我似乎无法理解为什么这会给我一个错误使用Python 2 7 x class A object def init self value super A self init print First s va
是否可以使用 jQuery 从 SQL Server 检索数据？

是否可以使用 jQuery 从 SQL Server 检索数据并使用 HTML 控件显示数据 jQuery 被设计为在浏览器环境中运行所以这是一个具有 DOM 的环境具有 JavaScript 支持显然等等要从 MS SQL Se
将参数内的日期转换为整数

现在我有一个存储过程它将日期作为integer 140213 但在SSRS我需要转换在date parameter to the integer前面提到过现在我试图通过两个参数日期和转换来实现这一目标一个参数允许您选择日期第二个
如何在本机反应中获取元素的宽度？

如何获取 React Native 中元素的宽度例如 View 由于React Native中没有宽度的百分比使用如何获取元素或父元素的宽度您可以致电onLayout测量元素的事件 measureView event console
如何动态添加JSF组件

我可以动态添加 JSF 组件吗我需要一个带有按钮的表单该按钮应该添加一个
NSFetchRequest 不返回任何内容

任何人都可以发现为什么这不返回任何 ManagedObjects 吗我试图将以下内容添加到 ATNSManagedObject EasyFetching 类中但获取结果不返回任何内容如果我在 EasyFetch 类之外获取这些对象我
PL/SQL 中是否有方法将文本转换/编码为 XML 兼容文本？

我的一位同事需要将 PL SQL 方法中的文本转换为符合 XML 的文本因为他正在通过更新文本模板来构建 Excel 电子表格 PL SQL 中是否有方法将文本转换编码为 XML 兼容文本好吧如果您只想转换 XML 字符您需要执行
Django 信号发射一次，接收两次——为什么？

我正在使用 Django 信号但即使发出一次它们似乎也会被接收两次这是我正在使用的代码这是一个将 Uploadify 与 Django 结合使用的简单包装器 Signal emitting code emits whenever a
RAILS 3 模型验证包含不起作用

Schema Information Schema version Table name terms id integer not null primary key user id integer term type string 255
是否可以将 Firebase 与 Windows 8 应用结合使用？

我希望在使用 WinJS 制作的 Windows 8 应用程序中使用 Firebase 以下是我尝试写入 Firebase 根目录的方式 var dataRef new Firebase https
Python 中 iter 函数的第二个参数是什么？

让我们考虑一个文件 echo e This is a foo bar sentence nAnd this is the first txtfile in the corpus gt test txt cat test txt This i
jQuery 中如何查找具有特定 id 的 div 是否存在？

我有一个附加一个函数 div 到单击时的元素该函数获取单击元素的文本并将其分配给名为的变量name 然后将该变量用作 div id附加元素的我需要看看是否 div id with name在我追加元素之前已经存在但我不知道如何找到它
STL容器如何复制对象？

我知道 STL 容器比如vector添加对象时复制该对象 push back方法如下 void push back const T x 我很惊讶地发现它把该项目作为参考我编写了一个示例程序来看看它是如何工作的 struct Foo Fo
将多嵌套 dict/json 加载到 pandas 中

我正在尝试加载一个非常令人困惑的多重嵌套JSON变成熊猫我已经在使用了json 规范化 http pandas pydata org pandas docs stable reference api pandas io json json

将多嵌套 dict/json 加载到 pandas 中

将多嵌套 dict/json 加载到 pandas 中 的相关文章

随机推荐

热门标签

将多嵌套 dict/json 加载到 pandas 中的相关文章