如何使用字典从嵌套 json 创建 pandas 数据框

2023-12-24

我正在尝试创建一个 pandas 数据框形式的 json 文件。我已经看到了这个问题的多种解决方案，它们使用内置函数 from_dict/json_normalize 但我无法将其应用到我的代码中。以下是我的数据在 json 文件中的结构：

     "data": [
   {
      "groups": {
         "data": [
               {
               "group": "Math",
               "year_joined": "2009"
               },
               {
               "group_name": "History",
               "year_joined": "2011"
               },
               {
               "group_name": "Biology",
               "year_joined": "2010"
               }
         ]
      },
      "id": "12512"
   },

当我尝试使用 pandas 函数标准化这些数据时，如下所示：

path = 'mypath'
f = open(path)
data = json.load(f)

test = pd.json_normalize(
            data['data'], 
            errors='ignore')

我刚刚收到这样的东西：

    id      groups.data
0   12512   [{'group_name': 'Math', 'year_joined': '2009', 'gr...
1   23172   [{'group_name': 'Chemistry', 'year_joined': '2005'...

我希望这些数据看起来像这样（解决方案 1）：

    id      group     year_joined
0   12512   group1    year1
1   12512   group2    year2
2   12512   group3    year3

或者像这样（解决方案2）：

    id      group                   year_joined
0   12512   group1,group2,group3    year1,year2,year3
1   23172   group4,group5           year4,year5

我怎样才能实现它？我尝试将“record_path”参数传递给“json_normalize”函数，但它没有改变任何内容。我尝试使用“DataFrame.from_dict”函数来解决此问题，但失败了。我能够获得解决方案 1 的唯一方法是创建多个循环，迭代 json 文件中的所有内容并将其添加到单独的列表中。它有点有效，但在更大的数据集上需要花费很多时间。

我如何使用内置的 pandas 工具来处理如上所述作为字典嵌套在文件第三层中的文件？

given you have dict with nested list
1. 从整体结构创建数据框
2. explode()嵌入列表
3. 展开嵌套dict with apply(pd.Series)

d = {'groups': {'data': [{'group': 'Math', 'year_joined': '2009'},
   {'group_name': 'History', 'year_joined': '2011'},
   {'group_name': 'Biology', 'year_joined': '2010'}]},
 'id': '12512'}

pd.json_normalize(d).explode("groups.data").reset_index(drop=True).pipe(
    lambda d: d["id"].to_frame().join(d["groups.data"].apply(pd.Series))
)

	id	group	year_joined	group_name
0	12512	Math	2009	nan
1	12512	nan	2011	History
2	12512	nan	2010	Biology

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用字典从嵌套 json 创建 pandas 数据框的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

如何在 C# 中防止/取消组合框的值更改？

我在表单顶部有一个组合框可将可编辑数据加载到下面的字段中如果用户进行了更改但未保存并尝试从组合框中选择不同的选项我想警告他们并给他们一个取消或保存的机会我需要一个带有可取消事件参数的 BeforeValueChange 事件关于
在 Python 中创建流类

我有一个类需要一个包含 XML 文件的流我不一定需要文件流我可能想使用其他源如数据库套接字等我需要从什么类继承IO模块 http docs python org library io html为了从其他来源提供流接口安德烈给出的
如何拍摄黑白视频

我是 iPhone 应用程序开发新手我开发了一款 iPhone 应用程序在此应用程序中我想开发使用 iPhone 相机录制黑白视频请帮助我如何开发这个然后还给出一些示例代码网址提前致谢您想要使用 kCVPixelFormatT
Python 分组依据

假设我有一组数据对其中index 0是值并且index 1是类型 input 11013331 KAT 9085267 NOT 5238761 ETH 5349618 ETH 11788544 NOT 962142 ETH 7795297
如何在 Node.js 中检索客户端和服务器 IP 地址和端口号

我尝试进行大量搜索以找到一种方法来了解客户端和服务器的 IP 地址和端口号到目前为止我发现客户端IP 可以知道req ip 客户端端口我搜索了很多但找不到任何方法来找到这个客户端临时端口检查完后req and res对象我发现有
使用 joda 时间的两个日期之间的秒数差异？

假设有两个日期 A 开始时间和 B 结束时间 A 和 B 可以是同一天甚至不同天的时间我的任务是在几秒钟内显示差异我正在使用的日期格式是 Date Format yyyy MM dd T HH mm ss SSSZ 例如 start
找不到System.Xaml？

我有一个 VS2010 项目需要引用 System Xaml 我转到添加引用搜索 NET 引用但它不在那里我也仔细检查了 GAC 但没有这样的运气我就是想不通为什么它不在机器上该计算机安装了 NET 3 5 SP1 和 NET
UILabel 的字体在视图重新出现之前不会调整

使用故事板我创建了一个带有带有标签的单元格的表格视图我希望能够轻松地将相同的字体分配给应用程序中的所有标签因此我在辅助文件 smallFont mediumFont 和 largeFont 中创建了一些字体tableView tabl
访问 ASP.NET 中没有值的查询字符串参数

我正在尝试设置一个具有两种行为的页面我通过 URL 将它们分开一种行为通过 some controller some action 另一个是通过 some controller some action customize 不过当我访问
将派生类转换为基类

我正在尝试刷新我的记忆但无法通过 Google 找到答案 public class BaseClass public virtual void DoSomething Trace Write base class public class
Docker：连接期间出错

每当我尝试使用 RSelenium 包时我都会收到上述错误 shell docker run d p 4445 4444 selenium standalone chrome docker error during connect Pos
将 DAO 注入构造函数是否被认为是不好的做法？如果是这样，为什么？

我有一个 DAL 数据访问层但这个问题也与 DAO 相关它与 android 中的静态 Web 服务进行通信除了我不想包含大量静态库之外它的相关性较小交互并不那么复杂我有一个对象它包装一个列表该列表由来自该数据访问层的信息填
为什么我不能通过 import scipy as sp 来使用 sp.signal？ [复制]

这个问题在这里已经有答案了我想用scipy signal lti and scipy signal impulse函数来计算传递函数我导入scipy模块按以下方式 import scipy as sp import numpy as n
使用 pytest-asyncio 测试 FastAPI 路由时出现“RuntimeError：事件循环已关闭”

我收到错误运行时错误事件循环已关闭每次我尝试在测试中进行多个异步调用时我已经尝试使用其他 Stack Overflow 帖子中的所有其他建议来重写event loop固定装置但没有任何作用我想知道我错过了什么运行测试命令 pyt
在 odoo 10 中向状态栏添加颜色

需要在odoo10中的状态栏添加颜色哪些可用的openerp版本例如
一种数据结构，其中键为单词簇，值为单个单词或字符串

我想创建一个能够将一组或一组单词映射到单个单词或字符串的数据结构它可以被认为是 python 中字典的反向操作您可以使用常规字典 targetword good wordmap best targetword positive targ
PHP MYSQL 博客存档菜单（按年和月）

我正在寻找一种有效的方法将所有博客文章整理到以下格式的菜单中 2012 八月 6 九月 4 十月 2 Month 代表月份显然括号内的值代表该月的帖子数单击后将搜索该月该年的所有帖子我需要它是动态的当该月创建帖子时自动选取 1
useSWR 不适用于异步获取器功能

我正在使用 SWR 获取数据来填充表我正在使用以下代码 const data items error useSWR fetchAllItems name fetchAllItems fetcher 函数看起来像这样 async funct
graphql查询SQL父子关系

我有一个 postgres 表它表示具有父子表的层次结构表类别 id name parentId 1 CatA null 2 CatB null 3 CatC 1 4 CatD 1 5 CatE 3 期望的结果 categories
如何使用字典从嵌套 json 创建 pandas 数据框

我正在尝试创建一个 pandas 数据框形式的 json 文件我已经看到了这个问题的多种解决方案它们使用内置函数 from dict json normalize 但我无法将其应用到我的代码中以下是我的数据在 json 文件中的结构

如何使用字典从嵌套 json 创建 pandas 数据框

如何使用字典从嵌套 json 创建 pandas 数据框 的相关文章

随机推荐

热门标签

如何使用字典从嵌套 json 创建 pandas 数据框的相关文章