在 Python 中将嵌套 JSON 转换为 CSV 文件

2024-03-06

我知道这个问题已经被问过很多次了。我尝试了多种解决方案，但无法解决我的问题。

我有一个大的嵌套 JSON 文件 (1.4GB)，我想将其扁平化，然后将其转换为 CSV 文件。

JSON结构是这样的：

{
  "company_number": "12345678",
  "data": {
    "address": {
      "address_line_1": "Address 1",
      "locality": "Henley-On-Thames",
      "postal_code": "RG9 1DP",
      "premises": "161",
      "region": "Oxfordshire"
    },
    "country_of_residence": "England",
    "date_of_birth": {
      "month": 2,
      "year": 1977
    },
    "etag": "26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00",
    "kind": "individual-person-with-significant-control",
    "links": {
      "self": "/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl"
    },
    "name": "John M Smith",
    "name_elements": {
      "forename": "John",
      "middle_name": "M",
      "surname": "Smith",
      "title": "Mrs"
    },
    "nationality": "Vietnamese",
    "natures_of_control": [
      "ownership-of-shares-50-to-75-percent"
    ],
    "notified_on": "2016-04-06"
  }
}

我知道这很容易完成pandas模块，但我不熟悉它。

EDITED

所需的输出应该是这样的：

company_number, address_line_1, locality, country_of_residence, kind,

12345678, Address 1, Henley-On-Thamed, England, individual-person-with-significant-control

请注意，这只是简短的版本。输出应该包含所有字段。

请向下滚动以获得更新、更快的解决方案

这是一个较老的问题，但我整晚都在努力争取类似情况下的满意结果，我想出了这个：

import json
import pandas

def cross_join(left, right):
    return left.assign(key=1).merge(right.assign(key=1), on='key', how='outer').drop('key', 1)

def json_to_dataframe(data_in):
    def to_frame(data, prev_key=None):
        if isinstance(data, dict):
            df = pandas.DataFrame()
            for key in data:
                df = cross_join(df, to_frame(data[key], prev_key + '.' + key))
        elif isinstance(data, list):
            df = pandas.DataFrame()
            for i in range(len(data)):
                df = pandas.concat([df, to_frame(data[i], prev_key)])
        else:
            df = pandas.DataFrame({prev_key[1:]: [data]})
        return df
    return to_frame(data_in)

if __name__ == '__main__':
    with open('somefile') as json_file:
        json_data = json.load(json_file)

    df = json_to_dataframe(json_data)
    df.to_csv('data.csv', mode='w')

解释：

The 交叉连接函数是我发现做笛卡尔积的一种巧妙方法。（信用：here https://stackoverflow.com/questions/53699012/performant-cartesian-product-cross-join-with-pandas)

The json_to_dataframe函数使用 pandas 数据框执行逻辑。就我而言，json 嵌套很深，我想拆分字典键：值对放入列中，但是我想将列表转换为列的行-- 因此是 concat -- 然后我将其与上层交叉连接，从而将记录数相乘，以便列表中的每个值都有自己的行，而前面的列是相同的。

递归性会创建与下面的堆栈交叉连接的堆栈，直到返回最后一个堆栈。

然后，使用表格格式的数据框，可以使用以下命令轻松转换为 CSV“df.to_csv()”数据框对象方法。

这应该适用于深度嵌套的 JSON，能够通过上述逻辑将所有 JSON 规范化为行。

我希望有一天这会对某人有所帮助。只是想回馈这个很棒的社区。

-------------------------------------------------- -------------------------------------------

稍后编辑：新解决方案

我回到这个话题，因为虽然 dataframe 选项有点工作，但应用程序花了几分钟来解析不太大的 JSON 数据。因此，我想到做数据框所做的事情，但由我自己来做：

from copy import deepcopy
import pandas


def cross_join(left, right):
    new_rows = [] if right else left
    for left_row in left:
        for right_row in right:
            temp_row = deepcopy(left_row)
            for key, value in right_row.items():
                temp_row[key] = value
            new_rows.append(deepcopy(temp_row))
    return new_rows


def flatten_list(data):
    for elem in data:
        if isinstance(elem, list):
            yield from flatten_list(elem)
        else:
            yield elem


def json_to_dataframe(data_in):
    def flatten_json(data, prev_heading=''):
        if isinstance(data, dict):
            rows = [{}]
            for key, value in data.items():
                rows = cross_join(rows, flatten_json(value, prev_heading + '.' + key))
        elif isinstance(data, list):
            rows = []
            for item in data:
                [rows.append(elem) for elem in flatten_list(flatten_json(item, prev_heading))]
        else:
            rows = [{prev_heading[1:]: data}]
        return rows

    return pandas.DataFrame(flatten_json(data_in))


if __name__ == '__main__':
    json_data = {
        "id": "0001",
        "type": "donut",
        "name": "Cake",
        "ppu": 0.55,
        "batters":
            {
                "batter":
                    [
                        {"id": "1001", "type": "Regular"},
                        {"id": "1002", "type": "Chocolate"},
                        {"id": "1003", "type": "Blueberry"},
                        {"id": "1004", "type": "Devil's Food"}
                    ]
            },
        "topping":
            [
                {"id": "5001", "type": "None"},
                {"id": "5002", "type": "Glazed"},
                {"id": "5005", "type": "Sugar"},
                {"id": "5007", "type": "Powdered Sugar"},
                {"id": "5006", "type": "Chocolate with Sprinkles"},
                {"id": "5003", "type": "Chocolate"},
                {"id": "5004", "type": "Maple"}
            ],
        "something": []
    }
    df = json_to_dataframe(json_data)
    print(df)

OUTPUT:

      id   type  name   ppu batters.batter.id batters.batter.type topping.id              topping.type
0   0001  donut  Cake  0.55              1001             Regular       5001                      None
1   0001  donut  Cake  0.55              1001             Regular       5002                    Glazed
2   0001  donut  Cake  0.55              1001             Regular       5005                     Sugar
3   0001  donut  Cake  0.55              1001             Regular       5007            Powdered Sugar
4   0001  donut  Cake  0.55              1001             Regular       5006  Chocolate with Sprinkles
5   0001  donut  Cake  0.55              1001             Regular       5003                 Chocolate
6   0001  donut  Cake  0.55              1001             Regular       5004                     Maple
7   0001  donut  Cake  0.55              1002           Chocolate       5001                      None
8   0001  donut  Cake  0.55              1002           Chocolate       5002                    Glazed
9   0001  donut  Cake  0.55              1002           Chocolate       5005                     Sugar
10  0001  donut  Cake  0.55              1002           Chocolate       5007            Powdered Sugar
11  0001  donut  Cake  0.55              1002           Chocolate       5006  Chocolate with Sprinkles
12  0001  donut  Cake  0.55              1002           Chocolate       5003                 Chocolate
13  0001  donut  Cake  0.55              1002           Chocolate       5004                     Maple
14  0001  donut  Cake  0.55              1003           Blueberry       5001                      None
15  0001  donut  Cake  0.55              1003           Blueberry       5002                    Glazed
16  0001  donut  Cake  0.55              1003           Blueberry       5005                     Sugar
17  0001  donut  Cake  0.55              1003           Blueberry       5007            Powdered Sugar
18  0001  donut  Cake  0.55              1003           Blueberry       5006  Chocolate with Sprinkles
19  0001  donut  Cake  0.55              1003           Blueberry       5003                 Chocolate
20  0001  donut  Cake  0.55              1003           Blueberry       5004                     Maple
21  0001  donut  Cake  0.55              1004        Devil's Food       5001                      None
22  0001  donut  Cake  0.55              1004        Devil's Food       5002                    Glazed
23  0001  donut  Cake  0.55              1004        Devil's Food       5005                     Sugar
24  0001  donut  Cake  0.55              1004        Devil's Food       5007            Powdered Sugar
25  0001  donut  Cake  0.55              1004        Devil's Food       5006  Chocolate with Sprinkles
26  0001  donut  Cake  0.55              1004        Devil's Food       5003                 Chocolate
27  0001  donut  Cake  0.55              1004        Devil's Food       5004                     Maple

根据上面的内容，好吧，交叉连接函数的作用与数据帧解决方案几乎相同，但没有数据帧，因此速度更快。

我添加了展平列表生成器，因为我想确保 JSON 数组都很好并且扁平化，然后作为单个字典列表提供，其中包含分配给每个列表的值之前的一次迭代中的前一个键。这几乎模仿了pandas.concat在这种情况下的行为。

main函数中的逻辑，json_to_dataframe然后就和以前一样了。需要改变的只是将数据帧作为编码函数执行的操作。

另外，在数据帧解决方案中，我没有将前一个标题附加到嵌套对象中，但除非您 100% 确定列名称中没有冲突，否则它几乎是强制性的。

我希望这有帮助：）。

EDIT: 修改了交叉连接函数来处理嵌套列表为空的情况，基本上保持先前的结果集不变。即使在示例 JSON 数据中添加空 JSON 列表后，输出也不会更改。谢谢你， @纳兹穆斯·萨基布指出这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中将嵌套 JSON 转换为 CSV 文件的相关文章

DbGeography 多边形到 JSON

我将 DbGeography 多边形存储在数据库中我的控制器从数据库获取多边形我需要将它们转换为 JSON var polygons db Areas Where x gt x Type type Select x gt new Vie
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
使用 Express.js 和 NodeJS，您可以通过响应正文中的重定向发送 JSON

我正在尝试通过 302 重定向发送 JSON 在 ExpressJS 中这可能吗 API 声明可以添加主体res json 例如 res json 302 name larry 在接收端重定向的目的地主体是空的这是一些示例代码发送应
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
意外的令牌：尝试解析 JSON 字符串时

我正在尝试解析这个 JSON 字符串 RESULTS name Thessaloniki GR type Sailing l sailing weather beach Porto 20Carras 20Marina 45904 name
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i

随机推荐

使用 R 从字符串中删除所有换行符（输入符号）

如何从字符串中删除所有换行符输入符号 my string lt foo nbar rbaz r nquux 我试过了gsub n my string 但它不起作用因为新行和换行符不相等你需要脱衣 r and n删除回车符和新行 x l
C++11 中的整数除法

我注意到 C 11 第 5 6 节的一些措辞发生了变化我正在查看 C 标准草案 N3242 日期为 2011 年 2 月 28 日新的草案标准包括以下句子对于整数操作数运算符产生代数商并丢弃任何小数部分这个说法在03标准 I
jQuery CSS 选择器返回一个包含在两组双引号中的值

我正在使用 CSS 属性进行非常简单的 jQuery 选择奇怪的是返回的值用两组双引号括起来 var font this css font family 结果返回为 font Jockey One 包含空格的字体名称被引用并且您的字体
golang配置文件与pprof，如何获取点击次数而不是持续时间？

如何获得点击数例如 pprof top Total 2525 samples 298 11 8 11 8 345 13 7 runtime mapaccess1 fast64 268 10 6 22 4 2124 84 1 main Fi
按照变量的类型命名是一种不好的做法吗？

我使用下划线命名风格而不是驼峰命名法对 C 进行编程 STL 和 boost 也使用这种命名风格但是由于类型和变量函数都命名为小写因此如下的成员变量声明将导致编译器错误或者至少是麻烦 position position 名为的
c# 如何使用新的 Version Helper API

Since 操作系统版本 https msdn microsoft com en us library system environment osversion v vs 110 aspx由于 Windows 10 已经发布现在不可靠此
当我有另一个具有该版本的 conda 环境时，为什么 pip 不允许我在新的 conda 环境中安装 torch==1.9.1+cu111 ？

当我在新的 conda 环境中运行 pip install 时 base brando9 pip install torch 1 9 1 cu111 torchvision 0 10 1 cu111 torchaudio 0 9 1 f h
将任何视图转换为图像并保存[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案谁能帮我知道如何捕获 a 的内容FrameLayout成图像并将其保存到内部或外部存储器如何将任何视图转换为图像尝试将视图帧布局转换
在 AWS RDS 上将 MySQL 服务器变量 collation_connection 设置为 utf8_unicode_ci

所以我的目标是将所有字符集和排序规则设置为utf8 and utf8 unicode ci 我使用 AWS RDS 来托管 MySQL 服务器 Ive set the collation connection variable to utf
集成相机，无需弃用的方法和向后支持

我想构建一个应用程序其中设备的前置摄像头用于将当前图像投影到SurfaceView 到目前为止我发现的所有教程都是通过使用Cameraandroid hardware 包中的对象然而这种方法似乎已被弃用当尝试使用新首选方式来实现
如果 main 方法位于 java 文件的“非公共类”内部怎么办？

我有一个包含多个类的java文件其中一个类是公共的如果 main 方法位于非公共类内部我无法运行该 java 文件这是为什么并且也没有编译错误如果是这样我该如何使用该 main 方法实际上您可以在非公共类中执行 main
Android - Play 商店 - 更改订阅的到期日期

我想更改订阅的到期日期在我的 Play 商店中使用Play 商店 API 我有一个移动应用程序您可以在其中购买续订的 Play 商店订阅或者您可以从应用程序中的促销活动中免费获得一些时间这里的主要问题是如果您已从 Play 商店购买了
并行组合进度条和进程

我在将要并行运行的进程与进度条的创建结合起来时遇到问题我的流程代码是 pred pnn lt function x nn xlst lt split x 1 nrow x pred lt foreach i xlst packages c
如何知道进程因“内存不足”错误而结束？

我有一个 C 程序它在单独的进程中运行另一个程序该程序执行大量计算我如何知道其他进程是否因内存不足错误而崩溃 I use QProcess and QLocalSocket 您无法获取 QProcess 执行的正在运行的进程崩溃的
将 CSV 文件导入 PostgreSQL

使用 MySQL Administrator GUI 工具我将从 sql 转储文件检索的一些数据表导出到 csv 文件然后我尝试使用 postgres COPY 命令将这些 CSV 文件导入到 PostgreSQL 数据库中我尝试过
Opencv TypeError：点不是 numpy 数组，也不是标量

基本上我有这段代码可以检测背景的变化并将其装箱当我运行代码时我收到此错误 Traceback most recent call last File cam2 py line 28 in
是否可以使用 selenium 禁用 chrome 中的文件下载

使用 ChromeDriver 和 Selenium 访问某些页面时会自动下载特定文件由于文件下载代码不再继续进行是否可以使用创建 ChromeDriver 时设置的任何 ChromeOptions 或首选项来禁用文件下载尝试了以
扩展 form.is_valid()

我正在学习 Django 我偶然发现了一些我需要帮助的东西 forms py class UserForm forms ModelForm password1 forms CharField widget forms PasswordInp
静态与动态绑定逻辑

我有以下代码 import java lang public class Program public static void main String args B a new A a p 10 a p 10 0 class B publi
在 Python 中将嵌套 JSON 转换为 CSV 文件

我知道这个问题已经被问过很多次了我尝试了多种解决方案但无法解决我的问题我有一个大的嵌套 JSON 文件 1 4GB 我想将其扁平化然后将其转换为 CSV 文件 JSON结构是这样的 company number 12345678 d

在 Python 中将嵌套 JSON 转换为 CSV 文件

在 Python 中将嵌套 JSON 转换为 CSV 文件 的相关文章

随机推荐

热门标签

在 Python 中将嵌套 JSON 转换为 CSV 文件的相关文章