嵌套 json 到 pandas 非常慢

2024-06-22

我正在尝试转换 321MB将 json 文件嵌套到 pandasDataframe这需要我非常非常很长时间以来，我确信有一种更快的方法可以做到这一点，这是我的代码：

数据如下所示：

js_dict["data"][0:5]
d = [{'datetime': '2013-01-01T00:00:00+02:00', 'channels': [
{'id': 1, 'name': 'Rain', 'alias': None, 'value': 0.0, 'status': 1, 'valid': True, 'description': None},
{'id': 2, 'name': 'WSmax', 'alias': None, 'value': 7.7, 'status': 1, 'valid': True, 'description': None},
{'id': 3, 'name': 'WDmax', 'alias': None, 'value': 52.0, 'status': 1, 'valid': True, 'description': None},
{'id': 4, 'name': 'WS', 'alias': None, 'value': 5.2, 'status': 1, 'valid': True, 'description': None},
{'id': 5, 'name': 'WD', 'alias': None, 'value': 56.0, 'status': 1, 'valid': True, 'description': None},
{'id': 6, 'name': 'STDwd', 'alias': None, 'value': 11.9, 'status': 1, 'valid': True, 'description': None},
{'id': 7, 'name': 'RH', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
{'id': 8, 'name': 'TD', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
{'id': 10, 'name': 'TDmax', 'alias': None, 'value': 13.6, 'status': 1, 'valid': True, 'description': None},
{'id': 11, 'name': 'TDmin', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
{'id': 13, 'name': 'WS1mm', 'alias': None, 'value': 6.2, 'status': 1, 'valid': True, 'description': None},
{'id': 14, 'name': 'Ws10mm', 'alias': None, 'value': 5.3, 'status': 1, 'valid': True, 'description': None},
{'id': 15, 'name': 'Time', 'alias': None, 'value': 2351.0, 'status': 1, 'valid': True, 'description': None}]},
 {'datetime': '2013-01-01T00:10:00+02:00', 'channels': [
     {'id': 1, 'name': 'Rain', 'alias': None, 'value': 0.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 2, 'name': 'WSmax', 'alias': None, 'value': 9.7, 'status': 1, 'valid': True, 'description': None},
     {'id': 3, 'name': 'WDmax', 'alias': None, 'value': 42.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 4, 'name': 'WS', 'alias': None, 'value': 6.3, 'status': 1, 'valid': True, 'description': None},
     {'id': 5, 'name': 'WD', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 6, 'name': 'STDwd', 'alias': None, 'value': 12.6, 'status': 1, 'valid': True, 'description': None},
     {'id': 7, 'name': 'RH', 'alias': None, 'value': 54.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 8, 'name': 'TD', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 10, 'name': 'TDmax', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 11, 'name': 'TDmin', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 13, 'name': 'WS1mm', 'alias': None, 'value': 7.7, 'status': 1, 'valid': True, 'description': None},
     {'id': 14, 'name': 'Ws10mm', 'alias': None, 'value': 6.3, 'status': 1, 'valid': True, 'description': None},
     {'id': 15, 'name': 'Time', 'alias': None, 'value': 10.0, 'status': 1, 'valid': True, 'description': None}]},
 {'datetime': '2013-01-01T00:20:00+02:00', 'channels': [
     {'id': 1, 'name': 'Rain', 'alias': None, 'value': 0.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 2, 'name': 'WSmax', 'alias': None, 'value': 8.8, 'status': 1, 'valid': True, 'description': None},
     {'id': 3, 'name': 'WDmax', 'alias': None, 'value': 42.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 4, 'name': 'WS', 'alias': None, 'value': 5.6, 'status': 1, 'valid': True, 'description': None},
     {'id': 5, 'name': 'WD', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 6, 'name': 'STDwd', 'alias': None, 'value': 12.8, 'status': 1, 'valid': True, 'description': None},
     {'id': 7, 'name': 'RH', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 8, 'name': 'TD', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 10, 'name': 'TDmax', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 11, 'name': 'TDmin', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 13, 'name': 'WS1mm', 'alias': None, 'value': 6.8, 'status': 1, 'valid': True, 'description': None},
     {'id': 14, 'name': 'Ws10mm', 'alias': None, 'value': 6.3, 'status': 1, 'valid': True, 'description': None},
     {'id': 15, 'name': 'Time', 'alias': None, 'value': 12.0, 'status': 1, 'valid': True, 'description': None}]},
 {'datetime': '2013-01-01T00:30:00+02:00', 'channels': [
     {'id': 1, 'name': 'Rain', 'alias': None, 'value': 0.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 2, 'name': 'WSmax', 'alias': None, 'value': 10.4, 'status': 1, 'valid': True, 'description': None},
     {'id': 3, 'name': 'WDmax', 'alias': None, 'value': 60.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 4, 'name': 'WS', 'alias': None, 'value': 5.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 5, 'name': 'WD', 'alias': None, 'value': 54.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 6, 'name': 'STDwd', 'alias': None, 'value': 11.9, 'status': 1, 'valid': True, 'description': None},
     {'id': 7, 'name': 'RH', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 8, 'name': 'TD', 'alias': None, 'value': 13.4, 'status': 1, 'valid': True, 'description': None},
     {'id': 10, 'name': 'TDmax', 'alias': None, 'value': 13.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 11, 'name': 'TDmin', 'alias': None, 'value': 13.3, 'status': 1, 'valid': True, 'description': None},
     {'id': 13, 'name': 'WS1mm', 'alias': None, 'value': 7.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 14, 'name': 'Ws10mm', 'alias': None, 'value': 5.6, 'status': 1, 'valid': True, 'description': None},
     {'id': 15, 'name': 'Time', 'alias': None, 'value': 21.0, 'status': 1, 'valid': True, 'description': None}]},
 {'datetime': '2013-01-01T00:40:00+02:00', 'channels': [
     {'id': 1, 'name': 'Rain', 'alias': None, 'value': 0.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 2, 'name': 'WSmax', 'alias': None, 'value': 9.5, 'status': 1, 'valid': True, 'description': None},
     {'id': 3, 'name': 'WDmax', 'alias': None, 'value': 61.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 4, 'name': 'WS', 'alias': None, 'value': 5.7, 'status': 1, 'valid': True, 'description': None},
     {'id': 5, 'name': 'WD', 'alias': None, 'value': 52.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 6, 'name': 'STDwd', 'alias': None, 'value': 11.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 7, 'name': 'RH', 'alias': None, 'value': 55.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 8, 'name': 'TD', 'alias': None, 'value': 13.2, 'status': 1, 'valid': True, 'description': None},
     {'id': 10, 'name': 'TDmax', 'alias': None, 'value': 13.3, 'status': 1, 'valid': True, 'description': None},
     {'id': 11, 'name': 'TDmin', 'alias': None, 'value': 13.2, 'status': 1, 'valid': True, 'description': None},
     {'id': 13, 'name': 'WS1mm', 'alias': None, 'value': 7.0, 'status': 1, 'valid': True, 'description': None},
     {'id': 14, 'name': 'Ws10mm', 'alias': None, 'value': 5.7, 'status': 1, 'valid': True, 'description': None},
     {'id': 15, 'name': 'Time', 'alias': None, 'value': 40.0, 'status': 1, 'valid': True, 'description': None}]}]

import json
import pandas as pd
from pandas.io.json import json_normalize
with open(r"Documents\dat.json") as data_file:
    js_dict = json.load(data_file)
columns =list(json_normalize(js_dict["data"][0]["channels"]) 
   ["name"])
df = pd.DataFrame()
for row in js_dict["data"]:
    val = json_normalize(row,record_path="channels").transpose().iloc[6]
    new_val = pd.DataFrame(val).transpose().reset_index()
    df = df.append(new_val)

print(df)

EDIT

我使用了另一个更基本的脚本，使用较少的 pandas 函数并大大缩短了时间，我想知道为什么 pandas 函数如此慢

from glob import glob
import json
import pandas as pd
from pandas.io.json import json_normalize
import time
import cProfile


def timing(f):
    def wrap(*args):
        time1 = time.time()
        ret = f(*args)
        time2 = time.time()
        print('{:s} function took {:.3f} ms'.format(f.__name__, (time2- 
       time1)*1000.0))
        return ret
    return wrap


@timing
def convert_json_panda_I(js_dict):
    columns =list(json_normalize(js_dict[0]["channels"])["name"])
    df = pd.DataFrame()
    for row in js_dict:
        val = json_normalize(row,record_path="channels").transpose().iloc[6]
        new_val = pd.DataFrame(val).transpose().reset_index()
        df = df.append(new_val)
    return df


def decode_dict(dat):
    row = []
    for k, v in dat.items():
        if k in 'datetime':
            date = v
            row.append(date)
        elif k in 'channels':
            for chanell in v:
                row.append(chanell["value"])
    return row


@timing
def convert_json_panda_II(json_dict):
    df = pd.DataFrame([decode_dict(line) for line in json_dict])
    return df


if __name__ == "__main__":
    with open(r"C:\cygwin64\bin\zefat_bp.json") as data_file:
        js_dict = json.load(data_file)
    print("first version profile")
    first_version = convert_json_panda_I(js_dict["data"])
    print("second version profile")
    second_version = cProfile.run('convert_json_panda_II(js_dict["data"])')
    print(type(second_version))
    print(second_version.head())

时间上的差异非常大：

Connected to pydev debugger (build 181.4445.76)

convert_json_panda_I function took 2298914.500 ms

convert_json_panda_II function took 1389.219 ms

为什么使用 pandas 函数这么慢？

问题是df.append(new_val)为每一行创建一个全新的 Pandas 数据框（它copy前一行并添加新行）。因此，随着1,000,000行，第一个版本将生成 1,000,000 个数据帧，平均每个数据帧 500,000 行。第二种方法只直接生成一个大数据帧。重点是：不要使用append熊猫，use concat。这是一个例子：

import json
import pandas as pd
from pandas.io.json import json_normalize
with open(r"Documents\dat.json") as data_file:
    js_dict = json.load(data_file)
columns =list(json_normalize(js_dict["data"][0]["channels"]) 
   ["name"])

rows = []
for row in js_dict["data"]:
    val = json_normalize(row,record_path="channels").transpose().iloc[6]
    rows.append(pd.DataFrame(val).transpose().reset_index())
df = pd.concat(rows)

print(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

pandas

performance

嵌套 json 到 pandas 非常慢的相关文章

使用 Python 访问内存映射文件

我希望利用激战 2 中的内存映射文件该文件旨在链接到 Mumble 以获得位置音频该文件包含有关字符坐标的信息和其他有用的信息我已经能够使用此脚本访问坐标信息 import mmap import struct last while
如何为 PyYAML 编写代表程序？

我想要一个自定义函数来序列化任意 python 对象就像 json dump 函数有一个名为 default 的可选参数如果对象不是 json 可序列化的它应该是 json 转储器将调用的函数我只是想从 json 包中执行相当于此操
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
在Python中将月份和年份的列合并为季度和年份的列

我有一个数据框 df Month 1 8 Year 2015 2020 df pd DataFrame data df df 想要将其转变为新列期望的输出 df Month 1 8 Year 2015 2020 Quarter Q1201
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
过滤给定范围内的坐标

我有数百个带有地理位置的 out 文件我将把它们批量导入到 SQLite 数据库中但是为了节省时间我只会导入地理坐标在某些间隔内的线文件是这样的 value value longitude latitude value value
构建wheel失败/“错误：INCLUDE环境变量为空”

我正在使用 Python 2 7 11 并尝试 pip install 模块但是其中一些模块失败了我收到的消息是无法为 X 构建轮子和错误包含环境变量为空我尝试安装 Scrapy LXML 和 Twisted 但都失败了我尝
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
折叠 numpy 数组除前两个维度之外的所有维度

我有一个可变维度的 numpy 数组例如它可以具有以下形状 64 64 64 64 2 5 64 64 40 64 64 10 20 4 我想要做的是如果维数大于 3 我想将其他所有内容折叠堆叠到第三维中同时保留顺序因此在我上面
Python - 从一定范围内随机采样，同时避免某些值

我一直在阅读有关random sample 函数在random模块但没有看到任何可以解决我的问题的东西我知道使用random sample range 1 100 5 会给我来自人群的 5 个独特样本我想得到一个随机数range
Java Reflection：为什么这么慢？

我一直避免使用 Java 反射因为它速度缓慢我在当前项目的设计中达到了一个点能够使用它将使我的代码更具可读性和优雅性所以我决定尝试一下我只是对这种差异感到惊讶我注意到有时运行时间几乎延长了 100 倍即使在这个简单的例子中它
从Python列表中挑选出具有特定索引的项目

我确信在 Python 中有一种很好的方法可以做到这一点但我对这门语言还很陌生所以如果这是一个简单的方法请原谅我我有一个列表我想从该列表中挑选某些值我想要挑选的值是列表中索引在另一个列表中指定的值例如 indexes 2 4
Spacy-nightly (spacy 2.0) 问题“thinc.extra.MaxViolation 大小错误”

显然成功安装了 spacy nightly spacy nightly 2 0 0a14 和英语模型 en core web sm 后我在尝试运行它时仍然收到错误消息 import spacy nlp spacy load en core
Python for 循环前瞻

我有一个 python for 循环其中我需要向前查看一项以查看在处理之前是否需要执行某项操作 for line in file if the start of the next line 0 perform pre processing
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint
pandas groupby 中两个系列的最大值和最小值

是否可以从 groupby 中的两个系列中获取最小值和最大值例如下面的情况分组时c 我怎样才能得到最小值和最大值a and b同时 df pd DataFrame a 10 20 3 40 55 b 5 14 8 50 60 c x x
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
Maya python 连接选择的属性

我一直在尝试制作一个简单的脚本它将采用两个视口选择然后基本上将第二个视口的旋转连接到第一个我不确定如何正确地从视口选择中为对象创建变量这是我的尝试但不起作用 import maya cmds as cmds sel cmds ls
VSCode IntelliSense 认为 Python 'function()' 类存在

VSCode IntelliSense 正在完成一个名为的 Python 类function 这似乎不存在例如这似乎是有效的代码 def foo value return function value foo 0 But functio
获取 Flask 中没有端口的请求主机名

我刚刚设法使用 Flask 获取我的应用程序服务器主机名request host and request url root 但这两个字段都返回请求主机名及其端口我想使用仅返回请求主机名的字段方法而无需进行字符串替换如果有没有 We

随机推荐

在javafx中加载多个fxml

我已经寻找了一段时间但一直没能得到我想做的事情我一直在使用 javafx 框架在这个线程中的 javafx 中切换 fxml 在同一场景中加载新的 fxml https stackoverflow com questions 18619
允许的内存大小已耗尽

在 phpmyadmin 中将 zip sql 文件导入数据库时我有 wamp 并更改了 php ini 中的配置但仍然显示以下错误 Allowed memory size of 67108864 bytes exhausted tri
有条件地启用 Jenkins 声明式管道选项吗？

Jenkins 是否提供任何功能来实现下述管道 pipeline agent any options when branch master disableConcurrentBuilds stages 我有两个状态的存储库这个单一管道必须
使用未命名枚举初始化的“static constexpr auto”数据成员

我正在开发一个 C 11 项目仅使用clang 3 4 并决定使用编译g 4 8 2以防产生的错误有任何差异事实证明 g 拒绝了 clang 接受的一些代码我已将问题简化为下面给出的 MWE enum a template
cython 问题：“bool”不是类型标识符

我拼命地想揭露一个std vector
如何在不使用ID的情况下查找元素

我的数组中有 DOM 元素 this object div span class color color1 span span class text text1 span div div span class color color2 sp
jquery ui 滑块范围修复为 RTL

我想将 Jquery 滑块范围更改为 RTL 我正在使用这个 http jqueryui com slider range http jqueryui com slider range Jquery代码 function slider ra
使用鼠标按钮的 Eclipse 后退/前进导航

Visual Studio 有一个名为的插件鼠标导航 http www codeproject com KB macros MouseNavi aspx它允许您使用鼠标拇指按钮来浏览您的历史记录 Eclipse 是否存在类似的扩展我不知道
如何在 jquery for firebase 中实现图像弹出窗口

我遇到了一些麻烦因为我不知道如何在 jquery for firebase 中实现图像弹出窗口我在互联网上搜索过但没有找到如何在动态网站上实现它的方法我有以下 jquery 代码有人可以帮忙吗我还没有在 stackoverflo
NameID 元素必须作为主题的一部分出现

嘿我正在尝试使用我的服务提供商配置 IDP 但是当 saml 响应来自 IDP 时我在我的服务提供商中收到此错误 org opensaml common SAMLException NameID 元素必须作为响应消息中主题的一部分出现
在 python 中保存 3D NetworkX 图以便稍后使用 paraview 查看

我编写了这个脚本它使用 python 中的 NetworkX 绘制随机 3D 图形该脚本的输出是一个 3D 图形我可以在其中围绕图形结构旋转相机 import networkx as nx from mpl toolkits mplo
理解“git remote show”命令输出...“为‘git push’配置的本地引用”的含义是什么？

我有两个遥控器和两个本地分支机构本地分支 master 正在跟踪远程分支 origin master 本地分支 mirror 正在跟踪远程分支 github master 这是在我的 git config 文件中 remote origi
Swt 组合框名称/密钥对

我想让文字说一件事但让值说另一件事 Text Key 但它只需要一个字符串来添加项目 Java 程序员通常如何在组合框中存储文本 id 对也许您可以使用组合框的 setData String key Object value 方法来实现
如何打印本地时区的日期时间？

假设我有一个变量 t 设置为 datetime datetime 2009 7 10 18 44 59 193982 tzinfo
.NET Framework 4.5 操作系统要求（无 Vista 和 XP）[已关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案现在 NET Framework 4 5 仅在 Windows 7 及更高版本上运行 http msdn microsoft com en
Jupyter Lab 中的多光标编辑

以前为了在 Jupyter Notebook 中启用多光标编辑我使用了自定义 JS 片段 require codemirror keymap sublime notebook js cell base js namespace func
加载部分模板 Ajax - 使用 Grails

我正在创建一个 grails web 应用程序并且有主索引 gsp 并且有几个通用组件这些组件在我使用部分模板的网站上的大多数页面中都是通用的每个部分模板都将是非常独立的并且包含非常不同的信息因此每个部分模板都应该从不同的控制器获
Paypal 开发人员 - 无法创建沙盒企业帐户以及错误消息

我试图通过首先创建两个个人和企业沙盒帐户来设置 Paypal 开发应用程序然而它只显示 facilitator 当我点击企业帐户的个人资料时出现以下错误消息我们在创建此沙盒帐户时遇到了一些问题请删除它并重试不幸的是该帐户旁边
从图像中提取特定文本关联值

我有一个图像我想从图像中提取键和值对的详细信息例如我想提取 MASTER AIRWAYBILL NO 的值我已编写使用 python opencv 和 OCR 从图像中提取整个文本但我不知道如何从图像的整个结果文本中仅提取 MAS
嵌套 json 到 pandas 非常慢

我正在尝试转换 321MB将 json 文件嵌套到 pandasDataframe这需要我非常非常很长时间以来我确信有一种更快的方法可以做到这一点这是我的代码数据如下所示 js dict data 0 5 d datetime 201

嵌套 json 到 pandas 非常慢

嵌套 json 到 pandas 非常慢 的相关文章

随机推荐

热门标签

嵌套 json 到 pandas 非常慢的相关文章