加载 JSON 文件时出现内存错误

2024-03-14

当我加载 500Mo 大的 JSON 文件时，Python（和间谍程序）返回 MemoryError。

但我的电脑有 32Go RAM，当我尝试加载它时，spyder 显示的“内存”从 15% 变为 19%！看来我应该有更多的空间......

有什么我没想到的吗？

500MB 的 JSON 数据不会导致 500MB 的内存使用。它将导致数倍的结果。具体是哪个因子取决于数据，但 10 - 25 的因子并不罕见。

例如，以下 14 个字符（磁盘上的字节）的简单 JSON 字符串会导致 Python 对象几乎增大 25 倍 (Python 3.6b3)：

>>> import json
>>> from sys import getsizeof
>>> j = '{"foo": "bar"}'
>>> len(j)
14
>>> p = json.loads(j)
>>> getsizeof(p) + sum(getsizeof(k) + getsizeof(v) for k, v in p.items())
344
>>> 344 / 14
24.571428571428573

这是因为 Python 对象需要一些开销；实例跟踪对它们的引用数量、它们的类型以及它们的属性（如果类型支持属性）或它们的内容（如果是容器）。

如果您正在使用json内置库来加载该文件，它必须在解析内容时从内容构建越来越大的对象，并且在某一点您的操作系统将拒绝提供更多内存。不会是 32GB，因为有限制每个进程可以使用多少内存，所以更有可能是 4GB。在那时候所有那些已经创建的对象再次被释放，所以最终实际的内存使用不必改变那么多。

解决方案是将大型 JSON 文件分解为较小的子集，或者使用事件驱动的 JSON 解析器，例如ijson https://pypi.python.org/pypi/ijson.

事件驱动的 JSON 解析器不会为整个文件创建 Python 对象，只会为当前解析的项目创建 Python 对象，并通知您使用事件创建的每个项目的代码（例如“启动一个数组，这里是一个字符串，现在开始映射，这是映射的结尾，等等）。然后，您可以决定需要和保留哪些数据，以及忽略哪些数据。您忽略的任何内容都会再次被丢弃，并且内存使用量会保持在较低水平。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载 JSON 文件时出现内存错误的相关文章

Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
如何删除 PyCharm 中的项目？

如果我关闭一个项目然后删除该项目文件夹则在 PyCharm 重新启动后会再次创建一个空的项目文件夹只需按顺序执行以下步骤即可他们假设您当前在 PyCharm 窗口中打开了该项目单击文件 gt 关闭项目关闭项目在 PyCha
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col

随机推荐

setTimeout 仅运行一次而不是重复运行[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我想让 div 每 2 秒淡入和淡出一次但 setTimeout 函数只运行一次并隐藏 div 仅此而已它不会执行多次 HTM
numba 编译逻辑比较中的性能损失

以下用于逻辑比较的 numba 编译函数性能下降的原因可能是什么 from numba import njit t True and False njit boolean boolean unicode type boolean njit
如何将 Beast websocket 的读取处理程序传递给 async_read？

我如何传递回调给async read 我尝试了以下但不会编译我基于修改代码docs http www boost org doc libs 1 65 1 doc html boost asio reference ReadHandler
如何使用CodeMirror动态切换模式？

如何使用CodeMirror动态切换模式我有默认设置但需要切换它像这样的东西会对你有帮助首先设置CodeMirror this editor CodeMirror fromTextArea document getElementB
使用 dplyr 的过滤器和 mutate 生成新变量

我选择 hflights dataset 作为示例我尝试创建一个包含飞机 TailNum 的变量列但仅限于飞行时间最长的 10 以下的飞机 install packages hflights library hflights flig
Git GUI 崩溃信号 6

我正在使用 git 版本 1 9 2 和 Xcode6 Beta3 一开始 git gui 工作正常由于某种原因我不知道在终端上输入 git gui 时我收到以下崩溃消息由于未捕获的异常 NSInternalInconsisten
获取由 Worksheet.Copy 复制的最后一个工作表的句柄

我正在尝试获取通过复制操作创建的工作表的句柄以下代码曾经有效 Dim wsTempl As Worksheet pageCount as Long Set wsTempl Sheets Template For pageCount 1 T
Java中子线程会继承父线程的ThreadScope吗？

在Java中我有一个Thread A If A产生一个子线程 b does b可以访问任何所有ThreadLocal由设置的变量A 如果你的意思是InheritableThreadLocal 扩展ThreadLocal 那么是的每个子
刷新后保持 WebSocket 连接处于活动状态

我有一个实时应用程序它在 java spring 服务器和浏览器之间使用 WebSockets 有没有办法在页面刷新后保持 Websocket 连接处于活动状态这是我的 JavaScript 代码 consumerWebSocket n
如何使用 $arrayElemAt 并从 MongoDB $projection 中的该元素中删除字段？

我有工作和用户集合每个用户都可以为给定的 jobCategoryId 创建一个作业然后该作业将保存在 jobs 集合中并包含其创建者的 userId 和 jobCategoryId 我正在尝试合并这两个集合因此当我获取作业时
当用户在 Android 中更改为静默模式时执行代码

我正在使用一项服务在该服务中当用户更改为静默模式时我的代码应该被执行即一旦用户更改为静默模式我的代码就需要被执行我怎样才能做到这一点您不想使用服务相反你想使用广播接收器 http developer android com
使用innerHTML在某个div中显示JSON/对象数据

我创建了以下 JS 代码加载 HTML 文档时脚本会正确显示三个位置数据集
启动带有嵌入式 Tomcat 的 Spring Boot 应用程序时如何配置堆大小？

我正在尝试部署一个春季启动 https projects spring io spring boot 为生产提供支持的 Web 应用程序该应用程序是使用 Spring Boot 1 0 1 构建的并嵌入了默认的 Tomcat 7 作为应
如何在调试模式下编译？（netbeans、java、maven）

我在项目中面临注释持久性错误并且持久性库抛出 NullPointerException when trying to resolve the entities org eclipse persistence internal jpa m
Galaxy Tab 出现奇怪的性能问题

我正在编写 2d 教程并且能够在 Samsung Galaxy Tab 上测试我当前的教程部分本教程只是在屏幕上随机移动默认图标通过点击我创建了一个新的移动图标只要屏幕上有 25 个或更少的元素 Galaxy 上的一切都可以正常运
Linux 上 Objective-C 的 IDE [已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在学习 Objective C 我想知道在哪里可以找到 Linux 上 Objective C 的
加载逗号后空格不一致的 CSV 文件

我想使用加载 CSV 文件LOAD DATA INFILE命令但逗号后面的空格不一致即有些逗号后面跟着空格有些逗号后面没有空格我尝试使用FIELDS TERMINATED BY 指令但结果表中的某些字段包含前导空格如果输入是 a
如何将我自己的存储库分叉到新项目中？

我正在开发一个 HTML5 游戏引擎我使用 Git 作为 SV 并使用 GitHub 来实际托管该项目我在设计上做了一些实质性的改变主要是切换到实体系统范例我认为是时候换一个新引擎了我想将它建立在旧引擎的基础上因为我可以使用很多
Javascript：添加动态方法的更好方法？

我想知道是否有更好的方法向现有对象添加动态方法基本上我试图动态地组装新方法然后将它们附加到现有函数中该演示代码有效 builder function fn methods method builder for p in method
加载 JSON 文件时出现内存错误

当我加载 500Mo 大的 JSON 文件时 Python 和间谍程序返回 MemoryError 但我的电脑有 32Go RAM 当我尝试加载它时 spyder 显示的内存从 15 变为 19 看来我应该有更多的空间有什么我没想到

加载 JSON 文件时出现内存错误

加载 JSON 文件时出现内存错误 的相关文章

随机推荐

热门标签

加载 JSON 文件时出现内存错误的相关文章