读取相当大的 JSON 文件 [重复]

2024-03-13

我有一些大的 json 编码文件。最小为300MB；其余的都是多个 GB，从 2GB 到 10GB+ 不等。

尝试在 Python 中加载文件时，我似乎内存不足。

我尝试使用此代码来测试性能：

from datetime import datetime
import json

print datetime.now()

f = open('file.json', 'r')
json.load(f)
f.close()

print datetime.now()

毫不奇怪，这会导致MemoryError。看起来json.load() calls json.loads(f.read())，它试图首先将整个文件转储到内存中，这显然是行不通的。

我怎样才能干净地解决这个问题？

我知道这很旧，但我不认为这是重复的。虽然答案相同，但问题不同。在“重复”中，问题是如何有效地读取大文件，而这个问题处理的是根本不适合内存的文件。效率没有要求。

这里的问题是，JSON 作为一种格式，通常会进行完整解析，然后在内存中处理，这对于如此大量的数据来说显然是有问题的。

解决方案是将数据作为流处理 - 读取文件的一部分，使用它，然后重复。

最好的选择似乎是使用类似的东西ijson http://pypi.python.org/pypi/ijson/- 一个将 JSON 作为流而不是块文件使用的模块。

编辑：也值得一看 -卡西夫的评论 https://stackoverflow.com/questions/10382253/reading-rather-large-json-files-in-python/10382359#comment43555683_10382359 about json-streamer https://github.com/kashifrazzaqui/json-streamer and 亨里克·海诺的评论 https://stackoverflow.com/questions/10382253/reading-rather-large-json-files-in-python/10382359#comment64978638_10382359 about bigjson https://github.com/henu/bigjson.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

读取相当大的 JSON 文件 [重复] 的相关文章

创建圆形图像 PIL Tkinter

Currently I have a zoom feature in my application that works very well however I d like the actual zoom box to be a circ
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
如何检索 jquery $.ajax 对象的responseJSON属性[重复]

这个问题在这里已经有答案了我有这个 JavaScript ajax ajax type GET url DBConnect php data dataType json success function data error functi
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
在 keras 中使用自定义张量流操作

我在张量流中有一个脚本其中包含自定义张量流操作我想将代码移植到 keras 但我不确定如何在 keras 代码中调用自定义操作我想在 keras 中使用tensorflow 所以到目前为止我发现的教程描述了与我想要的相反的内容 htt
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
Jmeter动态生成请求的json负载

我有一个 Jmeter 测试计划我希望 HttpSampler 发送发布请求请求正文应包含 Json 如下所示 productIds p1 p2 我设置了一个随机变量生成器每次调用都会返回格式正确的 ProductId 我想做的是通过
是否可以用 json 进行表达式/计算？

我使用出色的 json server 作为应用程序的后端它对于访问自定义端点以检索一些数据非常有用但是如果它允许我进行计算表达式以便我也可以模仿后端行为那将会非常有用以这个数据结构为例 products name football
在 JSON 对象中强制执行非空字段

我们的 REST API 接收一些 JSON 对象输入其中某些字段要求不为空这些可以是字符串整数甚至可以是其他一些类实例作为参考我们正在尝试找到一种方法来强制这些字段不为空而不是在 API 中进行空检查的正确方法当前的 if
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
根据 Java 环境变量中的值创建使用 @JsonIgnore 的自定义注释

我需要创建一个新的注释用于在环境变量设置时忽略输出 JSON 文件中的字段var false 我尝试使用JsonAnnotationIntrospector 但无法获得预期的输出 public class Vehicle String v
如何动态创建 Luigi 任务

我正在为 Luigi Tasks 构建一个包装器但遇到了一个障碍Register http luigi readthedocs io en stable modules luigi task register html Register该

随机推荐

Pythoncoverage.py 排除行

背景我有几个使用coverage py 的Django 项目并且一直在尝试向我的 coveragerc 配置文件的exclude lines 部分添加一些额外的表达式问题是即使使用正确的正则表达式也可以在测试器中拾取该行例如ht
删除字符串中的所有 HTML 标签（使用 jquery text() 函数）

是否可以使用 jquery text 函数删除字符串中的所有 HTML 带有 HTML 标签的字符串 myContent div Hello span world span div 结果必须是 Hello world var myConte
C# 中字符串类型最快（内置）比较是什么

C 中字符串类型最快的内置比较方法是什么我不介意印刷语义含义目的是在排序列表中使用比较器以便在大型集合中快速搜索我认为只有两种方法 Compare and CompareOrdinal 什么是最快的此外是否有更快的字符串比较方法
拍照后编辑图像

我目前正在制作一个 iPhone 应用程序用户可以在其中拍照或从相册中选择照片然后将覆盖层放置在图像上然后用户可以缩放旋转和保存图像目前我可以拍照或者选择一张放入相册至于覆盖层我只是使用 UIImageView 并将其放置
AngularJS：AppLevel 控制器可能吗？

我有一个控制器它是我的页面的控制器但我想知道是否有可能有一个 AppLevel 控制器即可以从每个页面访问的东西所以每个页面实际上会分配超过 1 个控制器我知道我可能可以通过服务来做到这一点并注入服务但我希望有某种可以分配的应用
x86_64 将 64 位寄存器减少到 32 位并保留零或非零状态的最佳方法

我正在寻找最快最节省空间的方法将 64 位寄存器减少为 32 位寄存器仅保留 64 位寄存器的零非零状态我目前适用于所有价值观的最佳想法是popcntq 1c tput 主流 Intel 上的 3c 延迟 5 字节代码大小 rax
对一个列表与另一个列表 ID 进行排序

我有一个包含一些标识符的列表如下所示 List
如何通过 jq 的“join”函数使用换行符 (\n) 和制表符 (\t) 等非显示字符

我在互联网上找不到这个所以我想将其添加为文档我想在非显示字符周围加入一个 json 数组 30 RecordSeparator 这样我就可以在 bash 中安全地迭代它但我不太清楚该怎么做我试过echo one two three
Percona 的 pt-table-sync：如何在多个表上运行？

在命令行中这将成功更新 table1 pt table sync execute h host1 D db1 t table1 h host2 D db2 但是如果我想更新多个表我不知道如何编写它这也只更新 table1 并忽略其他
警告：道具类型失败：未在“DimensionPicker”中指定必需的道具“dimensionName”。检查`Connect(DimensionPicker)`的渲染方法

我有以下 Redux React 组件 import PropTypes React Component from react import Select from react select class DimensionPicker ex
为什么不同的批量大小在 Keras 中给出不同的精度？

我使用 Keras 的 CNN 对 MNIST 数据集进行分类我发现使用不同的批量大小会产生不同的精度为什么会这样呢使用批量大小 1000 https i stack imgur com Ad4oO png 加速器 0 97600 使
NSURLConnection 授权标头不起作用

我试图通过 NSURLConnection 在 HTTP 标头中发送 OAuth 访问令牌但它似乎没有发送标头因为 API 不断给我一个错误指出必须提供授权令牌这是我正在使用的代码 NSURL aUrl NSURL URLWith
如何以 bgra8Unorm 像素格式在 MTLTexture 上绘图

当我绘制时我的代码可以工作MTLTexture with rgba32Float像素格式我可以采取CVPixelBuffer出来了 But FlutterTexture需要bgra8Unorm格式我不想转换CVPixelBuffer由于
纯CSS响应式文字效果

我的问题很简单考虑以下CodePen https codepen io rachsmith pen BNKJme 我是否可以仅使用 css 获得相同的结果换句话说如果不使用javascrip 这将如何完成非常感谢 div class
更改laravel sql查询的默认日期格式

我想将以下 SELECT 查询的日期输出更改为 DD MM YYYY 格式请建议这是我到目前为止所尝试的 gt select time sheets progress DATE FORMAT time sheets date d l Y
Objective-C 代码可以调用 Swift 类扩展吗？

我搜索了一些帖子我认为我无法在 Swift 下编写扩展并从 Objective C 代码中调用它对吗 objc像属性只支持方法类协议您可以编写 Swift 扩展并在 Objective C 代码中使用它使用 Xcode 6 1
Android Wear 中的 WebView 在运行时出现错误

我正在尝试为 Android Wear 制作一个网络浏览器并且我正在使用 Android Studio 我的膨胀代码 Override protected void onCreate Bundle savedInstanceState s
获取Dictionary中包含值x的所有键

我有这个 Dictionary
如何将实时数据从生产 App Engine 应用程序获取到本地开发应用程序？

我想知道是否有人有关于如何配置 AppEngine remote api 的指示以便我可以在本地调试我的代码但使用 remote api 从我的服务器获取一些数据这样我就可以根据真实信息进行测试 Thanks 如果您想使用 High
读取相当大的 JSON 文件 [重复]

这个问题在这里已经有答案了我有一些大的 json 编码文件最小为300MB 其余的都是多个 GB 从 2GB 到 10GB 不等尝试在 Python 中加载文件时我似乎内存不足我尝试使用此代码来测试性能 from datetime

读取相当大的 JSON 文件 [重复]

读取相当大的 JSON 文件 [重复] 的相关文章

随机推荐

热门标签