如何加快Python中加载和读取JSON文件的过程？

2024-05-08

我正在运行一个脚本（在多处理模式下），该脚本从一堆 JSON 文件中提取一些参数，但目前速度非常慢。这是脚本：

from __future__ import print_function, division
import os
from glob import glob
from os import getpid
from time import time
from sys import stdout
import resource
from multiprocessing import Pool
import subprocess
try:
    import simplejson as json
except ImportError:
    import json


path = '/data/data//*.A.1'
print("Running with PID: %d" % getpid())

def process_file(file):
    start = time()
    filename =file.split('/')[-1]
    print(file)
    with open('/data/data/A.1/%s_DI' %filename, 'w') as w:
        with open(file, 'r') as f:
            for n, line in enumerate(f):
                d = json.loads(line)
                try:

                    domain = d['rrname']
                    ips = d['rdata']
                    for i in ips:
                        print("%s|%s" % (i, domain), file=w)
                except:
                    print (d)
                    pass

if __name__ == "__main__":
    files_list = glob(path)
    cores = 12
    print("Using %d cores" % cores)
    pp = Pool(processes=cores)
    pp.imap_unordered(process_file, files_list)
    pp.close()
    pp.join()

有谁知道如何加快速度吗？

切换自

import json

import ujson

https://artem.krylysov.com/blog/2015/09/29/benchmark-python-json-libraries/ https://artem.krylysov.com/blog/2015/09/29/benchmark-python-json-libraries/

或切换到 orjson

import orjson

https://github.com/ijl/orjson https://github.com/ijl/orjson

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

如何加快Python中加载和读取JSON文件的过程？的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
使用 Rails 中的 postgres json 字段更新嵌套键

我一直在尝试更新以下内容 boxes book 2 moving 2 goods to boxes book new 2 moving 2 goods 无需使用正则表达式或在 ruby 中执行此操作但似乎有点棘手我想添加新密钥然后删除
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Apache Camel 的 JsonMappingException

我在骆驼路线上遇到以下异常 Caused by com fasterxml jackson databind JsonMappingException No serializer found for class org apache cam
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

安装Lua套接字库

要么我太累了要么我瞎了我想学习 Lua 网络因此我必须安装socketlib 所以我可以轻松地要求它但我不知道我应该要求哪些文件例子说 local socket require socket 但正如我所说如果我使用我不知道
Django admin：如何使用 url GET 参数按日期时间范围过滤记录？

我有带有时间戳字段的记录我想按日期时间范围过滤它们的 Django 管理视图我正在寻找类似添加到网址的内容 timestamp lt 201012310715 timestamp gte 201012300715 这不行有任何想法吗
是否可以将 ASP.NET ASPX 解决方案迁移到 ASP.NET Core 2.0？

我想将我的 asp net UI ASPX 页面 WebForms 应用程序迁移到 ASP NET Core 2 通过一些搜索我发现 net core 不支持 aspx 如果这是真的有人有这方面的确切文档吗应该如何继续从纯 asp n
角度 2 中的事件发生后重置计时器

我在 15 分钟空闲会话后实现注销而不使用第 3 方库或 ngrx 我创建了一个服务 run window onload gt this startTimer window onmousemove gt this resetTimer s
在 SWIXML 中将异常字符显示为按钮文本

我有以下 SWIXML 代码
内置点赞按钮 - Facebook SDK 3.0

有人知道关于将我喜欢它按钮放入应用程序的好教程吗我对 Facebook SDK 3 0 和所谓的内置点赞按钮特别感兴趣到目前为止我一直在google和stackoverflow上搜索但没有找到任何关于SDK 3 0的信息发布内
为什么c++中的构造函数不能声明为静态？

我最近读完了第一卷 Bruce Eckel 的 Thinking in C 现在转向将这些知识应用到一些实际用途中我最近正在使用静态成员函数并尝试将构造函数设为静态但编译器对此不满意我查了书上的原因但没有找到谁能解释为什么 P
无法从 ComboBox 获取值

我有一个简单的组合框其中包含一些值文本项我使用 ComboBox DisplayMember 和 ComboBox ValueMember 来正确设置值文本当我尝试获取该值时它返回一个空字符串这是我的代码表单加载事件 cbP
垄断选择随机卡和流行阵列

Click function click createCards pickCard 选卡 function pickCard var x Math floor Math random 15 0 1 0 var title cards cha
如何在Mac的cocoa应用程序中允许用户的主文件夹的权限

我有一个 Mac 应用程序其中我正在从用户的主目录中删除一些数据我的应用程序被拒绝原因如下 The app only finds files in the Downloads folder It would be appropriat
JavaFX TextField cancelEdit 未按预期工作

I have a TextField https docs oracle com javase 8 javafx api javafx scene control TextField html and I would like the co
将 webcrypto 密钥导出为 PEM 格式

我正在将 WebCrypto 与 RSASSA PKCS1 v1 5 结合使用 https github com diafygi webcrypto examples rsassa pkcs1 v1 5 sign https github
如何使用 python 控制台搜索帮助

有没有办法在Python控制台中使用关键字搜索特定的包函数例如我可能想搜索 pdf 来查找与 pdf 相关的任务 The pydoc kflag 搜索文档 pydoc k
重写并实现特征的注释宏，未正确处理泛型

我正在编写一个宏需要创建一个重写特征的类该类具有相同的特征方法参数但返回类型不同所以说我们有 trait MyTrait T def x t1 T t2 T T AnnProxy class MyClass T extends M
Android Studio：Gradle 构建错误，无法找到 SDK 和编译服务器

我是 Android Studio 的新用户在尝试将 Android Studio 项目导入其他 PC 上的 Android Studio 时遇到严重问题一般来说我的 Gradle 不想构建项目这是由路径问题引起的错误日志 Fai
使用 ASP.NET WebForms 的 jQuery DataTables 服务器端处理

Problem 使用 ASP NET WebForms 的 jQuery DataTables 服务器端处理解决方案 Darin Dimitrov 使用一个示例回答了这个问题该示例进行分页和排序但不进行任何搜索这是我对他的工作进行的
如何编写更高效的代码

世纪问题我基本上想知道如果我将此代码编写为几个不同的变量或使用小数组哪个会更有效 int x 34 int y 28 int z 293 vs double coordinate 3 34 28 293 我有一个坐标结构我将按以下方式
对一个指令进行单元测试，该指令的模板都是带有脚本标签的文件

我很难弄清楚如何在我的 Karma 单元测试中包含我的指令模板全部位于不同脚本标记的一个文件中我得到的错误 PhantomJS 1 9 Linux ERROR SyntaxError Parse error at var www htm
iReport导出的pdf不显示正确的字体

在 iReport 中使用 Times New Roman 字体生成的 PDF 似乎使用 Arial 作为其打印版本知道问题是什么吗我发现至少对我来说我必须在 xml 中的每个字体标签上显式设置 pdfEncoding 属性以及 p
如何加快Python中加载和读取JSON文件的过程？

我正在运行一个脚本在多处理模式下该脚本从一堆 JSON 文件中提取一些参数但目前速度非常慢这是脚本 from future import print function division import os from glob imp

如何加快Python中加载和读取JSON文件的过程？

如何加快Python中加载和读取JSON文件的过程？ 的相关文章

随机推荐

热门标签

如何加快Python中加载和读取JSON文件的过程？的相关文章