我正在处理大数据,并且有一个 70GB 的 JSON 文件。
我正在使用 jsonlite 库将文件加载到内存中。
我尝试过 AWS EC2 x1.16large 机器(976 GB RAM)来执行此负载,但 R 因错误而中断:Error: cons memory exhausted (limit reached?)
加载 1,116,500 条记录后。
考虑到我没有足够的 RAM,我尝试在具有 1.95TB RAM 的更大 EC2 机器上加载相同的 JSON。
加载 1,116,500 条记录后,该过程仍然中断。我正在使用 R 版本 3.1.1 并且我正在使用--vanilla
选项。所有其他设置均为默认设置。
这是代码:
library(jsonlite)
data <- jsonlite::stream_in(file('one.json'))
有任何想法吗?
有一个handler
论证stream_in
可以处理大数据。因此,您可以将解析后的数据写入文件或过滤掉不需要的数据。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)