将 JSON 数组读入类似 Julia DataFrame 的类型

2024-03-26

给定一个 JSON 文件，JSON 包会愉快地解析它。但如果我想把它作为DataFrame（或任何其他柱状数据结构），获得它的好方法是什么？

目前，例如，我有：

using JSON
using DataFrames

json_str = """
[{ "color": "red", "value": "#f00" }, { "color": "green", "value": "#0f0" }, 
 { "color": "blue", "value": "#00f" }, { "color": "cyan", "value": "#0ff" }, 
 { "color": "magenta", "value": "#f0f" }, { "color": "yellow", "value": "#ff0" }, 
 { "color": "black", "value": "#000" } ]
  """

function jsontodf(a)
    ka = union([keys(r) for r in a]...)
    df = DataFrame(;Dict(Symbol(k)=>get.(a,k,NA) for k in ka)...)
    return df
end

a = JSON.Parser.parse(json_str)
jsontodf(a)

结果是：

7×2 DataFrames.DataFrame
│ Row │ color     │ value  │
├─────┼───────────┼────────┤
│ 1   │ "red"     │ "#f00" │
│ 2   │ "green"   │ "#0f0" │
│ 3   │ "blue"    │ "#00f" │
│ 4   │ "cyan"    │ "#0ff" │
│ 5   │ "magenta" │ "#f0f" │
│ 6   │ "yellow"  │ "#ff0" │
│ 7   │ "black"   │ "#000" │

并且还用 NA 处理一些缺失的字段。有更干净/更快的东西吗（Julia v0.6+）？

我已经挖出了这个老问题，现在我们从 DataFrames.jl 0.18.0 开始有了更好的解决方案。

如果 JSON 中的所有条目都具有相同的字段，您可以编写：

reduce(vcat, DataFrame.(a))

如果您必须处理每个字典中不同字段的可能性，请编写：

vcat(DataFrame.(a)..., cols=:union)

这可能会有点问题，如果a有很多条目，因为它有泼溅。我刚刚提交了一份 PR，以便您也可以写：

reduce(vcat, DataFrame.(a), cols=:union)

在不远的将来。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DataFrame

Julia

将 JSON 数组读入类似 Julia DataFrame 的类型的相关文章

如何总结不同的groupby组合？

我正在编制一份按县列出的前 3 名作物的表格有些县的农作物品种相同顺序相同其他县也有相同的作物品种但顺序不同 df1 pd DataFrame County Harney Baker Wheeler Hood River Wasco
按日期过滤 Pandas 数据框

我有一个带有日期列的 Pandas DataFrame 现在我需要过滤掉 DataFrame 中日期在未来两个月之外的所有行本质上我只需要保留接下来两个月内的行实现这一目标的最佳方法是什么 If 日期列是索引然后使用 loc 进
如何解决 pandas 读取大 csv 文件时的内存问题

我有一个 100GB 的 csv 文件其中有数百万行我需要在 pandas 数据框中一次读取 10 000 行并将其分块写入 SQL 服务器我按照建议使用了 chunksize 以及 iteartorhttp pandas docs
埃拉托斯特尼筛法速度比较：Python 与 Julia

所以我有一个用 Python 和 Julia 编写的 Eratosthenes 函数的小筛子并且我正在比较运行时间这是Python代码 import time def get primes n numbers set range n 1
获取列名，其中值是 pandas 数据框中的内容

我试图在每个时间戳找到数据帧中的列名称其值与同一时间戳的时间序列中的列名称相匹配这是我的数据框 gt gt gt df col5 col4 col3 col2 col1 1979 01 01 00 00 00 1181 220328 9
如何在pandas中的多个数据框列中“选择不同的”？

我正在寻找一种与 SQL 等效的方法 SELECT DISTINCT col1 col2 FROM dataframe table pandas sql 比较没有任何内容distinct unique 只适用于单个列所以我想我可以连接这些
PySpark 中按降序排序

我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序试图通过这段代码来实现它 group by dataframe count filter coun
使用 python-pandas 索引数据帧时无法获得非唯一标签的正确切片绑定

我有这样一个数据框df a b 10 2 3 1 0 0 0 4 about 50 000 rows 我希望选择df 5 a 但是当我打电话时df loc 5 a 我得到一个错误 KeyError Cannot get right slic
如何在 for 循环中检索 Pandas GroupBy 对象的行

我有一个按对象分组我想在 for 循环中检索按对象分组的特定列的行并进行一些处理例如我在这里给出了按对象分组的示例代码 df pd DataFrame A foo bar foo bar foo bar foo foo B one o
数据框中值之间的距离

我有一个数据框其中包含一系列虚拟变量这些变量指示在另一个事件 a 之前发生的事件类型 e1 e2 我需要知道从类型 e1 和 e2 的每个事件到下一个事件 a 的索引值的距离我尝试使用显示的数据进行演示我已经研究了一些解决方案包括
将 pandas 数据帧与 apply(lambda) 的结果连接起来，其中 lambda 返回另一个数据帧

数据帧在列中存储一些值将这些值传递给函数我得到另一个数据帧我想将返回的数据帧的列连接到原始数据帧我尝试做类似的事情 i pd concat i i cid id apply lambda x xy x axis 1 axis 1 但
数据框中数据的遍历和操作

这是对前一个问题的参考是对该问题的扩展我想使用 Pandas 迭代 xlsx 包含时间戳并获取停机时间 https stackoverflow com questions 60808781 i want to iterate throu
朱莉娅中未显示情节

我有一个名为 mycode jl 的文件其中包含以下代码here https juliastats org MultivariateStats jl dev pca using MultivariateStats RDatasets Pl
根据大量 python 数据帧的字数删除关键字

如果我有这个df具有 41 000 行的数据框包含数千个单词例如像这样df column1 column2 better spotted better rights rights rights fresh fresh rights rig
在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据

考虑以下简化的示例数据帧df Department CustomerID Date Price MenswearDemand HomeDemand 0 Menswear 418089 2019 04 18 199 199 0 1 Mensw
在 pandas DataFrame 中取消嵌套（分解）多个列表列的有效方法

我正在将多个 JSON 对象读取到一个 DataFrame 中问题在于某些列是列表此外数据非常大因此我无法使用互联网上可用的解决方案它们非常慢并且内存效率低下我的数据如下所示 df pd DataFrame A x1 x2 x3
Python/pandas：从两个数据帧中查找匹配值并返回第三个值

我有两个不同的数据帧 df1 df2 具有完全不同的形状 df1 64 6 df2 564 9 df1 包含一列 df1 objectdesc 其中的值字符串也可以在 df2 df2 objdescription 的列中找到由于两个数
R - 小鼠 - 添加一列，对具有估算值的列进行求和

我有一个缺少数据的数据库我需要估算数据我使用的是小鼠然后根据原始列创建新列使用估算数据我需要用这些新列进行统计分析具体来说我的参与者使用 7 点李克特量表填写了几份调查问卷有些人没有回答所有问题然后我需要估算值 1 对列中
根据另一个 csv 文件过滤 csv 文件中的行并将过滤后的数据保存在新文件中

大家好所以我试图根据file1过滤file2 其中file1是file2的子集但 file2 有一个描述列我需要能够分析 file1 中的数据我想做的是过滤 file2 并仅获取 file1 中的标题及其描述我尝试了这个但我不太
根据 pandas 中其他数据帧的值更改一个数据帧的值

我有一个数据框 df1 id value 1 100 2 100 3 100 4 100 5 100 我有另一个数据框 df2 id value 2 50 5 30 我想用 df1 中的值替换 df2 中 id 的这些值最终修改后的df1

随机推荐

java中的开源图像处理库[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案谁能推荐一个好的 Java 开源图像处理库我想用它开发一个 OMR 阅读器有多种选择每种都有自己
如何在没有线程或任务队列的情况下在 Flask 中运行后台作业

我正在使用 Flask restplus 构建 REST API 我的端点之一获取从客户端上传的文件并运行一些分析该作业最多需要 30 秒我不希望这项工作阻塞主进程因此端点将立即返回 200 或 201 响应作业仍然可以运行结果将
导航/子导航列表，如何在页面重新加载后为单击的项目提供活动类

我有几个嵌套和隐藏的子导航列表 ul class nav li a href index html Home a li li a class profile href Profile a ul li a href company html
与 Consumer 一起模拟方法

我想嘲笑repository actionOnFile String path Consumer
类型和从属名称[重复]

这个问题在这里已经有答案了我可以手动创建一个std vector
如何在 Scala 中分割给定位置列表的字符串

你会怎样写一个功能性的实施split positions List Int str String List String 这类似于splitAt但将给定的字符串拆分为list给定位置列表的字符串例如 split List 1 2 abc
对 Range-v3 压缩容器进行排序 - 我可以解压吗？

是否可以使用 C 解压之前压缩的向量Range v3 库 https github com ericniebler range v3 我希望它的行为与 Haskell 类似unzip http hackage haskell org pac
回复卡未显示 -Amazon lex

我创建了一个 lex 聊天机器人并将其集成到网站中它工作正常我知道我必须从 lambda 调用响应卡我也这样做了另外我在 lex 控制台中启用了响应卡复选框毕竟我也看不到网站中的按钮除了响应卡之外还有其他方式显示按钮吗下
Pyenv 的 python 缺少 bzip2 模块

我使用 pyenv 安装 python 3 8 2 并创建一个 virtualenv 在virtualenv中我使用pipenv来安装pandas 但是当导入 pandas 时我得到以下信息 File home luislhl pye
roxygen2 importFrom 和二元运算符

格式化呼叫的方式是什么importFrom使用时roxygen2 我可以看到两种方法 importFrom base in or importFrom base in 显然我们不会将基本函数导入到包中但这是为了演示我测试了一下HERE
如何给listview添加跑马灯效果？

我在 ArrayList 中有我的朋友列表我正在尝试使用 ArrayAdapter 和 rowlayout xml 在列表视图中显示它
Python 3 和二进制文件的 base64 编码

我是 Python 新手确实有一个问题困扰着我我使用以下代码获取 zip 文件的 Base64 字符串表示形式 with open C Users Mario Downloads exportTest1 zip rb as file z
停止 Eclipse/Java 运行多个实例

我不是 java 专家或 eclipse 专家目前我正在开发一个项目我需要经常调试测试我使用 eclipse run 按钮但是当我不关闭程序 eclipse java 时它会再次打开第二个窗口这是一个带有 swing jfr
使用 Windows Installer 取消 Windows 服务安装/卸载会导致服务安装/卸载不完整

我已经使用 VS 2017 为 Windows 服务创建了一个 Windows Installer Windows 服务内部有一个项目安装程序和服务安装程序类当我中途取消卸载过程时该过程会删除 Windows 服务但不会更新数据因此
前置声明有哪些危险？

我刚刚接受采访有人问我什么是前瞻性声明然后有人问我是否存在与前瞻性声明相关的危险我无法回答第二个问题在网上搜索并没有出现任何有趣的结果那么有人知道使用前向声明有什么危险吗好吧除了重复的问题之外标准中至少有一个痛处如果你
从 String java 或 javascript 中修剪和
标签

我想使用 java 或 javascript 从字符串中删除开头和结尾的 br 和 nbsp 标签输入和所需的输出托管在 jsfiddle net 中因为 Stackoverflow 不允许我发布 html 内容 http jsfidd
Java Swing 中的 PNG 渲染不良（颜色深度低）

我目前正在使用 swing 在 java 中设计吃豆人我有使用以下语句在屏幕上绘制的 PNG 图像 wall new ImageIcon GamePanel class getResource wall png getImage g2d
如何使用 PowerShell 将“date-1”格式设置为 mm-dd-yyyy？

一个人如何得到date 1并在 PowerShell 中将其格式化为 mm dd yyyy 示例如果今天是 2013 年 11 月 1 日我的代码中需要 10 31 2013 我以前使用过 AddDays 1 但我似乎无法让它与任何格式
启动 PyQt 应用程序而不阻塞主线程

我正在向现有应用程序添加 PyQT UI 我必须初始化QAppliaction通过我在主线程上从该应用程序收到的回调我无法从回调中同步执行此操作因为我最终必须调用app exec 这是阻塞的阻止现有应用程序继续运行显然生成常规线程
将 JSON 数组读入类似 Julia DataFrame 的类型

给定一个 JSON 文件 JSON 包会愉快地解析它但如果我想把它作为DataFrame 或任何其他柱状数据结构获得它的好方法是什么目前例如我有 using JSON using DataFrames json str color

将 JSON 数组读入类似 Julia DataFrame 的类型

将 JSON 数组读入类似 Julia DataFrame 的类型 的相关文章

随机推荐

热门标签

将 JSON 数组读入类似 Julia DataFrame 的类型的相关文章