将基于记录的列表/对象展平为数据帧

2024-04-26

编辑：这个问题已经过时了。这jsonlite https://cran.r-project.org/web/packages/jsonlite/index.html包装自动压平。

我正在处理具有基于记录的编码（通常采用 JSON）的在线数据流。对象的结构（即 JSON 中的名称）可从 API 文档中得知，但是，值大多是可选的，并不出现在每个记录中。列表可以包含新列表，并且结构有时相当深。下面是一些 GPS 数据的一个非常简单的示例：http://pastebin.com/raw.php?i=yz6z9t25 http://pastebin.com/raw.php?i=yz6z9t25。请注意，在下面的行中，"l"由于没有 GPS 信号，物体丢失。

我正在寻找一种优雅的方法将这些对象展平为数据框。我目前正在使用这样的东西：

library(RJSONIO)
library(plyr)

obj <- fromJSON("http://pastebin.com/raw.php?i=yz6z9t25", simplifyWithNames=FALSE, simplify=FALSE)
flatdata <- lapply(obj$data, as.data.frame);
mydf <- rbind.fill(flatdata)

这可以完成工作，但是速度很慢并且容易出错。这种方法的一个问题是我没有利用我对数据结构（对象名称）的了解；相反，它是从数据中推断出来的。当每条记录中碰巧缺少某个属性时，这会导致问题。在这种情况下，它根本不会出现在数据框中，而是出现在具有 NA 值的列中。这可能会导致下游问题。例如，我需要处理位置时间戳：

mydf$l.t <- structure(mydf$l.t/1000, class="POSIXct")

但是，如果数据集包含以下内容，这将导致错误：l$t对象不存在。此外，两者as.data.frame and rbind.fill让事情变得很慢。示例数据集是一个相对较小的数据集。对于更好的实施有什么建议吗？强大的解决方案始终会生成具有相同顺序的相同列的数据帧，并且仅行数发生变化。

编辑：在具有更多元数据的数据集下方。它的尺寸更大并且嵌套更深：

obj <- fromJSON("http://www.stat.ucla.edu/~jeroen/files/output.json", simplifyWithNames=FALSE, simplify=FALSE)

这是一个解决方案，可让您利用对数据字段名称和类的先验知识。此外，通过避免重复调用as.data.frame和单个调用plyr's rbind.fill()（两者都是时间密集型）它在示例数据上的运行速度大约快 60 倍。

cols <- c("id", "ls", "ts", "l.lo","l.tz", "l.t", "l.ac", "l.la", "l.pr", "m")   
numcols <- c("l.lo", "l.t", "l.ac", "l.la")

## Flatten each top-level list element, converting it to a character vector.
x <- lapply(obj$data, unlist)
## Extract fields that might be present in each record (returning NA if absent).
y <- sapply(x, function(X) X[cols])
## Convert to a data.frame with columns of desired classes.
z <- as.data.frame(t(y), stringsAsFactors=FALSE)
z[numcols] <- lapply(numcols, function(X) as.numeric(as.character(z[[X]])))

Edit:为了确认我的方法给出的结果与原始问题中的结果相同，我运行了以下测试。（请注意，在这两种情况下我都设置了stringsAsFactors=FALSE以避免因子水平的排序出现无意义的差异。）

flatdata <- lapply(obj$data, as.data.frame, stringsAsFactors=FALSE)
mydf <- rbind.fill(flatdata)
identical(z, mydf)
# [1] TRUE

进一步编辑：

仅供记录，这里是上述内容的替代版本，另外还会自动：

查找所有数据字段的名称
决定他们的类别/类型
将最终 data.frame 的列强制为正确的类

dat <- obj$data

## Find the names and classes of all fields
fields <- unlist(lapply(xx, function(X) rapply(X, class, how="unlist")))
fields <- fields[unique(names(fields))]
cols <- names(fields)

## Flatten each top-level list element, converting it to a character vector.
x <- lapply(dat, unlist)
## Extract fields that might be present in each record (returning NA if absent).
y <- sapply(x, function(X) X[cols])
## Convert to a data.frame with columns of desired classes.
z <- as.data.frame(t(y), stringsAsFactors=FALSE)

## Coerce columns of z (all currently character) back to their original type
z[] <- lapply(seq_along(fields), function(i) as(z[[cols[i]]], fields[i]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

将基于记录的列表/对象展平为数据帧的相关文章

从因子转换时间/日期

我希望将时间从因子转换为日期对于示例数据框 date time lt structure list date structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L Label 02 02 2013 class fa
使用插入符号完全可重现的并行模型

当我在插入符中运行 2 个随机森林时如果设置随机种子我会得到完全相同的结果 library caret library doParallel set seed 42 myControl lt trainControl method cv
使用 writeLines 将变量写入文件

我发现此链接对于理解如何将行写入文件非常有帮助将文本行写入 R 中的文件 https stackoverflow com questions 2470248 write lines of text to a file in r 不幸的是
根据 R 中的另一个变量过滤簇中的 id

我有 100 名患者的数据每个患者都有 7 天 1 到 7 的值如何仅在第一天根据另一个变量选择患者 df lt data frame id c 1 1 1 2 2 2 day c 1 2 3 1 2 3 RRT c 0 1 0 1 0
从数据帧创建 sf 多边形

我有一个包含一组多边形坐标的数据框这就是我将其转换为spatialPolygons 包sp 的方法 my df lt data frame Plot c A A A A A B B B B B Corner c SW NW NE SE S
相对于时间求平均值

我有以下带有日期时间和相应值的数据集时间间隔为每10分钟一次我需要以 15 分钟的间隔生成新行例如 15 40 的值为 599 15 50 的值为 594 因此需要在两者之间生成一个新行即 15 45 的平均值为 599 和 594
可以使用部分名称访问列表成员吗？这是一个功能吗？

考虑这个 R 代码 gt l list key 1 gt l k 1 1 gt l ke 1 1 gt l k NULL gt names l 1 key 这是否意味着您可以使用以下方式访问列表成员及其部分名称当我在一次令人沮丧的错误搜
使用条件求 R 中的累积和

我需要创建一个新变量其中包含每个 ID 过去三年金额的总和如果没有三年的数据则应显示 NA 举个例子 ID YEAR AMOUNT 1 2010 5 1 2011 2 1 2012 4 1 2013 1 1 2014 3 2 2013
如何将曲线拟合到直方图

我已经探讨了有关该主题的类似问题但在我的直方图上生成漂亮的曲线时遇到了一些麻烦我知道有些人可能会认为这是重复的但我目前还没有找到任何可以帮助解决我的问题的东西尽管数据在此处不可见但这里是我使用的一些变量以便您可以在下面的代码中看
在 R 中创建 xlsx 工作表 - 字体颜色不起作用

我正在开发一个项目需要从特定类型的数据框架自动生成数据电子表格我读过关于如何执行此操作的有用解释here http www sthda com english wiki r xlsx package a quick start guid
R 语言 NaN + NA 行为

我有一个关于 R 中算术行为的问题看下面这段代码 gt NaN NA 1 NaN gt gt gt NaN as integer NA gt NA 所以我很困惑这两个添加给出了不同的结果有谁知道这是否是真正想要的行为还是只是某种错误
移动 sf 对象的经度

我有一张国家地图 sf 对象我想改变俄罗斯东部的经度以便它不与俄罗斯其他地区隔离看图片 https i stack imgur com NBjyK jpg 我找到了后端代码st shift longitude https github
在 jupyter 笔记本中内联显示 R ggplots

我正在尝试运行这里找到的一个简单示例 https www datacamp com community blog jupyter notebook r gs OczVCjA https www datacamp com community
如何使用ggplot2中的线将箱线图的中值与多个组连接起来？

我正在尝试使用 ggplot2 连接箱线图的中值但线条不在正确的位置这是我使用的代码 library datasets library ggplot2 data airquality airquality Month lt factor
删除 R 数据框中所有列名称的前两个字符

有没有办法从数据框中的所有列名中按位置删除字符串例如如果我有如下列名称 ab sales1 kj sales2 lm sales3 pk sales100 10 34 64 288 我希望我的输出列名称类似于 sales1 sales2
如何找到连续数字的区间开始和结束的位置？

我有一个向量 vec lt c 2 3 5 6 7 8 16 19 22 23 24 连续的数字是 c 2 3 c 5 6 7 8 c 22 23 24 所以第一个向量从 2 开始到 3 结束第二个向量从 5 开始到 8 结束对于第
Databricks：如何从 R Dataframe 切换到 Pandas Dataframe（同一笔记本中的 R 到 python）

我正在 Databricks 笔记本中编写 R 代码该代码在 R 中执行多项操作清理数据帧后我想使用 python 在 python 单元中调用它因此使用 python 代码继续对数据帧进行操作因此我想在 python 块内将我
R中舍入单位的舍入数字[重复]

这个问题在这里已经有答案了我正在尝试按舍入单位对数字进行舍入例如 value lt c 8 21 1 76 6 42 1 94 10 38 如果舍入单位为 0 2 则结果为 8 2 1 8 6 4 2 0 10 4 我怎样才能在R中做到
RStudio 服务器未启动

过去几个月我一直在远程 RStudio 服务器上工作没有任何问题今天我使用此命令重新启动了 rstudio 服务器 sudo rstudio server restart 此后我无法通过浏览器访问服务器它继续等待我用这个检查了状
R 语言与 php 集成以获取 R 的结果

我有以下 R 脚本 assign data path data path lt C Users Owner Desktop R work assign valus to the following three percent train p

随机推荐

如何在 Laravel 中实现数组类型路由？

我正在尝试在 Laravel 5 8 中实现数组类型路由这是我尝试过的 Route get myroute MyController index Route get myroute MyController index Route get
sklearn中score和accuracy_score的区别

有什么区别score 中的方法sklearn naive bayes GaussianNB 模块和accuracy score中的方法sklearn metrics模块两者看起来都是一样的那是对的吗一般来说不同的模型具有返回不同指标
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
使用 Javascript、Jquery 或 HTML5 Canvas 进行无限缩放

我见过这个宇宙的规模2 http htwins net scale2 我只是想知道这是否可以使用 javascript 或 jQuery 或 HTML5 Canvas 来完成如果您单击一个项目例如人类它旁边会弹出一条信息我在这里
r 函数使用子集调用 lm

我正在编写一些代码我注意到一些奇怪的事情当我在某些面板数据的子集上运行 LM 时它工作正常如下所示 library plm data Cigar lm log price log pop log ndi data Cigar sub
当所有成员都显式释放时，类是否需要实现 IDisposable？

尝试了解何时需要实现 IDisposable 我写了一个小例子 public class FileManager private FileStream fileStream public void OpenFile string path
ASP.net URL 将子目录重写为外部 URL

我需要将子目录 URL 重写到外部域示例访问 https example1 com test https example1 com test https example2 com hello https example2 com hel
SSRS - 如何对 LookUpSet 表达式上的值求和

您好我有一列使用查找集表达式 Join LookupSet Fields ReportUNC Value Fields ReportUNC Value Format Fields cntSelfService Value 0 Execut
Java中如何判断一个数组是否包含某个特定值？

我有一个String 具有如下值 public static final String VALUES new String AB BC CD AE Given String s 有没有一个好的方法来测试是否VALUES包含s Arrays
VB6 类有析构函数吗？

当我执行诸如以下的语句时 Set MyObject Nothing 类中是否有一个被调用的特定函数即我可以用作析构函数来执行诸如清理数组与数据库断开连接等操作类似于Class Initialize 构造函数还有一个析构函数 Sub
PHP函数十六进制或RGB颜色到颜色名称

是否有一个 php 函数可以通过给出 rgb 或十六进制颜色作为参数来返回最接近的颜色名称我已经搜索了很多但找不到可以完成这项工作的函数请帮忙请参阅下面我的代码我用它来复制徽标颜色以在运行时自动更改网站主题希望它有效只需将图像
SortedList 与 SortedDictionary 与 Sort()

这是类似问题的延续this one https stackoverflow com questions 935621 whats the difference between sortedlist and sorteddictionary
如何在react-chartjs-2中设置选项？

反应图表 2https github com gor181 react chartjs 2 https github com gor181 react chartjs 2 正在引用下面图表JShttp www chartjs org do
.plist 中的 Xcode4ExternalHosts

我是 Xcode 和 Mac 环境的新手我正在尝试设置 PhoneGap Cordova 应用程序并且我得到了 ERROR whitelist rejection 我进行了彻底的 Google 搜索一切都表明我需要编辑我的 plist
如何绑定到 angular2 中的 data-* 属性？ [复制]

这个问题在这里已经有答案了假设我有非常大的单元格网格我想添加数据行和数据列属性值并从模型绑定如何绑定来自 Angular2 Dart 中的 beta0 的数据行与 data row boundVal 的绑定似乎不起作用输出 htm
flutter pub run build_runner build 出错

当我运行 flutter pub run build runner build 时我遇到了这个问题我尝试过 flutter clean flutter pub cache Repair flutter pub get 等解决方案在 p
Pandas Dataframe：将列拆分为多列，右对齐不一致的单元格条目

我有一个 pandas 数据框其中有一列名为城市州国家我想将此列分成三个新列城市州和国家 0 HUN 1 ESP 2 GBR 3 ESP 4 FRA 5 ID USA 6 GA USA 7 Hoboken NJ USA 8
如何在 Android 中修复在偏移量 YYY 处解组未知类型代码 XXX？

由于解组异常我在恢复时遇到应用程序崩溃我已经检查了所有可序列化对象都具有不带参数的构造函数甚至使用 ObjectStream 检查了所有可序列化对象保存到文件并从文件加载我如何理解导致异常的可分割偏移量的实际类类型 Parcel
IDX10603：算法：“HS256”要求 SecurityKey.KeySize 大于“128”位。报告的密钥大小：“32”。参数名称：key.KeySize

我刚刚使用 Asp Net Core Web API 并实现身份验证我从 Angular 应用程序调用这个 API 但我总是收到如下错误 IDX10603 算法 HS256 要求 SecurityKey KeySize 大于 128 位
将基于记录的列表/对象展平为数据帧

编辑这个问题已经过时了这jsonlite https cran r project org web packages jsonlite index html包装自动压平我正在处理具有基于记录的编码通常采用 JSON 的在线数据流对

将基于记录的列表/对象展平为数据帧

将基于记录的列表/对象展平为数据帧 的相关文章

随机推荐

热门标签

将基于记录的列表/对象展平为数据帧的相关文章