R 快速 XML 解析

2024-01-12

当前在 R 中将 XML 文件转换为数据帧的最快方法是什么？

XML 如下所示：（注意 - 并非所有行都包含所有字段）

  <row>
    <ID>001</ID>
    <age>50</age>
    <field3>blah</field3>
    <field4 />
  </row>
  <row>
    <ID>001</ID>
    <age>50</age>
    <field4 />
  </row>

我尝试了两种方法：

The xml转数据帧 http://www.inside-r.org/packages/cran/XML/docs/xmlToDataFrameXML 库中的函数
发布面向速度的 xmlToDF 函数here http://hopstat.wordpress.com/2014/01/14/faster-xml-conversion-to-data-frames/

对于具有 1.6k“行”和 114“列”的 8.5 MB 文件，xmlToDataFrame 花费了 25.1 秒，而 xmlToDF 在我的计算机上花费了 16.7 秒。

与能够在 0.4 秒内完成这项工作的 python XML 解析器（例如 xml.etree.ElementTree）相比，这些时间相当长。

在 R 中是否有更快的方法来做到这一点，或者 R 中是否有一些基本的东西阻止我们更快地做到这一点？

关于这一点的一些说明将会非常有帮助！

已更新评论

d = xmlRoot(doc)
size = xmlSize(d)

names = NULL
for(i in 1:size){
    v = getChildrenStrings(d[[i]])
    names = unique(c(names, names(v)))
}

for(i in 1:size){
    v = getChildrenStrings(d[[i]])
    cat(paste(v[names], collapse=","), "\n", file="a.csv", append=TRUE)
}

对于 1000x100 xml 记录，此过程大约需要 0.4 秒。如果您知道变量名称，甚至可以省略第一个 for 循环。

注意：如果你的xml内容包含逗号、引号，你可能要特别注意它们。在这种情况下，我推荐下一个方法。

如果你想动态构建 data.frame ，你可以这样做data.table, data.table比上面的csv方法慢一点，但是比上面的方法快data.frame

m = data.table(matrix(NA,nc=length(names), nr=size))
setnames(m, names)
for (n in names) mode(m[[n]]) = "character"
for(i in 1:size){
    v = getChildrenStrings(d[[i]])
    m[i, names(v):= as.list(v), with=FALSE]
}
for (n in names) m[, n:= type.convert(m[[n]], as.is=TRUE), with=FALSE]

对于同一文档，大约需要 1.1 秒即可完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

r

R 快速 XML 解析的相关文章

将“dplyr::across”与具有多个参数的函数一起使用

我想知道是否有办法使用dplyr across一个需要多个参数的函数如果没有如何执行以下操作dplyr tidyverse library dplyr create a dataframe df lt structure list x1
在另一个布局中以编程方式膨胀布局

我的 Android 应用程序需要帮助我需要在另一个布局中膨胀一个布局但我不知道该怎么做我的xml代码是这样的 item xml 我需要膨胀多个 xml 取决于可变数量
PowerShell-V5 Invoke-Webrequest 添加 2 个标头授权标头和接受接受标头

我正在尝试创建一个脚本该脚本将使用 powershell 和 invoke webrequest 自动升级 NSX 以利用 NSX Manager 的 API 调用我已经完成了脚本但脚本的某些部分我需要检查并匹配响应中的某些数据事实
通过 R 连接到 Azure SQL

下面的代码允许我通过 R 连接到 Azure SQL 服务器但是我只能访问主数据库而不能访问我在下面创建的两个数据库表格显示为空白有什么想法吗谢谢 library RODBC library dplyr library DB
如何将第一行更改为R中的标题？

我有下表 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 X 13 17 Zip CuCurrent PaCurrent PoCurrent Contact Ext Fax email Status 18 74136
Databricks：如何从 R Dataframe 切换到 Pandas Dataframe（同一笔记本中的 R 到 python）

我正在 Databricks 笔记本中编写 R 代码该代码在 R 中执行多项操作清理数据帧后我想使用 python 在 python 单元中调用它因此使用 python 代码继续对数据帧进行操作因此我想在 python 块内将我
使用Shiny和Shinydashboard时如何使图标大小一致？

我在闪亮的应用程序中添加可点击的图标以显示弹出信息框请参阅以下屏幕截图和代码示例我的策略是将我的文本和代码包装起来actionLink in the HTML功能这效果很好然而图标的大小是由关联的大小决定的我想知道是否可以使所有
如何使用 XML 序列化更改 XML 根名称？

我试图在使用 C 进行 XML 序列化时更改根名称它始终采用类名称而不是我试图设置它的名称 using System using System Collections Generic using System Linq using Sy
Shiny中的DT：仅更改单行的颜色

我有一个数据集 ID Value 102 306 41 800 101 783 105 193 myID 334 我想将其绘制为数据表其中只有带有 myID 的行为橙色表的其余部分为蓝色看过之后辅助函数 https rstudio g
替换 gtable 中 ggplot 的元素：标签和网格线

我正在学习操纵ggplot对象与gtable 这是我问的一个相关问题用 grid 和 gtable 拆解 ggplot https stackoverflow com questions 27750737 dismantling a gg
对象 xml 反序列化问题？

我的对象具有父子关系每个子对象都有一个Parent指向其容器的属性当这个对象在应用程序中创建时它就被设置了因此没有问题此 Parent 属性标记有 XmlIgnore 属性因为它需要设置为其运行时父实例那么在对象反序列化后初
R strsplit：根据字符分割，除非后面有特定字符

假设我有一个字符串向量例如 split these c File Location C Documents File Location Pete s Computer File Location 我想根据分割该向量中的每个元素除非后面
从 R 中的因子记录创建变量

我有点迷失了我有一个如下所示的数据框 tract ageClass count 1 0 4 71 2 0 4 192 3 0 4 81 1 5 8 9 2 5 8 86 3 5 8 42 我想要这样的结果 tract 0 4 5 8 1
dplyr::case_when 与 if_else 对于需要两个条件的摘要列

df lt data frame id c 1 6 start date c Mar 22 Feb 22 Jan 22 Dec 21 Nov 21 Oct 21 Jan 22 c NA NA 1 0 0 1 Feb 22 c NA 1 1
如何使用 2 个不同的 y 轴进行绘图？

我想在 R 中叠加两个散点图以便每组点都有自己的不同的 y 轴即在图上的位置 2 和 4 中但这些点看起来叠加在同一个图上是否可以这样做plot Edit显示问题的示例代码 example code for SO question
如何将空字符串序列化为单个空标签？

我使用 Simple XML 框架序列化此类 Root public class HowToRenderEmptyTag Element required false private String nullString 我想得到
在浏览器中读取wsdl文件

当我尝试在浏览器中打开 WSDL 文件 http localhost something file wsdl 时我被提议下载该文件但我希望能够在浏览器中以 XML 字符串形式查看而不是下载谢谢如果您的服务器未发送 WSDL 文件
R 语言与 php 集成以获取 R 的结果

我有以下 R 脚本 assign data path data path lt C Users Owner Desktop R work assign valus to the following three percent train p
条件格式 DT 中的样式

我想根据 B 列中的值对 A 列中的行进行着色下面的代码基于小插图中的示例Link https rstudio github io DT 010 style html 但仅显示两列的条件 mobile number by mobile f
泛化 R %in% 运算符以匹配元组

前几天我花了一段时间寻找一种方法来检查行向量是否包含在 R 中的某些行向量集中基本上我想概括 in 运算符来匹配元组而不是向量中的每个条目例如我想要 row vec c A 3 row vec 1 A 3 data set rbin

随机推荐

简单的Java“新”概念问题

编译器显示错误new Stock 2 after expect public class TestStockUI Stock stock new Stock 2 stock 0 new Stock Microsoft MSFT 15 69
如何在 SQL Server 2008 上找到禁用的索引

不久前当我向 SQL Server 数据库中执行一些批量数据插入时我禁用了许多索引以提高插入性能我现在需要返回并重建重新启用它们不幸的是我不确定我禁用了哪些索引有没有办法可以查询以确定哪些索引被禁用并且应该重新启用 selec
CAS 与同步性能

我已经有这个问题很长一段时间了试图阅读大量资源并了解正在发生的事情但我仍然无法很好地理解为什么事情是这样的简而言之我正在尝试测试如何CAS将执行 vssynchronized在有竞争和没有竞争的环境中我已经把这个JMH test
“无法分析类：可能未加载或没有自动加载器？”

我用一个 viewhelper 创建了我的第一个扩展糟糕出现错误无法分析类 My Mlv ViewHelpers Format ReplacenewlinesViewHelper 可能未加载或没有自动加载器使用中有新闻 nam
ASP.Net 表单可以有 method=get 或 post 属性吗？

我是 ASP NET 新手我的问题是带有 runat server 的 ASP net 表单可以有一个方法属性吗例如
我的 IIS7 网站的元数据库密钥在哪里？

我正在尝试设置我的网站设置项目的自动每晚安装我可以在命令行上指定一些安装时值特别是添加一个TARGETSITE值定义我的新部署将前往的网站如何在 IIS7 安装中找到我的网站的元数据库密钥例如 LM W3SVC 2135484
测试 Windows Azure Web 应用程序的最大用户负载

我正在对新兴 Web 技术进行一些研究并创建了一个非常简单的 Azure 网站该网站使用 Web 套接字和 mongo db 作为数据库我已经设法让所有组件一起工作现在必须对应用程序执行负载测试主要标准是应用程序可以支持的最大用户
Babel 5 插件正在使用不受支持的 Babel 版本运行。尝试更新 babel-relay-plugin

Doing Lynda 构建和部署全栈 React 应用程序教程并卡在某个点上出现以下错误 src index js Error BABEL Users kukodajanos Workspace ticket src index js
QueryOver 上的 GroupBy SqlFunction

我有一个包含所有不同帐户名称前缀 a z 的列表我使用这些前缀获取的 var accounts this SessionManager GetActiveSession QueryOver
LinqToLucene 和 Lucene.Net.Linq 之间的区别

Are the LinqToLucene http linqtolucene codeplex com 和Lucene Net Linq https github com themotleyfool Lucene Net Linq项目不同
将表单设置为父级抛出异常“顶级控件无法添加到控件”

我想从另一个表单访问一个表单的变量单击主窗体内的按钮时我想将主窗体设置为父窗体然后调出另一个窗体子窗体我将在其中访问主窗体的变量我的点击处理程序如下 private void btnSystem Click object sen
以时间间隔链接 UIView 动画

我需要对 3 个 UIView 进行动画处理淡入淡出 1个动画持续时间为0 6秒淡入淡出周期为0 6 0 6秒但我需要在 0 2 秒内启动动画第一个动画应在 0 0 秒内启动第二个动画应在 0 2 秒内启动第三个动画应在 0
SwiftUI 列表背景的默认颜色是什么？

我知道如何更改 SwiftUI 视图列表的背景颜色但我找不到默认颜色我尝试过使用 MacOS 的数字色度计但它无法正确识别颜色正如您在此图中看到的我尝试设置列表行的背景颜色使用 listRowBackground根据数字色度计
kubernetes go 客户端补丁示例

经过一番搜索后我无法找到使用任何策略在 Patch 上执行的 golang Kube 客户端示例我正在寻找执行此操作的 golang 示例 kubectl patch pod valid pod type json p op repla
使用wp_insert_post()创建一个新页面

我在 PHP 函数中有以下代码当我安装允许您创建帖子或页面的插件时该函数会被激活工作完美并制作页面如果 post type是 post 但如果 post type是页面那么它不起作用不会创建页面 my post array p
Pandas 重置系列索引以删除多重索引

我有一个看起来像这样的系列 1999 03 31 SOLD PRICE NaN 1999 06 30 SOLD PRICE NaN 1999 09 30 SOLD PRICE NaN 1999 12 31 SOLD PRICE 3 00 2
JavaFX 选项卡式窗格，每个选项卡上都有一个表格视图？

我有一个选项卡式窗格每个选项卡上都有一个表格我向表中添加了不同的项目我只希望每个选项卡向我显示该表的相应项目但什么也没有出现当我调试时我可以清楚地看到选项卡窗格其中包含选项卡包含表视图包含正确的项目为什么这不起作用 Th
如何为 android ndk 安装 libiconv？

有人可以教我或给我指点如何为 Android 安装 libiconv 的教程吗我已经用谷歌搜索了三天但找不到教程或操作方法获取 libiconv 源代码并创建 Android mk makefile 看着这个网站 http grou
Drools 中类型不安全的对象字段访问

我正在使用一个系统其中插入 Drools 引擎的一些数据遵循以下严重过度简化格式 public class Item public String getValueType public Object getValue 这些值可能有几种
R 快速 XML 解析

当前在 R 中将 XML 文件转换为数据帧的最快方法是什么 XML 如下所示注意并非所有行都包含所有字段

R 快速 XML 解析

R 快速 XML 解析 的相关文章

随机推荐

热门标签

R 快速 XML 解析的相关文章