提高将行追加到 data.table 的性能

2024-01-11

我正在解析一堆具有类似表格数据的 XML，并希望将它们连接到一个 data.table 中以便随后进行计算。我用XML用于解析的包，大约有 10,000 个 xml 文件需要解析，每个文件内有 15-150 行（具体数字我事先不知道）。我目前的做法是：

sol <- data.table()
for(i in seq_len(length(xml_list))) {
  i.xml <- xmlParse(xml_list[[i]]
  i.component <- as.data.table(xmlToDataFrame(..))
  sol <- rbindlist(list(i.component,sol),use.names=T,fill=T)
}
sol

对于我的数据，此过程大约需要一个小时。有人可以指出我一种可以大幅提高解析性能的方法吗？

我正在考虑的可能方法是：以某种方式为较大的 data.table 预分配内存并追加行，而不是在每个步骤中重新复制整个内容？或者也许有一个更快的 XML 解析器可供我使用？或者可能同时解析列表中的 XML，而不是按顺序解析（因为它们都很相似）。

你是递归的rbinding你的成长data.table每增加一个新的小部分（10,000+ 次调用）rbindlist！）。最好创建一长串 data.tables 然后调用rbindlist once:

ll <- lapply( xml_list , function(x) as.data.table( xmlParse( x ) ) )
dt <- rbindlist( ll )

我想在这种格式下，您的大部分处理时间将花在读取和解析 xml 文件上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

提高将行追加到 data.table 的性能的相关文章

如何在R中将英尺转换为厘米？

我得到了一个高度的字符向量如下所示 859 5 10 5 8 5 11 6 0 5 10 6 2 5 11 6 2 6 2 5 7 5 9 5 7 6 1 6 0 5 11 6 0 6 5 6 1 6 1 5 10 5 11 5 11 6
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
Angular-Datatables + Angular-xeditable：取消可编辑行

当组合 Angular DataTables 和 Angular XEditable 时添加新行时会取消可编辑行这是jsfiddle https jsfiddle net faj61h5d 10 示例操作如下 1 这是初始状态 2 将第
R中使用余弦距离的层次聚类

我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类但出现以下错误 if is na n n gt 65536L stop 大小不能为 NA 或超过 65536 需要 TRUE FALSE 时缺少值我应该怎么办为了重现它
XLConnect 无法确定 JAVA_HOME 错误

感谢您的帮助我正在尝试运行 XLconnect 但收到此错误消息 gt library XLConnect lib loc C Users 1144143929 Documents R win library 2 15 Error onL
R正则表达式获取第二个下划线之前的所有文本

s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中我想使用正则表达式来获取第二个下划线之前的子字符串如何使用一个正则表达式来完成此操作另一种方法是用分割然后粘贴前两个一些东西 paste sapp
在 R 的替换命令中取消引用字符串

我想知道是否可以unquote通过替换命令传递给表达式的字符串具体来说我使用 dplyr 从数据框中过滤和选择 gt w subject sex response 1 1 M 19 08 2 2 M 16 46 6 6 M 23 60
无法使用 android.support.v7.widget.AppCompatTextView 实例化以下类

最近我在 android studio 的应用程序中将我的 sdk 从 25 更改为 26 我在所有 xml 中都遇到了这个奇怪的错误目前该错误并没有以我能看到的任何方式影响我的应用程序但每次我必须编辑或更改 xml 中的某些内容时
按组复制数据框

我有以下数据框 df structure list Group c 1 1 1 1 2 2 2 2 2 2 3 3 3 index c 1 2 3 4 1 2 3 4 5 6 1 2 3 row names c NA 13L class c
来自大型数据帧的共现

我有一个数据框其中包含有关每个用户访问过哪些城市的信息 df visited lt data frame user c john john claire claire doe doe city c Antananarivo Barcelo
在zooreg时间序列中查找非唯一索引条目时遇到问题

我有几年的数据正在尝试将其转化为动物园对象 Dropbox 上的 csv https www dropbox com sh vg8w8pt16e0v3xs AABKtWqDkPu9JVKpwBXO36VOa dl 0 一旦数据被强制转换为动
R 3.5 - read.csv 无法读取 UTF-16 csv 文件

我的代码如下 read csv http asic gov au Reports YTD 2018 RR20180420 001 SSDailyYTD csv skip 1 fileEncoding UTF 16 sep t header
R中具有特定条件的多列变异

我有这个数据 M1 M2 M3 UCL 1 2 3 1 5 我想在这种情况下创建新列如果M1大于UCL MM1将为 UP 否则为 NULL 如果M2大于UCL MM2将为 UP 否则为 NULL 如果M3大于UCL MM3将为 UP 否则
Java：从元素创建 DOM 元素，而不是文档

如您所知在 Java 中创建 Dom 元素的正确方法是执行以下操作 import org w3c dom Document import org w3c dom Element Document d Element e e d creat
使用矢量相应地更改传单线条的颜色

无论如何是否可以根据某些变量的值更改传单线条的颜色我用谷歌搜索发现了这个link http hgoebl github io Leaflet MultiOptionsPolyline demo 然而我想知道是否有一种简单的方法可以在
在列标题和配对变量中嵌入数据的数据透视表

假设我有这样的数据不幸的是变量值嵌入在列名称中 library tidyr library dplyr dat lt tribble group var1 var meta1 var2 var meta2 group1 5 2 cat
如何使用 Facet R 添加线条[重复]

这个问题在这里已经有答案了所以我有一个多面图我希望能够向其中添加随每个面而变化的线这是代码 p lt ggplot mtcars aes x wt geom histogram bins 20 aes fill factor cyl
如何将 Shiny 中生成的反应图传递到 Rmarkdown 以生成动态报告

简而言之我希望能够通过单击按钮从我的闪亮应用程序生成动态 Rmarkdown 报告文件 pdf 或 html 为此我想我将使用 Shiny 的参数化报告但不知何故我无法将单个谜题转移到所需的目标使用此代码我们可以在 R Shin
按名称包含在单个对象中的多个列对 data.frame 进行排序？

我想排序一个data frame由多列组成理想情况下使用基础 R 无需任何外部包尽管如果有必要就这样吧读过如何按列对数据框进行排序 https stackoverflow com questions 1296646 how to s
使用 powershell 编辑 XML

好吧我感觉自己像个大白痴为了工作中的管理目的我使用 Powershell 已经有一段时间了也就是说编写脚本不是我的强项现在我正在尝试编写一个 PS 脚本将一个部分添加到一堆机器上的 XML 中以添加设置来解决我们在某个应用

随机推荐

PhoneGap：Camera API getPicture 对话框放大

在Android 4 4中使用Camera API getPicture API将导致对话框放大代码如下 var sourceType pictureSource SAVEDPHOTOALBUM navigator camera get
PHPUnit TDD，PHP 致命错误：调用未定义的方法

我正在使用 PHPUnit 启动一个 TDD 项目但有些事情确实让我烦恼似乎只要所有的类和方法都没有实现所有的测试就无法运行如果类或方法尚未实现我该如何使测试继续事件 Thanks 编辑 TDD 的重点不就是你的测试套件在编写测试
Django 按计数排序

我有这些模型 class Project models Model title models CharField max length 80 date created models DateTimeField auto now add Tr
如何在GDB中打印Fortran数组？

在 C C 中我通常将指针打印为数组name dimension Fortran 的等价物是什么 Fortran 90 使用描述符来表示其数组的维度形状并传递假定形状的数组参数 Fortran 中的指针也很特殊它们只能指向合格的目标
在 jBoss 6.2 与 jBoss 7.3 中部署应用程序时的不同响应

我们最近将 jBoss EAP 从 6 2 升级到 7 3 0 升级后我们观察到该应用程序开始表现异常我们使用的是 spring 框架版本 4 1 9 RELEASE 例如 RestController public class Com
相当于本机 javascript 中的 $(this)

我想向按钮添加事件侦听器并且我对纯 javascript 编码还比较陌生所以我不知道本机等效项是什么 this 在我的代码中 the markup ul class menu li a href text a li li a href
为什么2010 Cassini 提供静态文件时性能很慢？

在 2010 年以调试模式运行站点时当 cassini 提供静态文件时我的性能变得令人难以置信的缓慢根据 Firebug 的说法每个请求大约需要 1 秒才能解析 20 个 2kb 图像我没有更改任何设置只是完成了直接安装然后转
如何在 Android Studio 1.2 中将可绘制文件夹中的图像添加到 ImageView 中？

自从 Google 为启动器图标添加了 mipmap 文件夹以来我在使用drawables 文件夹时遇到了问题我在可绘制文件夹中手动添加了 hdpi 文件夹但是当我尝试添加 src 路径时图像不允许我查看和选择它们如何在 Andr
将输入框焦点放在负载上

如何在页面加载时光标聚焦在特定输入框上是否也可以保留初始文本值并将光标放在输入末尾
在自己的内容提供商中插入数据时出错？

在这里我制作了自己的主屏幕启动器当我在屏幕上长按时我会得到一个包含选择选项如小部件和快捷方式等的对话框因此当我选择小部件时我会得到另一个对话框如内置应用程序小部件当我选择任何要加载的小部件时我遇到了问题我参考Andr
即使在 DataGridRow.Item 不是 CollectionView.NewItemPlaceholder 之后，WPF DataGridRow.IsNewItem 仍保持 True

跟踪后DataGridRow Item and DataGridRow IsNewItem属性我发现每个添加的项目当源为 DataGrid 时ObservableCollection
Tidyr 如何传播到出现次数[重复]

这个问题在这里已经有答案了有一个像这样的数据框 other data frame name c a b a c d result c Y N Y Y N 如何在 tidyr 或其他函数中使用扩展函数来获取结果 Y 或 N 的计数作为列标题
如何从字符串列表中生成逗号分隔的字符串？

从序列中连接字符串的首选方法是什么以便在每两个连续对之间添加一个逗号也就是说你如何映射例如 a b c to a b c 案例 s and 应该映射到 s and 分别我通常最终会使用类似的东西 join map lambda x
带有正则表达式的 jQuery 选择器

我正在扫描一个页面并查找具有包含该单词的类或 id 的任何 html 元素price 我的想法是在这里使用正则表达式但我无法让它正确触发我在 OS X 上使用 Safari 和 Chrome var price div regex bp
我们是否有理由使用 Directory.GetFiles() 而不是 Directory.EnumerateFiles()？

我不知道为什么我们会使用Directory GetFiles for if Directory EnumerateFiles将能够做同样的事情甚至在返回找到的整个目录列表之前您也可以枚举该列表 Directory EnumerateFil
我可以使用 Spark 数据帧创建序列文件吗？

我有一个要求我需要创建一个序列文件现在我们已经在 hadoop api 之上编写了自定义 api 但是由于我们正在使用 Spark 我们必须使用 Spark 来实现相同的目的这可以使用 Spark 数据帧来实现吗 AFAIK 中没有直
Android 手机上无法选择 PKI

我尝试使用 PKI 登录我使用这个教程 http release manager com rest images 12702 http release manager com rest images 12702 在 Firefox 上这效
Laravel中如何从多维数组中获取特定字段值

我有一个变量 cart 存储产品的详细信息我想从购物车中获取特定字段 dd cart 显示以下结果 Cart 437 items array 1 airports 334 64 gt array 4 qty gt 1 price gt 1
从 Scala 中的 JsValue 中删除键

这可能是一个非常简单的问题但我很难找到一个干净有效的解决方案我只想从我拥有的 json 对象中删除一个字段假设我有 val body Option JsValue request body asJson 身体看起来像 url www
提高将行追加到 data.table 的性能

我正在解析一堆具有类似表格数据的 XML 并希望将它们连接到一个 data table 中以便随后进行计算我用XML用于解析的包大约有 10 000 个 xml 文件需要解析每个文件内有 15 150 行具体数字我事先不知道我目前

提高将行追加到 data.table 的性能

提高将行追加到 data.table 的性能 的相关文章

随机推荐

热门标签

提高将行追加到 data.table 的性能的相关文章