将数据加载到 R 的最佳文件类型（速度方面）？

2024-04-20

我正在运行一些分析，得到了很多 2-3G 之间的数据集。现在，我将其另存为.RData文件类型。然后，稍后我加载这些文件以继续工作，这需要一些时间来加载。我的问题是：保存然后加载这些文件为 .csv 会更快吗？是data.table读取 .csv 文件最快的包？我想我正在寻找 R 中的最佳工作流程。

根据评论和我自己的一些研究，我整理了一个基准。

library(bench)

nr_of_rows <- 1e7
set.seed(1)
df <- data.frame(
  Logical = sample(c(TRUE, FALSE, NA), prob = c(0.85, 0.1, 0.05), nr_of_rows, replace = TRUE),
  Integer = sample(1L:100L, nr_of_rows, replace = TRUE),
  Real = sample(sample(1:10000, 20) / 100, nr_of_rows, replace = TRUE),
  Factor = as.factor(sample(labels(UScitiesD), nr_of_rows, replace = TRUE))
)

baseRDS <- function() {
  saveRDS(df, "dataset.Rds")
  readRDS("dataset.Rds")
}

baseRDS_nocompress <- function() {
  saveRDS(df, "dataset.Rds", compress = FALSE)
  readRDS("dataset.Rds")
}

baseRData <- function() {
  save(list = "df", file = "dataset.Rdata")
  load("dataset.Rdata")
  df
}

data.table <- function() {
  data.table::fwrite(df, "dataset.csv")
  data.table::fread("dataset.csv")
}

feather <- function(variables) {
  feather::write_feather(df, "dataset.feather")
  as.data.frame(feather::read_feather("dataset.feather"))
}

fst <- function() {
  fst::write.fst(df, "dataset.fst")
  fst::read.fst("dataset.fst")
}

fst <- function() {
  fst::write.fst(df, "dataset.fst")
  fst::read.fst("dataset.fst")
}

# only works on Unix systems
# fastSave <- function() {
#   fastSave::save.pigz(df, file = "dataset.RData", n.cores = 4)
#   fastSave::load.pigz("dataset.RData")
# }

results <- mark(
  baseRDS(),
  baseRDS_nocompress(),
  baseRData(),
  data.table(),
  feather(),
  fst(),
  check = FALSE
)

Results

summary(results)
# A tibble: 6 x 13
  expression                min   median `itr/sec` mem_alloc
  <bch:expr>           <bch:tm> <bch:tm>     <dbl> <bch:byt>
1 baseRDS()              15.74s   15.74s    0.0635     191MB
2 baseRDS_nocompress() 720.82ms 720.82ms    1.39       191MB
3 baseRData()            18.14s   18.14s    0.0551     191MB
4 data.table()            4.43s    4.43s    0.226      297MB
5 feather()            794.13ms 794.13ms    1.26       191MB
6 fst()                233.96ms 304.28ms    3.29       229MB
# ... with 8 more variables: `gc/sec` <dbl>, n_itr <int>,
#   n_gc <dbl>, total_time <bch:tm>, result <list>,
#   memory <list>, time <list>, gc <list>

> summary(results,  relative = TRUE)
# A tibble: 6 x 13
  expression             min median `itr/sec` mem_alloc
  <bch:expr>           <dbl>  <dbl>     <dbl>     <dbl>
1 baseRDS()            67.3   51.7       1.15      1.00
2 baseRDS_nocompress()  3.08   2.37     25.2       1.00
3 baseRData()          77.5   59.6       1         1.00
4 data.table()         18.9   14.5       4.10      1.56
5 feather()             3.39   2.61     22.8       1   
6 fst()                 1      1        59.6       1.20
# ... with 8 more variables: `gc/sec` <dbl>, n_itr <int>,
#   n_gc <dbl>, total_time <bch:tm>, result <list>,
#   memory <list>, time <list>, gc <list>

在此基础上，fst包是最快的。接下来是第二位的基础 R 和选项compress = FALSE。但这会产生大文件。我不建议在 csv 中保存任何内容，除非您想用不同的程序打开它。在这种情况下data.table将是您的选择。否则我会推荐saveRDS or fst.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将数据加载到 R 的最佳文件类型（速度方面）？的相关文章

Mac OS X 10.13 上的 RStudio 在尝试使用 fix() 时出现 X11 不可用错误

我已经使用自制程序在我的计算机上安装了 XQuartz 然后重新启动了我的计算机当我尝试在 RStudio 中使用 fix 命令时出现以下错误 gt College read csv College csv header T na st
R testthat 单元测试数据和辅助函数约定

我正在编写一个 R 包并使用 testthat 进行单元测试我的许多单元测试都是为了测试适用于我的包特定对象的功能对于这些测试我创建了一个辅助函数来设置模拟对象我还有一些其他辅助函数来减少单元测试中的代码量目前这些辅助函数在我的
R 中 x 轴曲线的阴影面积

所以我有一个位于 x 轴下方和上方的图表并且想要对线和 0 之间的区域进行着色在这里我尝试使用多边形函数但它只给出曲线下的面积 plot year difference1 type l polygon year difference
用于不规则时间序列的滚动窗口函数，可以处理重复项

我有以下数据框 grp nr yr 1 A 1 0 2009 2 A 2 0 2009 3 A 1 5 2009 4 A 1 0 2010 5 B 3 0 2009 6 B 2 0 2010 7 B NA 2011 8 C 3 0 2014
获取行名以 ABC111 开头的所有行

我们有以下数据框 col1 col2 col3 ABC111001 12 12 13 ABC111002 3 4 5 ABC000111 7 6 1 ABC000112 9 23 1 如何获取行名以开头的所有行ABC111 如下 ABC1
rowSums 全部 NA [重复]

这个问题在这里已经有答案了 df lt data frame a c 1 1 NA 0 1 0 b c 0 1 NA NA 0 1 c c NA 0 NA 0 1 NA d c 1 NA NA 1 1 0 rowSums df 1 NA N
如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
替换向量中非 %in% 向量的值

简短的问题我可以像这样替换某些变量值 values lt c a b a b c a b df lt data frame values 将 df values 的所有值替换为 x 其中值是neither a 或 b 输出应该是 c a
为什么 data.table `:=` 的 knit 缓存失败？

这在精神上与this https stackoverflow com q 15267018 1900520问题但机制上一定不同如果您尝试缓存knitr包含一个块data table 分配然后它的行为就好像该块尚未运行并且后面的块看不到
如何使用 RODBC 将数据帧保存到数据库生成的主键表

我想使用 R 脚本将数据框输入到数据库中的现有表中并且希望数据库中的表具有顺序主键我的问题是 RODBC 似乎不允许主键约束这是创建我想要的表的 SQL CREATE TABLE dbo results ID INT IDENTITY
字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
为单个方法引用大 DLL

我想在 C 中使用大型类库 dll 中的单个方法是否有性能或其他方面的缺点我应该使用反射工具读取方法代码并将其复制粘贴到我的项目中吗更新硬盘空间不是问题我的应用程序是网络应用程序是否有性能或其他方面的缺点唯一真正重要的是可
如何管理和处理 R 包中的补充数据

我想在我的 R 包中添加补充数据我知道关于LazyData true in DESCRIPTION 但不想使用它因为示例数据相当大所以我创建了一个目录 data 其中包含两个 RData文件和一个datalist 我添加使用tools
根据另一个向量替换向量中的值

我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的以适应向量中不同数量的级别 x 例如考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
无重叠的抖动点

My data a lt sample 1 5 100 replace TRUE b lt sample 1 5 100 replace TRUE c lt sample 1 10 100 replace TRUE d lt sample
为什么我必须在每次 R 升级时手动创建目录“~/R/%p-library/%v”？

每次R升级后我必须重新安装我使用的软件包来自源代码因此必须为新版本重新编译它们这是一个正确的可以理解的行为所以我调用install packages http stat ethz ch R manual R devel libr
使用 purrr::map() 更改和分配新变量名称

我刚刚开始掌握编写函数并使用 lapply purrr map 使我的代码更加简洁但显然还没有完全理解它在我当前的示例中我想重命名 lm robust 对象的系数名称然后更改 lm robust 对象以合并新名称我目前这样做 li
计算 R 中数据帧的每一行中特定值的连续出现次数

我有一个data frame许多位置这么多行的变量的每月值我想计算值为零的连续月份即连续单元格的数量如果只是从左到右阅读这很容易但增加的复杂性是年底与年初是连续的例如在下面的缩短示例数据集中用季节而不是月份位置 1
ggplot堆叠条 - 隐藏标签但保留标签位置

我在 ggplot 中有一个堆积条形图其中 geom text 标签位于每个条形的中心我想隐藏小条上的标签以便图表看起来不会过于拥挤我可以使用下面的代码来完成此操作但它会弄乱标签的位置正如您在下面的链接图片中看到的那样它们不再
java - 简单计算在多线程中比在单线程中花费更长的时间

我试图了解如何利用多线程我写了一个简单的程序来增加i 比方说使用两种方式 400 000 次单线程方式 0 到 400 000 和多线程方式在我的例子中 4 次 0 到 100 000 线程数等于Runtime getRuntime

随机推荐

使用 GAS 发布的网络应用程序作为云端硬盘推送通知的处理程序

我怎样才能使用云端硬盘的推送通知 API https developers google com drive web push与 GAS Published 应用程序结合使用我已经设置了以下所有内容将通过 GET POST 接收到的任何
使用 py2neo 将 python 连接到 neo4j 时出错

我使用 py2neo 将以下 python 代码写入 neo4j from py2neo import Graph from py2neo import neo4j Node Relationship sgraph Graph alice
Gitlab 请求我创建一个合并请求，而不是直接推送到存储库

我已经设置了一个deploy staging然而每当我推入 GitLab 项目的存储库时它有一个 DeployHQ webhook 如果这有什么不同的话它会显示以下内容 remote remote To create a merge
如何在Python click模块生成的使用消息末尾添加多个空行？

我有一个有点类似于的问题这个问答 https stackoverflow com questions 42446923 python click help formatting newline 42489610 但是我想在由生成的输出末尾添
如何最轻松地在 JQuery Mobile (JQM) 嵌入/内部页面之间传递 URL 参数/数据？

如何在嵌入的 JQuery Mobile 页面之间传递访问 URL 参数或简单数据 IE 我有一个 HTML 页面 index html 其中有两个页面 page id 文章列表和文章详细信息我想将一个 ID 传递到文章列表页面
通过提交消息关闭工作项

有没有办法使用 VSTS 使用提交消息来关闭工作项我尝试过修复 123 关闭 123 或解决 123 但这仅将提交与工作项关联所以基本上我正在通过 github 中的提交消息来查看关闭问题 https help github com
从 UIViewController 切换到 UITabBarController

我试图在 UITabBarController 之前显示 UIViewController 2 秒我知道我必须从我的应用程序代理中获取它我尝试过首先将我的 self window rootviewcontroller 分配给我的 UIV
如何将一列中的字符串拆分为两列

我有一张这样的桌子 id value 1 ind kolkatta 2 ind pune 3 ind mumbai 4 pak lahore 5 pak karachi 6 uae sharjah 我想返回下表 id contry plac
iOS7自定义ViewController转场和顶部布局指南

我在我的应用程序中实现了自定义 UIViewController Transition 它取代了推送动画中内置的导航控制器到目前为止一切正常除了新推送的视图控制器中的 toplayoutguide 为 0 尽管新视图控制器继承了旧视图
OpenSSL连接错误SSL23_GET_SERVER_HELLO，但浏览器和curl可以工作

我正在处理一个问题由于 openssl 无法完成握手 python 无法通过 ssl 连接到特定服务器 Curl 和我的浏览器工作正常我尝试了几个不同的 openssl 版本解决方案 https stackoverflow com qu
如何删除在 TypeScript 中使用“this”的事件监听器？

在 JavaScript 中对于需要访问私有成员和函数的事件处理程序我可以依赖在我的事件处理程序函数中可访问的函数范围并执行如下操作 theElement addEventListener click onClick 然后 theEl
手动为 x => x.Child == itemToCompare.Child 构建 linq 表达式

我们有一个对象并且希望基于该对象动态构建 linq 查询此 linq 语句相当于我们想要构建的内容 Expression
在轨道上使用回形针宝石红宝石的视图中从不同视图访问图像

我是 Ruby on Rails 的新手正在学习它我想在另一个视图中访问由回形针 gem 存储的图像的表例如在我的应用程序中我有原因控制器我可以通过以下代码访问存储在表中的视图原因中的图像 image tag cause imag
TypeScript：如何建模 json 对象

我想输入一个变量该变量应该是能够使用 JSON stringify 序列化的对象我找到了这个定义 https github com Microsoft TypeScript issues 15225 issuecomment 29471
Javascript：如何将参数传递给回调函数[重复]

这个问题在这里已经有答案了我对如何正确地将参数传递给回调函数而不立即调用该函数感到困惑例如这将按预期工作 var callBack function window setTimeout callBack 1000 但这会意外调用cal
将 Fieldset Legend 与 bootstrap 结合使用

我正在使用 BootstrapJSP page 我想用 fieldset and legend 对于我的表格这是我的代码 fieldset class scheduler border legend class scheduler bor
如何使用 pyinstaller 制作 vpython.exe

我有一个使用 vpython 的简单脚本只是测试我想使用 pyinstaller 创建一个 exe 文件这是脚本 from visual import box 然后我在控制台中运行 pyinstaller sss py 但 exe 不
从命令提示符运行脚本时，PiCamera 无法初始化为类成员

在我的 Raspberry Pi 上我遇到了有关使用 PiCamera 模块的奇怪行为当从 IDLE F5 或从命令提示符 python test py 启动时以下代码可以顺利运行 import picamera if name ma
跨进程共享多处理同步原语

Python 3 4 Linux 我有一个主进程 P 它分叉 8 个进程 C1 到 C8 我想创建multiprocessing Barrier确保所有 8 个子进程在某个时刻保持同步如果我在父进程中定义同步原语那么一切都会正常工作这
将数据加载到 R 的最佳文件类型（速度方面）？

我正在运行一些分析得到了很多 2 3G 之间的数据集现在我将其另存为 RData文件类型然后稍后我加载这些文件以继续工作这需要一些时间来加载我的问题是保存然后加载这些文件为 csv 会更快吗是data table读取 cs

将数据加载到 R 的最佳文件类型（速度方面）？

Results

将数据加载到 R 的最佳文件类型（速度方面）？ 的相关文章

随机推荐

热门标签

将数据加载到 R 的最佳文件类型（速度方面）？的相关文章