减少重塑的计算时间

2024-04-10

我有以下数据集，我想将其从宽格式重塑为长格式：

Name     Code  CURRENCY   01/01/1980   02/01/1980   03/01/1980   04/01/1980
Abengoa  4256  USD        1.53         1.54         1.51         1.52      
Adidas   6783  USD        0.23         0.54         0.61         0.62

该数据包含从 1980 年到 2013 年每天不同公司的股票价格。因此，我的宽数据中有 8,612 列（大约 3,000 行）。现在，我使用以下命令将数据重塑为长格式：

library(reshape)
data <- read.csv("data.csv")
data1 <- melt(data,id=c("Name","Code", "CURRENCY"),variable_name="Date")

但是，对于大约 50MB 大的 .csv 文件，已经需要大约两个小时。计算时间不应该由弱硬件驱动，因为我在具有 16GB RAM 的 2.7 GHz Intel Core i7 上运行它。还有其他更有效的方法来做到这一点吗？

非常感谢！

基准摘要：

Using Stack（正如@AnandaMahto所建议的）绝对是
较小数据集 (N 随着数据集变大，data.table开始跑赢大盘stack

这是使用 data.table 的选项

dtt <- data.table(data)

# non value columns, ie, the columns to keep post reshape
nvc <- c("Name","Code", "CURRENCY")

# name of columns being transformed 
dateCols <- setdiff(names(data), nvc)

# use rbind list to combine subsets
dtt2 <- rbindlist(lapply(dateCols, function(d) {
    dtt[, Date := d]
    cols <- c(nvc, "Date", d)
    setnames(dtt[, cols, with=FALSE], cols, c(nvc, "Date", "value"))
}))

## Results: 

dtt2
#       Name Code CURRENCY         Date value
# 1: Abengoa 4256      USD X_01_01_1980  1.53
# 2:  Adidas 6783      USD X_01_01_1980  0.23
# 3: Abengoa 4256      USD X_02_01_1980  1.54
# 4:  Adidas 6783      USD X_02_01_1980  0.54
# 5: ... <cropped>

使用更大的样本数据更新了基准

根据 @AnandaMahto 的建议，以下是使用大量（更大）样本数据的基准。请随意改进下面使用的任何方法和/或添加新方法。

基准测试

 Resh <- quote(reshape::melt(data,id=c("Name","Code", "CURRENCY"),variable_name="Date"))
 Resh2 <- quote(reshape2::melt(data,id=c("Name","Code", "CURRENCY"),variable_name="Date"))
 DT <- quote({    nvc <- c("Name","Code", "CURRENCY"); dateCols <- setdiff(names(data), nvc); rbindlist(lapply(dateCols, function(d) { dtt[, Date := d]; cols <- c(nvc, "Date", d); setnames(dtt[, cols, with=FALSE], cols, c(nvc, "Date", "value"))}))})
 Stack <- quote(data.frame(data[1:3], stack(data[-c(1, 2, 3)])))


 # SAMPLE SIZE: ROWS = 900; COLS = 380 + 3; 
 dtt <- data.table(data);  
 benchmark(Resh=eval(Resh),Resh2=eval(Resh2),DT=eval(DT), Stack=eval(Stack), replications=5, columns=c("relative", "test", "elapsed", "user.self", "sys.self", "replications"), order="relative")
 # relative  test elapsed user.self sys.self replications
 #    1.000 Stack   0.813     0.623    0.192            5
 #    2.530    DT   2.057     2.035    0.026            5
 #   40.470  Resh  32.902    18.410   14.602            5
 #   40.578 Resh2  32.990    18.419   14.728            5

 # SAMPLE SIZE: ROWS = 3,500; COLS = 380 + 3; 
 dtt <- data.table(data);  
 benchmark(DT=eval(DT), Stack=eval(Stack), replications=5, columns=c("relative", "test", "elapsed", "user.self", "sys.self", "replications"), order="relative")
 #  relative  test elapsed user.self sys.self replications
 #      1.00    DT   2.407     2.336    0.076            5
 #      1.08 Stack   2.600     1.626    0.983            5

 # SAMPLE SIZE: ROWS = 27,000; COLS = 380 + 3; 
 dtt <- data.table(data);  
 benchmark(DT=eval(DT), Stack=eval(Stack), replications=5, columns=c("relative", "test", "elapsed", "user.self", "sys.self", "replications"), order="relative")
 # relative  test elapsed user.self sys.self replications
 #    1.000    DT  10.450     7.418    3.058            5
 #    2.232 Stack  23.329    14.180    9.266            5

样本数据创建

  # rm(list=ls(all=TRUE))
  set.seed(1)
  LLLL <- apply(expand.grid(LETTERS, LETTERS[10:15], LETTERS[1:20], LETTERS[1:5], stringsAsFactors=FALSE), 1, paste0, collapse="")

  size <- 900
  dateSamples <- 380
  startDate <- as.Date("1980-01-01")

  Name <- apply(matrix(LLLL[1:(2*size)], ncol=2), 1, paste0, collapse="")
  Code <- sample(1e3:max(1e4-1, size+1e3), length(Name))
  CURRENCY <- sample(c("USD", "EUR", "YEN"), length(Name), TRUE)

  Dates <- seq(startDate, length.out=dateSamples, by="mon")
  Values <- sample(c(1:1e2, 1:5e2), size=size*dateSamples, TRUE) / 1e2

  # Calling the sample dataframe `data` to keep consistency, but I dont like this practice
  data <- data.frame(Name, Code, CURRENCY,       
                     matrix(Values, ncol=length(Dates), dimnames=list(c(), as.character(Dates)))
                    ) 

  data[1:6, 1:8]
  #        Name Code CURRENCY X1980.01.01 X1980.02.01 X1980.03.01 X1980.04.01 X1980.05.01
  # 1  AJAAQNFA 3389      YEN        0.37        0.33        3.58        4.33        1.06
  # 2  BJAARNFA 4348      YEN        1.14        2.69        2.57        0.27        3.02
  # 3  CJAASNFA 6154      USD        2.47        3.72        3.32        0.36        4.85
  # 4  DJAATNFA 9171      USD        2.22        2.48        0.71        0.79        2.85
  # 5  EJAAUNFA 2814      USD        2.63        2.17        1.66        0.55        3.12
  # 6  FJAAVNFA 9081      USD        1.92        1.47        3.51        3.23        3.68

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

r

reshape

减少重塑的计算时间的相关文章

我有*很多*源文件要添加到 git 存储库，如何使其快速

我在看here https git scm com docs git fast import寻找更快地将批量文件导入 git 存储库的灵感但不确定是不是这样基本上情况是我有超过 1 亿个文件想要提交到 git 存储库我已将它们分解为
读取多个 CSV 文件，并在文件开头跳过不同行数

我必须阅读大约 300 个单独的 CSV 我已经成功使用循环和结构化 CSV 名称来自动化该过程然而每个 CSV 在开头都有 14 17 行垃圾并且随机变化因此在 read table 命令中硬编码 skip 参数将不起作用每个
Oracle Many OR 与 IN () 的 SQL 性能调优 [重复]

这个问题在这里已经有答案了我手头没有解释计划您能帮忙判断以下哪一个更有效吗选项1 select from VIEW ABC where STRING COL AA OR STRING COL BB OR STRING COL BB
使用开源闪亮服务器时，我的图标不会显示在我的应用程序的浏览器选项卡上

我一直在尝试找到一种方法将 ico 与托管在开源闪亮服务器上的闪亮应用程序的快捷方式关联起来最终我希望 ico 显示为我的应用程序快捷方式的图形而且我希望用户在创建应用程序的快捷方式时显示可用此图标听起来很简单但事实证明这是一
如何使用 R 或 PowerShell 从文本文件中提取数据？

我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
使用 sapply 的列表和矩阵

我有一个也许是基本的问题我在网上搜索过我在读取文件时遇到问题尽管如此我还是按照 Konrad的建议设法读取了我的文件我很欣赏这一点 How to get R to read in files from multiple subdi
未使用的功能会产生什么后果

我想知道在代码中使用未使用的函数会产生什么如果有什么后果如果您查找并删除所有未使用的函数和变量性能是否会有明显的改进或者删除未使用的函数和变量只是一个好习惯未使用的功能不会损害性能他们让维护代码的人的工作变得更加困难现代 ID
我应该增强客户端上的 Jquery Mobile 元素还是发送带有 data-enhance="false" 的增强标记？

我有一个产品搜索我正在发送回结果每个结果都包含两个按钮 JQM 控制组我一次发送 24 条记录因此需要增强 24 个控制组如下所示 div class submitButton linkBox div
指定生存图的自定义时间点

我正在努力使用以下方法创建生存累积事件图ggsurvplot函数从survminer包裹我想为我的绘图指定自定义时间点但我不知道该怎么做这xlim and break x by参数有点帮助但它们创建了均匀间隔的时间点和比我想要的更
如何在 R 中绘制预测的子集？

我有一个简单的 R 脚本来根据文件创建预测自 2014 年以来就有数据记录但我在尝试实现以下两个目标时遇到了困难仅绘制预测信息的子集从 11 2017 开始以特定格式包含月份和年份即 6 月 17 日这是链接到dataset
Mac OS X 10.13 上的 RStudio 在尝试使用 fix() 时出现 X11 不可用错误

我已经使用自制程序在我的计算机上安装了 XQuartz 然后重新启动了我的计算机当我尝试在 RStudio 中使用 fix 命令时出现以下错误 gt College read csv College csv header T na st
如何在environment.yml中安装CRAN包

我正在使用 miniconda 来管理数据科学包的安装这是我现在已经建立的工作流程所以我希望它也能在这种情况下工作我也认为它可以工作因为它应该在这样的情况下有所帮助比纯 python 需要更多的依赖项我想安装pythonCDT工
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
如何在主图区域之外的 ggplot2 中添加多个标题

我想为页脚添加两个标题但 ggplot 似乎只需要 1 是否有解决方法可以将注释或 geom text 添加到左下角和右下角 library ggplot2 p lt ggplot mtcars aes x wt y mpg geom p
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
替换向量中非 %in% 向量的值

简短的问题我可以像这样替换某些变量值 values lt c a b a b c a b df lt data frame values 将 df values 的所有值替换为 x 其中值是neither a 或 b 输出应该是 c a
用于带有嵌套子图的图的 r 包？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个用于图形网络的 r 包它可以处理嵌套子图 Graphviz 做到了这一点但只提供可
如何在R中绘制仪表图表？

如何在 R 中绘制以下图 Red 30 Yellow 40 Green 30 Needle at 52 所以这里有一个完整的ggplot解决方案注意从原始帖子中编辑在仪表中断处添加数字指示器和标签这似乎是OP在评论中所要求的如果不

随机推荐

ASP.NET MVC - HTTP 身份验证提示

是否可以让我的应用程序在渲染视图之前要求输入用户名和密码提示就像在 twitter API 上获取有关您帐户的信息一样 http twitter com account verify credentials xml http twitte
如何使用 ComboBox 作为 Kendo UI 网格列？

我正在使用剑道网格并尝试将名称字段设置为具有自己的数据源的组合框我没有收到 javascript 错误但是当我去编辑网格中的名称字段时它没有显示组合框它仍然显示一个输入字段 function console log ready v
在无状态组件中反应内容可编辑

我正在尝试在无状态反应组件中实现一个 contenteditable div 我不断收到以下警告 warning js 36 Warning A component is contentEditable and contains child
Django - 将日期设置为日期输入值

我正在尝试将日期设置为表单中输入的日期值但是正如您可能已经猜到的那样它不起作用这是我的模板中的内容 div class form group div
如何定义预处理器宏来检查iOS版本

我用它来检查iOS版本但它不起作用 ifndef kCFCoreFoundationVersionNumber iPhoneOS 5 0 define kCFCoreFoundationVersionNumber iPhoneOS 5 0
删除c#中列表中所有字符串中的特定字符

我在列表中有一些字符串它们是 KHIJEFGACDB KHIJEFGBACD KHIJEFGBCDA KHIJEFGCDAB KHIJEFGCDBA KHIJGABCDEF KHIJGABEFCD KHIJGACDBEF KHIJGACD
让 PostgreSQL 选择下一个最小可用 id

我想让 PostgreSQL 选择第一个下一个可用 id这样在以下情况下就不会出现错误 CREATE TABLE test id serial PRIMARY KEY name varchar Then INSERT INTO test V
出现错误：在部署/迁移到 Heroku 时更新 rubygems

迁移到 Heroku 时出现以下错误 Installing hoe 2 9 4 usr ruby1 9 2 lib ruby 1 9 1 rubygems installer rb 170 in gt install hoe 需要 Ruby
获取 Spark 数据帧列中最大值的最佳方法

我正在尝试找出在 Spark 数据帧列中获取最大值的最佳方法考虑以下示例 df spark createDataFrame 1 4 2 5 3 6 A B df show 这会创建 A B 1 0 4 0 2 0 5 0 3 0 6 0
Java反射访问超类中带有default修饰符的方法

是否可以通过Java反射调用超类中的no修饰符方法 Method method getClass getSuperclass getDeclaredMethod doSomething method invoke this 如果您有更大的层
运行“source .vimrc”时出错

当我在 ubuntu 中运行 source vimrc 时我有一个简单的 vimrc 文件但出现以下错误 source vimrc bash vimrc line 3 syntax error near unexpected token
如何在Android中创建类似路径应用程序的动画

如何在 Android 中创建类似路径应用程序的动画有没有相同的演示或教程像这样的动画网址 http www youtube com watch v WODUdDT2m s http www youtube com watch v WO
QTreeView 中某些索引的自定义文本颜色

我想使用自定义颜色取决于与每行相关的数据在 QTreeView 小部件的一列中绘制文本我尝试重载 drawRow 受保护方法并更改样式选项参数如下所示一个精简示例 virtual void drawRow QPainter p p
在 Django 中对数据进行非规范化的最佳方法？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
红宝石块并从块返回一些东西

我正在使用红宝石 1 8 7 p lambda return 10 def lab block puts before puts block call puts after end lab p 上面的代码输出是 before 10 afte
在 Keras 中使用 Subtract 层

我正在 Keras 中实现所描述的 LSTM 架构here http nlp cs rpi edu paper multilingualmultitask pdf 我认为我已经非常接近了尽管我在共享层和特定语言层的组合方面仍然存在问题这
mysql_fetch_assoc()：提供的参数不是 php 中有效的 MySQL 结果资源[重复]

这个问题在这里已经有答案了可能的重复警告 mysql fetch array 提供的参数不是有效的 MySQL 结果 https stackoverflow com questions 795746 warning mysql fetc
将 PHP 参数传递到 NetBeans 到具有 symfony url 路由功能的页面

我正在做以 url 路由为特色的 Jobeet 教程 url 路由我认为这是正确的术语使 url 看起来像这样 http localhost 8080 frontend dev php job extreme sensio paris
如何有效检查连续数字列表是否缺少任何元素

我有这个数组 var arr s00 s01 s02 s03 s04 s05 s07 s08 s09 s10 s11 s12 s13 s14 s17 s19 s20 s21 s22 s24 s25 s26 s27 s28 s30 s32 s
减少重塑的计算时间

我有以下数据集我想将其从宽格式重塑为长格式 Name Code CURRENCY 01 01 1980 02 01 1980 03 01 1980 04 01 1980 Abengoa 4256 USD 1 53 1 54 1 51 1