挑战：重新编码 data.frame() — 使其更快

2024-04-15

重新编码是调查数据的常见做法，但最明显的路线花费的时间比应有的时间要多。

使用提供的示例数据完成相同任务的最快代码system.time()在我的机器上获胜。

## Sample data
dat <- cbind(rep(1:5,50000),rep(5:1,50000),rep(c(1,2,4,5,3),50000))
dat <- cbind(dat,dat,dat,dat,dat,dat,dat,dat,dat,dat,dat,dat)
dat <- as.data.frame(dat)
re.codes <- c("This","That","And","The","Other")

要优化的代码。

for(x in 1:ncol(dat)) { 
    dat[,x] <- factor(dat[,x], labels=re.codes)
    }

Current system.time():

   user  system elapsed 
   4.40    0.10    4.49

Hint: dat <- lapply(1:ncol(dat), function(x) dat[,x] <- factor(dat[,x],labels=rc)))并没有更快。

组合@DWin 的回答 https://stackoverflow.com/questions/6147119/challenge-recoding-a-data-frame-make-it-faster/6147950#6147950，以及我的回答最有效的列表到 data.frame 方法？ https://stackoverflow.com/q/5942760/271616:

system.time({
  dat3 <- list()
  # define attributes once outside of loop
  attrib <- list(class="factor", levels=re.codes)
  for (i in names(dat)) {              # loop over each column in 'dat'
    dat3[[i]] <- as.integer(dat[[i]])  # convert column to integer
    attributes(dat3[[i]]) <- attrib    # assign factor attributes
  }
  # convert 'dat3' into a data.frame. We can do it like this because:
  # 1) we know 'dat' and 'dat3' have the same number of rows and columns
  # 2) we want 'dat3' to have the same colnames as 'dat'
  # 3) we don't care if 'dat3' has different rownames than 'dat'
  attributes(dat3) <- list(row.names=c(NA_integer_,nrow(dat)),
    class="data.frame", names=names(dat))
})
identical(dat2, dat3)  # 'dat2' is from @Dwin's answer

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

挑战：重新编码 data.frame() — 使其更快的相关文章

如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
linux下无法安装Cairo包

我在本地下载该软件包并尝试安装它但出现此错误 R CMD INSTALL l usr local lib64 R library Cairo 1 5 1 tar gz 我得到他的错误 checking for PNG support in
使用 SP 包中的 SpatialPoints() 转换坐标参考系 (CRS) 以创建空间数据框

Issue 我有一个形状文件我已将其导入到 R 中并为正在进行的分析选择了感兴趣的变量我的最终目标是插值点数据海豚 ID 获取海面温度 SST 堆栈中每个单独的光栅文件的值70 栅格来自名为 ncin SST 的对象该对象是使用函数
在R闪亮中，如何在UI端使用在SERVER端计算的值？

在我的 R闪亮应用程序中我想调整我的高度d3heatmap 见包装d3热图 https cran r project org web packages d3heatmap index html 作为我的数据框行数的函数有一个论点heig
R：计算自上次出现某个值以来的累积总和和计数

给定简化数据 set seed 13 user id rep 1 2 each 10 order id sample 1 20 replace FALSE cost round runif 20 1 5 75 1 category samp
枚举所有可能的二元组星座

我正在寻找一种方法来枚举 n 个成员的所有可能的两人组星座例如对于 n 4 个成员以下 3 个独特的组星座是可能的请注意组内成员的顺序和组顺序都不重要 1 2 3 4 1 3 2 4 1 4 2 3 例如对于 n 6 个成员可
使用 fread 导入数据后所有列均作为字符

我导入了一个 CSV 文件包含文本列和数字列 x lt fread myfile csv header TRUE verbose T na strings c null null 但导入后当我运行summary x 时所有列都被视为字
R Shiny UI 子选项复选框？

我有一个基本的 RShiny 应用程序它有一个反应式复选框它根据复选框中选择的数据 df 列绘制时间序列数据我当前的代码生成一个带有复选框输入的 UI 如下所示 Load R packages library shiny libra
如何使用 R 或 PowerShell 从文本文件中提取数据？

我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
准备编程竞赛的缩写和函数[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
为什么 as.character() 返回日期列表中的整数？

我惊讶地发现 R 中出现以下行为 as character c Sys Date gt 1 2018 02 05 as character list Sys Date gt 1 17567 为什么会出现这种情况也就是说显然 17567
使用 ape 包在 R 中进行标签和色叶树状图（系统发育）

继上一篇文章之后 r 中的标签和彩色叶树状图 https stackoverflow com questions 18802519 label and color leaf dendrogram in r 我有一个后续问题我的问题与提到的
R CMD 检查警告：在文档对象中使用的函数/方法...但不在代码中

我正在写一个包但一个持久的R CMD check警告阻止我完成包裹并将其发布到 CRAN 我用roxygen2对于内联文档尽管这可能不是错误的根本原因如果您知道如何删除此警告我很可能可以找到一种方法来使用roxygen2 如何删除警
如何在environment.yml中安装CRAN包

我正在使用 miniconda 来管理数据科学包的安装这是我现在已经建立的工作流程所以我希望它也能在这种情况下工作我也认为它可以工作因为它应该在这样的情况下有所帮助比纯 python 需要更多的依赖项我想安装pythonCDT工
双向条形图，两侧带有正标签ggplot2

我尝试在 ggplot 中创建一个双向条形图其中轴上方和下方的轴标签和数据标签均为正值例如如果您的数据是 myData lt data frame category c yes yes no no month c Jan Feb Ja
在闪亮的应用程序中使用传单地图作为过滤器

是否可以使用传单地图来过滤闪亮应用程序中的数据就像在 Tableau 或 Power BI 中一样方法是单击地图上的某个状态然后根据条件过滤另一个图表或表格选择 None
如何在主图区域之外的 ggplot2 中添加多个标题

我想为页脚添加两个标题但 ggplot 似乎只需要 1 是否有解决方法可以将注释或 geom text 添加到左下角和右下角 library ggplot2 p lt ggplot mtcars aes x wt y mpg geom p
Pandas：数据帧累积和，如果其他列为假则重置[重复]

这个问题在这里已经有答案了我有一个包含 2 列的数据框这里的目标很简单如果行列设置为 False 则重置 df cumsum df value condition 0 1 1 1 2 1 2 3 1 3 4 0 4 5 1 想要的结果

随机推荐

将部分 Activity/Fragment 保存为图像

我试图保存我的活动的一部分没有工具栏和状态栏我现在拥有的代码可以保存整个屏幕请参考下图我现在拥有的代码 llIDCardRootView LinearLayout view findViewById R id ll id card
Laravel psr-4 不自动加载

我有一个在本地运行良好的 Laravel 项目 Mavericks 但 psr 4 下的类未加载到我们的阶段服务器 CentOS 上每次尝试作曲家更新或运行 artisan 命令时我都会收到反射未找到类错误我所有的应用程序特定类都
无法将 IBOutlet 连接到 Storyboard

我最近开始使用故事板为我的 iPad 应用程序创建 iPhone 界面我已将项目更改为 Universal 而不是 iPad 并在项目摘要屏幕中将所需的故事板分配给其设备但是当我尝试使用 control drag 将任何元素连接到一段代
如何以编程方式激活“在高 dpi 设置上禁用显示缩放”[重复]

这个问题在这里已经有答案了我正在 Visual Studio 2010 上使用 C 开发 Windows 窗体应用程序我发现如果我使用高 dpi 显示设置该应用程序会缩放但是如果我通过 Windows 资源管理器上的鼠标右键单击菜
在 Visual Studio 2017 中出现未处理的异常后启用编辑

在 Visual Studio 2017 中出现未处理的异常后如何继续执行在 2015 及以下版本中可以通过单击轻松完成此操作Enable Editing它将调用堆栈展开到异常之前的点然后就可以编辑执行点变量和代码当库抛出异常时
如何使用“here-doc”将行打印到文件？

基本上这是我在过去半小时内编程和使用 Google 的结果试图实现一个简单的事情从以下位置获取用户输入 STDIN并将它们写入结构化 XML 文件作为输出下面是我丑陋的代码 bin perl print img URL img lt
Akka 流如何不断实现？

我在用阿卡流 http doc akka io docs akka stream and http experimental 1 0 scala stream index html在 Scala 中进行轮询AWS SQS https aws
在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

我正在标准 databricks 集群上运行 PySpark 数据管道代码我需要保存所有 Python PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中当我在本地运行 Python 代码时我可以在终端
如何重新分发使用 Crystal Reports 的 VB 6 应用程序？

假设目标系统有 Crystal Reports for Visual Studio 2008 我如何将可执行的 VB 6 应用程序与报告文件一起分发仅移动可执行文件和报告文件是行不通的我想知道如何创建可再发行包我们使用CR10 我的建
优化子查询选择每组最后一条记录

我有这个查询它是一个依赖查询并且需要很多执行时间 SELECT u id u user name ifnull select longitude from map where user id u id order by map id de
Django QuerySet 不返回任何内容

我有一个国家地区列表例如它们都有自己的网址 www example com al 每个国家地区都有一个城市列表但 object list 为空 My View class CityOverview generic ListView
如何使嵌入式视图控制器成为响应者链的一部分？

我正在使用情节提要开发 Mac 应用程序我有一个窗口显示NSViewController作为其内容其中包含一个容器视图控制器其中嵌入了NSSplitViewController 预期的行为是NSSplitViewController
无法使用 sqldf 对 R 中的函数使用rank()

arm lt as data frame matrix c 1 1 1 2 2 6 7 4 9 10 ncol 2 colnames arm lt c a b 这是我在 R 中创建的数据集现在我想对 b 列进行排名并按 a 列进行分组无
不允许使用默认特殊成员函数的多个版本 (MSVC)

这是有效的 C 代码吗 struct S S S const default S S default Context 我尝试通过将这两行添加到以下代码中来处理歧义S godbolt https godbolt org z j9znrY6ef
使用多个视图以编程/动态方式创建 LinearLayout

我有一个像这样的层次结构 LinearLayout horizontal 图像视图 LinearLayout vertical TextView TextView TextView TextView 我希望能够通过迭代添加上面的层次结构只
对象的属性（预期为邮件项）生成“438”运行时错误：“对象不支持此属性或方法”

我试图选择一个文件夹然后显示一个 MsgBox 其中包含该文件夹及其所有子文件夹中在设定时间范围内发送的电子邮件数量我可以选择一个文件夹但我得到 438 运行时错误对象不支持此属性或方法在 for 循环之后的行上 receive
Biopython：如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图？

我编写了一个 python 脚本来绘制泛素蛋白的 Ramachandran 图我正在使用biopython 我正在处理 pdb 文件我的脚本如下 import Bio PDB import numpy as np import matp
使用嵌套面板

尝试为我的游戏构建一个 GUI 但无论我使用什么布局我都无法让面板嵌套来做我喜欢的事情我的目标是这个http i182 photobucket com albums x202 NekoLLX CharGenmockup 1 jpg ht
使用 Cp500 编码陌生事物（LF 和 NEL）

最近在从字节转换为字符串然后再从字符串转换为字节的过程中我遇到了 Cp500 EBCDIC 编码的奇怪问题问题在于一个特定的角色就是在这个转变过程中被转变为这个角色下面的代码验证了这一点 byte b25 0x25 byte b
挑战：重新编码 data.frame() — 使其更快

重新编码是调查数据的常见做法但最明显的路线花费的时间比应有的时间要多使用提供的示例数据完成相同任务的最快代码system time 在我的机器上获胜 Sample data dat lt cbind rep 1 5 50000 rep

挑战：重新编码 data.frame() — 使其更快

挑战：重新编码 data.frame() — 使其更快 的相关文章

随机推荐

热门标签

挑战：重新编码 data.frame() — 使其更快的相关文章