R 中最快的列排序

2024-03-15

我有一个数据框full我想从中取出最后一列和一列v。然后我想对两列进行排序v以尽可能最快的方式。full从 csv 中读取，但这可以用于测试（包括一些真实性的 NA）：

n <- 200000
full <- data.frame(A = runif(n, 1, 10000), B = floor(runif(n, 0, 1.9)))
full[sample(n, 10000), 'A'] <- NA
v <- 1

I have v作为这里的一员，但实际上它可能会改变，并且full有很多列。

我尝试过对数据框、数据表和矩阵进行排序order and sort.list（一些想法取自这个线程 https://stackoverflow.com/questions/1296646/how-to-sort-a-dataframe-by-columns-in-r）。所有这些的代码：

# DATA FRAME

ord_df <- function() {
  a <- full[c(v, length(full))]
  a[with(a, order(a[1])), ]
}

sl_df <- function() {
  a <- full[c(v, length(full))]
  a[sort.list(a[[1]]), ] 
}


# DATA TABLE

require(data.table)

ord_dt <- function() {
  a <- as.data.table(full[c(v, length(full))])
  colnames(a)[1] <- 'values'
  a[order(values)]
}

sl_dt <- function() {
 a <- as.data.table(full[c(v, length(full))])
 colnames(a)[1] <- 'values'
 a[sort.list(values)]
}


# MATRIX

ord_mat <- function() {
  a <- as.matrix(full[c(v, length(full))])
  a[order(a[, 1]), ] 
}

sl_mat <- function() {
  a <- as.matrix(full[c(v, length(full))])
  a[sort.list(a[, 1]), ] 
}

时间结果：

         ord_df  sl_df    ord_dt   sl_dt   ord_mat sl_mat
Min.     0.230   0.1500   0.1300   0.120   0.140   0.1400
Median   0.250   0.1600   0.1400   0.140   0.140   0.1400
Mean     0.244   0.1610   0.1430   0.136   0.142   0.1450
Max.     0.250   0.1700   0.1600   0.140   0.160   0.1600

或者使用microbenchmark（结果以毫秒为单位）：

             min      lq       median   uq       max
1  ord_df() 243.0647 248.2768 254.0544 265.2589 352.3984
2  ord_dt() 133.8159 140.0111 143.8202 148.4957 181.2647
3 ord_mat() 140.5198 146.8131 149.9876 154.6649 191.6897
4   sl_df() 152.6985 161.5591 166.5147 171.2891 194.7155
5   sl_dt() 132.1414 139.7655 144.1281 149.6844 188.8592
6  sl_mat() 139.2420 146.8578 151.6760 156.6174 186.5416

看起来好像排序数据表获胜。两者之间并没有太大区别order and sort.list除非使用数据框时sort.list速度要快得多。

在数据表版本中我也尝试设置v作为键（因为它然后根据文档进行排序），但我无法让它工作，因为内容v都不是整数。

理想情况下，我希望尽可能加快速度，因为我必须针对不同的情况多次执行此操作v价值观。有谁知道我如何能够进一步加快这个过程？也可能值得尝试Rcpp执行？谢谢。

这是我用于计时的代码（如果对任何人有用的话）：

sortMethods <- list(ord_df, sl_df, ord_dt, sl_dt, ord_mat, sl_mat)

require(plyr)
timings <- raply(10, sapply(sortMethods, function(x) system.time(x())[[3]]))
colnames(timings) <- c('ord_df', 'sl_df', 'ord_dt', 'sl_dt', 'ord_mat', 'sl_mat')
apply(timings, 2, summary) 

require(microbenchmark)
mb <- microbenchmark(ord_df(), sl_df(), ord_dt(), sl_dt(), ord_mat(), sl_mat())
plot(mb)

我不知道将此类内容作为编辑放入是否更好，但它看起来更像是答案，所以这里就可以了。更新的测试功能：

n <- 1e7
full <- data.frame(A = runif(n, 1, 10000), B = floor(runif(n, 0, 1.9)))
full[sample(n, 100000), 'A'] <- NA

fdf <- full
fma <- as.matrix(full)
fdt <- as.data.table(full)
setnames(fdt, colnames(fdt)[1], 'values')

# DATA FRAME
ord_df <- function() { fdf[order(fdf[1]), ] }
sl_df <- function() { fdf[sort.list(fdf[[1]]), ] }

# DATA TABLE
require(data.table)
ord_dt <- function() { fdt[order(values)] }

key_dt <- function() {
  setkey(fdt, values) 
  fdt
}

# MATRIX
ord_mat <- function() { fma[order(fma[, 1]), ] }
sl_mat <- function() { fma[sort.list(fma[, 1]), ] }

结果（使用不同的计算机，R 2.13.1 和data.table 1.8.2):

         ord_df  sl_df   ord_dt  key_dt  ord_mat sl_mat
Min.     37.56   20.86   2.946   2.249   20.22   20.21
1st Qu.  37.73   21.15   2.962   2.255   20.54   20.59
Median   38.43   21.74   3.002   2.280   21.05   20.82
Mean     38.76   21.75   3.074   2.395   21.09   20.95
3rd Qu.  39.85   22.18   3.151   2.445   21.48   21.42
Max.     40.36   23.08   3.330   2.797   22.41   21.84

所以 data.table 是明显的赢家。我认为使用键比排序更快，并且语法也更好。感谢大家的帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

R 中最快的列排序的相关文章

grid.arrange 中的错误 -rangeGrob() 函数

我有两个图 p1 和 p2 我试图使用 grid arrage 绘制它们我的代码如下所示 grid arrange p1 p2 ncol 2 top textGrob Distribution across each day of the
根据不平凡的标准有效合并两个数据帧

正在接听这个问题 https stackoverflow com questions 18821862 data selection error 18823432 18823432昨晚我花了一个小时试图找到一个没有增长的解决方案data
如果条件长度 > 1 并且仅使用第一个元素，为什么我会在 R 中收到此警告

我有下面的源代码这if is na monthData 用于检查是否monthData is NA 如果是则为其分配一个初始值 monthData lt NA if category QUARTER for m in c rep 1 4
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
循环中的knitr模板和子文档

圣诞节前我之前问过跨多个 knitr 文档的单一样式表 https stackoverflow com questions 20370584 single style sheet across multiple knitr document
R 中的转换会导致文档错误

每当我运行此代码时 tm map 行都会给我警告消息警告信息在 tm map SimpleCorpus docs toSpace 中转换删除文档 texts lt read csv Data fast food Domino s Do
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
优化 R 中的嵌套 for 循环

我尝试加速下面的代码但没有成功我读到Rfast https cran r project org web packages Rfast Rfast pdf包但我也未能实现该包有没有办法优化R中的以下代码 RI lt function
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
warnings() 在函数内不起作用？如何解决这个问题？

op lt options warn 0 although doesn t work for any value of warn assign last warning NULL envir baseenv thisDoesntWork l
使用 data.table 进行分组并选择最短日期

My Data df1 lt structure list ID c A A A B B C c1 1 6 c2 1 6 myDate c 01 01 2015 02 02 2014 03 01 2014 09 09 2009 10 10
如何在 R 中只为直方图的一个标签着色？

我有一个像这样的数据框 CellLines ZEB1 600MPE 2 8186 AU565 2 783 BT20 2 7817 BT474 2 6433 BT483 2 4994 BT549 3 035 CAMA1 2 718 DU447
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
回归时如何设置系数值；右

我正在寻找一种指定预测变量值的方法当我使用当前数据运行 glm 时其中一个变量的系数接近 1 我想将其设置为 0 8 我知道这会给我一个较低的 R 2 值但我先验地知道模型的预测能力会更大 glm 的权重组件看起来很有希望但我还没有
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
R data.table 连接不等式条件

我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作但不显示数字不等式我还了解了如何使用子集函数来执行此操作但我真的很想利用 data table 二
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac

随机推荐

VBA 公式内变量

我有以下代码 ActiveCell FormulaR1C1 COUNTIF R 54 C 14 R 54 C 90 RC 4 我想用变量 total 替换 90 我尝试了这个但没有成功 Dim total as Integer total
找不到程序集

我将 ArrayList 序列化为二进制文件以便通过 TCP IP 发送它序列化文件是由服务器创建的我希望能够使用我现在正在编写的客户端对其进行反序列化但是当客户端尝试反序列化时它会抛出 SerializationExcepti
如果没有响应则继续发送请求

在循环中没有得到响应的情况下如何继续获取网页 for el of NodeList const url el getAttribute href const res await fetch url if no response below
html2canvas 不从外部 css 文件获取 css 样式

我正在使用 html2canvas 将包含 svg 对象图像和 html 内容的 div 转换为图像但它不会从外部 css 文件获取 css 样式我已将这些 css 类 target 和 Circle 放入外部 css 文件中有人请
如何在 Jetpack Compose 中实现列表的“对齐中心”功能？

在具有水平 LinearLayout 的 EpoxyRecyclerView 中有一个对齐中心功能其工作原理如下如果我以良好的速度滚动列表它会继续滚动直到速度减慢并以项目位于中心为止如果我缓慢滚动并抬起手指那么下一个项目就
材质UI下一个对话框文本字段下划线颜色

如何使用辅助调色板颜色更改对话框内文本字段的下划线颜色我无法做到这一点因为文档非常混乱假设您使用的是material ui next 您可以使用覆盖 in 创建Mui主题 import MuiThemeProvider createM
Rails 模型中的实例变量

我想在 Rails 模型中初始化一个实例变量该变量将保存一个数组并且我想在模型中的其他方法中访问该变量我试过这个 class Participant lt ActiveRecord Base possible statuses exi
根据 Python pandas 中索引的补集挑选元素

我有一个数据框我从中选择两个子集 dfs df a and df b 例如在iris数据集 df a iris iris Name Iris setosa df b iris iris Name Iris virginica 获得所有元素
有没有一种方法可以透明地对 SQLAlchemy 对象执行验证？

有没有办法在设置属性之后或设置属性时但在提交会话之前对对象执行验证例如我有一个领域模型Device有一个mac财产我想确保mac属性在添加到数据库或在数据库中更新之前包含有效且经过清理的 mac 值看起来 Pythonic 方法
PHP在提交表单失败后保留表单信息

你好我正在 mvc 系统视图中构建一个表单并且我希望保留所有插入的值以防表单提交失败如何做到这一点我尝试过字段示例
点击鼠标绘制一个矩形

可以用鼠标点击画一个矩形吗我的代码到目前为止还不能工作你能帮助我吗 private void panel1 MouseClick object sender MouseEventArgs e Graphics g this Create
源码分析工具？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 C 和 C 的源代码分析和探索工具似乎非常缺乏是否有任何工具可以用来收集有关 C 和或 C 源文件的信息 cscope 完成了我需要的
单元测试持久层 - Symfony

我想在 Symfony2 中测试持久性我想知道是否更好地模拟实体并提供给实体管理器或者是否更好地模拟实体管理器并将实体传递给管理器我的第一个选择是实体管理器抛出异常而不是对象不是实体学说如何在 PHPUNIT 中测试 symfon
使用正则表达式或类似表达式更改 Chrome 中的当前 URL

当在 Chrome 中输入已弃用的 URL 时应根据正则表达式或类似表达式将其更改为更新的 URL 我想做以下事情向系统输入一条规则将 olddomain com 更改为 newdomain com 在 Chrome 中输入 oldd
当插入符进入 contenteditable div 中的 span 元素时触发事件

我有一个内容可编辑的 div 其跨度如下 div some span spanned span text div 我想知道是否有任何事件监听器可以附加到span元素本身可用于检测插入符是否在元素内部移动span元素我并不是在寻找有听众的答
在 Web 服务中使用 JSON 字节数组以及 application/x-www-form-urlencoded

有3个问题我正在使用 Java Restful Web 服务请求是 HTTP POST 客户端如何发送 JSON 数据以及 application x www form urlencoded 的 MediaType 使用字节数组是否可以
按 EditText 时的 TimePicker 对话框

这个问题以前曾被问过但当时的答案似乎不再适用于 Android Studio 或者我错过了一些东西我希望当您按下编辑文本区域时显示一个 timePicker 对话框以在 editText 中设置时间然而由于某种原因普通键盘在按下
使用自动热键捕获右键单击+左键单击；意外的行为

我想捕获关键事件按下鼠标右键然后按下鼠标左键自动热键没有问题然而我仍然无法让鼠标右键单独工作 1 这有效 RButton LButton Send X Return 按预期工作如果我按下鼠标右键然后按下鼠标左键 X 将发送到活
HTML5 语法验证

我正在验证一些 HTML 并注意到一些我不熟悉的新错误这些列表项会根据用户输入使用 JavaScript 进行填充 Element li缺少以下一项或多项属性 aria checked aria expanded aria valuema
R 中最快的列排序

我有一个数据框full我想从中取出最后一列和一列v 然后我想对两列进行排序v以尽可能最快的方式 full从 csv 中读取但这可以用于测试包括一些真实性的 NA n lt 200000 full lt data frame A runi

R 中最快的列排序

R 中最快的列排序 的相关文章

随机推荐

热门标签

R 中最快的列排序的相关文章