按升序/降序快速对 data.table 进行排序

2024-04-23

我有一个大约有 300 万行和 40 列的 data.table。我想按组内的降序对该表进行排序，如以下 sql 模拟代码：

sort by ascending Year, ascending MemberID, descending Month

data.table 中是否有等效的方法来执行此操作？到目前为止，我必须将其分为两个步骤：

setkey(X, Year, MemberID)

这非常快，只需要几秒钟。

X <- X[,.SD[order(-Month)],by=list(Year, MemberID)]

此步骤需要更长的时间（5 分钟）。

更新：有人发表评论要做X <- X[sort(Year, MemberID, -Month)]后来删除了。这种方法似乎要快得多：

user  system elapsed 
5.560  11.242  66.236

我的方法：setkey() 然后 order(-Month)

   user  system elapsed 
816.144   9.648 848.798

我现在的问题是：如果我想在排序后按年，会员ID和月进行汇总（年，会员ID，月），data.table是否能识别排序顺序？

更新2：回应Matthew Dowle：

在 setkey 包含年份、会员 ID 和月份之后，我每个组仍然有多个记录。我想对每个组进行总结。我的意思是：如果我使用 X[order(Year, MemberID, Month)]，求和是否利用 data.table 的二进制搜索功能：

monthly.X <- X[, lapply(.SD[], sum), by = list(Year, MemberID, Month)]

更新 3：Matthew D 提出了几种方法。第一种方法的运行时间比 order() 方法更快：

   user  system elapsed 
  7.910   7.750  53.916

马修：令我惊讶的是转换月份的符号花费了大部分时间。没有它，setkey 的速度会非常快。

2014 年 6 月 5 日更新：

目前的开发版本data.table v1.9.3实现了两个新功能，分别是：setorder and setorderv，这正是您所需要的。这些函数重新排序data.table 引用可以选择在每列上选择升序或降序作为排序依据。查看?setorder了解更多信息。

此外，DT[order(.)]默认情况下也经过优化以使用data.table's 内部快速订单代替base:::order。这一点，不同于setorder，将制作数据的完整副本，因此内存效率较低，但仍比使用基数顺序的操作快几个数量级。

基准：

这是使用速度差异的说明setorder, data.table 的内部快速顺序和base:::order:

require(data.table) ## 1.9.3
set.seed(1L)
DT <- data.table(Year     = sample(1950:2000, 3e6, TRUE), 
                 memberID = sample(paste0("V", 1:1e4), 3e6, TRUE), 
                 month    = sample(12, 3e6, TRUE))

## using base:::order
system.time(ans1 <- DT[base:::order(Year, memberID, -month)])
#   user  system elapsed 
# 76.909   0.262  81.266 

## optimised to use data.table's fast order
system.time(ans2 <- DT[order(Year, memberID, -month)])
#   user  system elapsed 
#  0.985   0.030   1.027

## reorders by reference
system.time(setorder(DT, Year, memberID, -month))
#   user  system elapsed 
#  0.585   0.013   0.600 

## or alternatively
## setorderv(DT, c("Year", "memberID", "month"), c(1,1,-1))

## are they equal?
identical(ans2, DT)    # [1] TRUE
identical(ans1, ans2)  # [1] TRUE

在此数据上，基准测试表明 data.table 的顺序约为快约 79 倍 than base:::order and setorder is 快约 135 倍 than base:::order here.

data.table始终以 C 语言环境进行排序/排序。如果您需要在其他语言环境中订购，那么您才需要诉诸使用DT[base:::order(.)].

所有这些新的优化和功能共同构成了. 还添加了 bit64::integer64 支持 https://github.com/Rdatatable/data.table/issues/703.

NOTE:请参阅历史记录/修订以获取早期的答案和更新。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

按升序/降序快速对 data.table 进行排序的相关文章

如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
过度使用委托对性能来说是一个坏主意吗？ [复制]

这个问题在这里已经有答案了考虑以下代码 if IsDebuggingEnabled instance Log GetDetailedDebugInfo GetDetailedDebugInfo 可能是一个昂贵的方法因此我们只想在调试模式
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
数据表中每一行的工具提示

这个问题尖叫着是重复的JSF 2 0 Primefaces 2 x 数据表行的工具提示 https stackoverflow com questions 9980155 jsf 2 0 primefaces 2 x tooltip for
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

最近我开始使用 Ubuntu 16 04 和 g 5 3 1 并检查我的程序是否运行慢3倍在此之前我使用过 Ubuntu 14 04 g 4 8 4 我用相同的命令构建它 CFLAGS std c 11 Wall O3 我的程序包含循环
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
在R中循环子文件夹

我正在 R 环境中包含多个子文件夹的文件夹中工作我想要循环遍历多个子文件夹然后在每个子文件夹中调用 R 脚本来执行我想出了下面的代码但我的代码似乎添加了到子文件夹列表我收到错误文件中的错误文件名 r 编码编码无效的描述
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我

随机推荐

如何将 QtCreator 项目转换为 Visual Studio 项目

我有一个 QtCreator 项目文件 pro 如何将其转换为Visual Studio 2008项目 sln 您还可以使用 qmake 命令来执行此操作转到项目目录并输入 qmake tp vc
如何使sequelize.sync()省略一些模型？

我在数据库 mysql 中使用表和视图因此对于开发测试环境我想使用sync 但它在视图上崩溃我可以以某种方式省略这些模型吗当我想通过 Sequelize 创建和使用视图时我使用与 Crusader 的答案非常相似的方法在这种情况
在 OAuth2.0 中使用 Facebook 访问令牌作为资源所有者凭据

OAuth 2 0 规范定义了资源所有者密码凭证授予类型 https datatracker ietf org doc html draft ietf oauth v2 26 section 4 3 它允许直接使用资源所有者密码凭据即用户
JSch get() 失败并出现 NullPointerException

我有一个 Jax RS 服务器它应该保存可通过 ssh 访问的文件列表然后我可以通过 HTTP 下载或流式传输我一直在尝试使用 JSch 的 SFTP 通道读取文件但我不断收到NullPointerException 这是Messa
如何在 C++ 中前向声明 std::set？

为了加快编译过程我正在尝试简化我的头文件MyClass hpp通过前向声明 STL 容器例如 std vector std set But std set can NOT在以下代码中进行前向声明同时std vector can be
在地图函数中迭代应用 ggplot 函数

我想为数据集中的所有变量生成一系列直方图但显然我没有正确准备数据以便在地图函数中使用 library tidyverse mtcars gt select wt disp hp gt map function x ggplot aes x
仅在特定服务器上调用delayed_job capistrano任务

我有一个专门的服务器用于delayed job 任务我想启动停止和重新启动delayed job工作人员only这个服务器我正在使用delayed job提供的capistrano食谱当我只有 1 台服务器时这是我的配置 befo
仍然无法针对带有 Salat / Casbah 的 Play FakeApp 运行多个测试

我以为我已经修好了问题 https stackoverflow com questions 12028218 running multiple tests within the same fakeapplication in play 2
为什么 receive_boot_completed 在我的设备上不起作用？

我正在开发一些需要使用的应用程序receive boot completed重新启动以重置一些警报它可以在模拟器和 Samsung tab 2 10 1 上正常工作但它不能在我的 android 版本 2 2 1 的 Galaxy Mi
jQuery/javascript 用户单击和以编程方式单击复选框的不同行为

有点难以解释所以我设置了一个 jsFiddlehere http jsfiddle net BCECy 基本上当用户单击复选框时我会触发一些行为在另一个地方我尝试以编程方式单击复选框我需要看到完全相同的行为它不起作用似乎与单
Vim 中每行末尾的美元符号（“$”）是什么

我对 Vim 还比较陌生每当我启动 Vim 时使用vim LearnRuby rb 每行都会出现一个美元符号 Why set nolist 将关闭当前缓冲区的特殊字符例如制表符显示为 I和行尾字符显示为然而如果它在你跑步时始终如一地
.hgignore 语法仅忽略文件，而不忽略目录？

我有一个我似乎无法理解的问题我在 Windows 上使用 TortoiseHg 版本 0 7 5 但在 Linux 上我遇到了同样的问题这里是 My hgignore file syntax regexp 我想要实现的是将 hg 存储库
PHP - UPLOAD_ERR_NO_TMP_DIR

我正在使用 Cbeyond www cbeyond com 你们中的一些人可能熟悉它们作为启用 PHP 的虚拟主机当我检查如下时我的 PHP 上传功能遇到问题 error FILES uploadedfile error echo e
Graphql 字段在类型上不存在

浏览完 Graphql 的文档后我开始在一个玩具 Rails reactJS 项目上实现它这些项目允许用户通过设备登录然后访问显示艺术家列表的虚拟艺术家路径一切似乎都工作正常直到我尝试使用 React 应用程序中的 GraphQ
对象动画师不删除更新监听器android

美好的一天我有一个场景这个半正常的对象动画师不断地反复触发导致堆增长当然在某些时候还会出现内存不足问题这是如何进行的我为这样的彩虹动画制作了静态方法 public static ObjectAnimator startRainb
Spring @Transactional 和 Hibernate @LockMode 注释如何关联

我想知道事务和锁之间的关系更具体地说 Spring 的情况如何 Transactional与Hibernate的LockMode有关 https docs jboss org hibernate orm 4 0 devguide en U
绘制java类的依赖关系图

嘿嘿我正在寻找像 JDepend 这样的工具来为 java 类文件绘制图表 JDepend 看起来很好但它没有从 deps 中解析 deps 也许我只是缺少一些特殊选项直接输出为 dot 格式或图像会很好谢谢你可以试试Java依赖
使用 JavaScript 命名空间是否存在任何危险？

创建 JavaScript 命名空间时是否有任何危险警告应该注意我们的项目相当庞大我们正在运行大量 JavaScript 文件超过 20 个预计还会更多如果不使用命名空间就不可能实现任何代码可维护性因此我们像这样实现它们 v
如何只在当前行进行搜索和替换？

I see 如何在特定行中搜索和替换 https stackoverflow com questions 17319557 search and replace in vim in specific lines 按行号指定以及如何使用当前
按升序/降序快速对 data.table 进行排序

我有一个大约有 300 万行和 40 列的 data table 我想按组内的降序对该表进行排序如以下 sql 模拟代码 sort by ascending Year ascending MemberID descending Month

按升序/降序快速对 data.table 进行排序

2014 年 6 月 5 日更新：

基准：

按升序/降序快速对 data.table 进行排序 的相关文章

随机推荐

热门标签

按升序/降序快速对 data.table 进行排序的相关文章