按升序/降序快速对 data.table 进行排序

2024-04-23

我有一个大约有 300 万行和 40 列的 data.table。我想按组内的降序对该表进行排序,如以下 sql 模拟代码:

sort by ascending Year, ascending MemberID, descending Month 

data.table 中是否有等效的方法来执行此操作?到目前为止,我必须将其分为两个步骤:

setkey(X, Year, MemberID)

这非常快,只需要几秒钟。

X <- X[,.SD[order(-Month)],by=list(Year, MemberID)]

此步骤需要更长的时间(5 分钟)。

更新: 有人发表评论要做X <- X[sort(Year, MemberID, -Month)]后来删除了。这种方法似乎要快得多:

user  system elapsed 
5.560  11.242  66.236 

我的方法:setkey() 然后 order(-Month)

   user  system elapsed 
816.144   9.648 848.798 

我现在的问题是:如果我想在排序后按年,会员ID和月进行汇总(年,会员ID,月),data.table是否能识别排序顺序?

更新2:回应Matthew Dowle:

在 setkey 包含年份、会员 ID 和月份之后,我每个组仍然有多个记录。我想对每个组进行总结。我的意思是:如果我使用 X[order(Year, MemberID, Month)],求和是否利用 data.table 的二进制搜索功能:

monthly.X <- X[, lapply(.SD[], sum), by = list(Year, MemberID, Month)]

更新 3:Matthew D 提出了几种方法。第一种方法的运行时间比 order() 方法更快:

   user  system elapsed 
  7.910   7.750  53.916 

马修:令我惊讶的是转换月份的符号花费了大部分时间。没有它,setkey 的速度会非常快。


2014 年 6 月 5 日更新:

目前的开发版本data.table v1.9.3实现了两个新功能,分别是:setorder and setorderv,这正是您所需要的。这些函数重新排序data.table 引用可以选择在每列上选择升序或降序作为排序依据。查看?setorder了解更多信息。

此外,DT[order(.)]默认情况下也经过优化以使用data.table's 内部快速订单代替base:::order。这一点,不同于setorder,将制作数据的完整副本,因此内存效率较低,但仍比使用基数顺序的操作快几个数量级。

基准:

这是使用速度差异的说明setorder, data.table 的内部快速顺序和base:::order:

require(data.table) ## 1.9.3
set.seed(1L)
DT <- data.table(Year     = sample(1950:2000, 3e6, TRUE), 
                 memberID = sample(paste0("V", 1:1e4), 3e6, TRUE), 
                 month    = sample(12, 3e6, TRUE))

## using base:::order
system.time(ans1 <- DT[base:::order(Year, memberID, -month)])
#   user  system elapsed 
# 76.909   0.262  81.266 

## optimised to use data.table's fast order
system.time(ans2 <- DT[order(Year, memberID, -month)])
#   user  system elapsed 
#  0.985   0.030   1.027

## reorders by reference
system.time(setorder(DT, Year, memberID, -month))
#   user  system elapsed 
#  0.585   0.013   0.600 

## or alternatively
## setorderv(DT, c("Year", "memberID", "month"), c(1,1,-1))

## are they equal?
identical(ans2, DT)    # [1] TRUE
identical(ans1, ans2)  # [1] TRUE

在此数据上,基准测试表明 data.table 的顺序约为快约 79 倍 than base:::order and setorder is 快约 135 倍 than base:::order here.

data.table始终以 C 语言环境进行排序/排序。如果您需要在其他语言环境中订购,那么您才需要诉诸使用DT[base:::order(.)].

所有这些新的优化和功能共同构成了. 还添加了 bit64::integer64 支持 https://github.com/Rdatatable/data.table/issues/703.


NOTE:请参阅历史记录/修订以获取早期的答案和更新。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

按升序/降序快速对 data.table 进行排序 的相关文章

随机推荐

  • 如何将 QtCreator 项目转换为 Visual Studio 项目

    我有一个 QtCreator 项目文件 pro 如何将其转换为Visual Studio 2008项目 sln 您还可以使用 qmake 命令来执行此操作 转到项目目录并输入 qmake tp vc
  • 如何使sequelize.sync()省略一些模型?

    我在数据库 mysql 中使用表和视图 因此对于开发 测试环境我想使用sync 但它在视图上崩溃 我可以以某种方式省略这些模型吗 当我想通过 Sequelize 创建和使用视图时 我使用与 Crusader 的答案非常相似的方法 在这种情况
  • 在 OAuth2.0 中使用 Facebook 访问令牌作为资源所有者凭据

    OAuth 2 0 规范定义了资源所有者密码凭证授予类型 https datatracker ietf org doc html draft ietf oauth v2 26 section 4 3 它允许直接使用资源所有者密码凭据 即用户
  • JSch get() 失败并出现 NullPointerException

    我有一个 Jax RS 服务器 它应该保存可通过 ssh 访问的文件列表 然后我可以通过 HTTP 下载或流式传输 我一直在尝试使用 JSch 的 SFTP 通道读取文件 但我不断收到NullPointerException 这是Messa
  • 如何在 C++ 中前向声明 std::set?

    为了加快编译过程 我正在尝试简化我的头文件MyClass hpp通过前向声明 STL 容器 例如 std vector std set But std set can NOT在以下代码中进行前向声明 同时std vector can be
  • 在地图函数中迭代应用 ggplot 函数

    我想为数据集中的所有变量生成一系列直方图 但显然我没有正确准备数据以便在地图函数中使用 library tidyverse mtcars gt select wt disp hp gt map function x ggplot aes x
  • 仅在特定服务器上调用delayed_job capistrano任务

    我有一个专门的服务器用于delayed job 任务 我想启动 停止和重新启动delayed job工作人员only这个服务器 我正在使用delayed job提供的capistrano食谱 当我只有 1 台服务器时 这是我的配置 befo
  • 仍然无法针对带有 Salat / Casbah 的 Play FakeApp 运行多个测试

    我以为我已经修好了问题 https stackoverflow com questions 12028218 running multiple tests within the same fakeapplication in play 2
  • 为什么 receive_boot_completed 在我的设备上不起作用?

    我正在开发一些需要使用的应用程序receive boot completed重新启动以重置一些警报 它可以在模拟器和 Samsung tab 2 10 1 上正常工作 但它不能在我的 android 版本 2 2 1 的 Galaxy Mi
  • jQuery/javascript 用户单击和以编程方式单击复选框的不同行为

    有点难以解释 所以我设置了一个 jsFiddlehere http jsfiddle net BCECy 基本上 当用户单击复选框时 我会触发一些行为 在另一个地方 我尝试以编程方式单击复选框 我需要看到完全相同的行为 它不起作用 似乎与单
  • Vim 中每行末尾的美元符号(“$”)是什么

    我对 Vim 还比较陌生 每当我启动 Vim 时使用vim LearnRuby rb 每行都会出现一个美元符号 Why set nolist 将关闭当前缓冲区的特殊字符 例如制表符显示为 I和行尾字符显示为 然而 如果它在你跑步时始终如一地
  • .hgignore 语法仅忽略文件,而不忽略目录?

    我有一个我似乎无法理解的问题 我在 Windows 上使用 TortoiseHg 版本 0 7 5 但在 Linux 上我遇到了同样的问题 这里是 My hgignore file syntax regexp 我想要实现的是将 hg 存储库
  • PHP - UPLOAD_ERR_NO_TMP_DIR

    我正在使用 Cbeyond www cbeyond com 你们中的一些人可能熟悉它们 作为启用 PHP 的虚拟主机 当我检查如下时 我的 PHP 上传功能遇到问题 error FILES uploadedfile error echo e
  • Graphql 字段在类型上不存在

    浏览完 Graphql 的文档后 我开始在一个玩具 Rails reactJS 项目上实现它 这些项目允许用户通过设备登录 然后访问显示艺术家列表的虚拟 艺术家路径 一切似乎都工作正常 直到我尝试使用 React 应用程序中的 GraphQ
  • 对象动画师不删除更新监听器android

    美好的一天 我有一个场景 这个半正常的对象动画师不断地反复触发 导致堆增长 当然在某些时候还会出现内存不足问题 这是如何进行的 我为这样的彩虹动画制作了静态方法 public static ObjectAnimator startRainb
  • Spring @Transactional 和 Hibernate @LockMode 注释如何关联

    我想知道事务和锁之间的关系 更具体地说 Spring 的情况如何 Transactional与Hibernate的LockMode有关 https docs jboss org hibernate orm 4 0 devguide en U
  • 绘制java类的依赖关系图

    嘿嘿 我正在寻找像 JDepend 这样的工具来为 java 类文件绘制图表 JDepend 看起来很好 但它没有从 deps 中解析 deps 也许我只是缺少一些特殊选项 直接输出为 dot 格式或图像会很好 谢谢 你可以试试Java依赖
  • 使用 JavaScript 命名空间是否存在任何危险?

    创建 JavaScript 命名空间时是否有任何危险 警告应该注意 我们的项目相当庞大 我们正在运行大量 JavaScript 文件 超过 20 个 预计还会更多 如果不使用命名空间 就不可能实现任何代码可维护性 因此我们像这样实现它们 v
  • 如何只在当前行进行搜索和替换?

    I see 如何在特定行中搜索和替换 https stackoverflow com questions 17319557 search and replace in vim in specific lines 按行号指定 以及如何使用当前
  • 按升序/降序快速对 data.table 进行排序

    我有一个大约有 300 万行和 40 列的 data table 我想按组内的降序对该表进行排序 如以下 sql 模拟代码 sort by ascending Year ascending MemberID descending Month