为什么 R 的重复数据在排序数据上表现更好？

2024-01-23

在比较答案中两个函数的效率时检查列表是否包含 R 中的另一个列表 https://stackoverflow.com/a/39350733/4408538，我偶然发现了一个有趣的结果。排序大大提高了效率duplicated当向量很大时。这让我感到惊讶，因为我从来没有注意到我自己的工作中使用duplicated。事实上，对于我每天使用的尺寸来说，没有什么区别。观察：

set.seed(1007)
s1 <- sample(10^2, 10^3, replace = TRUE)
s1_sort <- sort(s1)
library(microbenchmark)
microbenchmark(dp=duplicated(s1), dp_sort=duplicated(s1_sort), times=1000)
Unit: microseconds
   expr    min      lq     mean  median      uq      max neval cld
     dp 16.459 16.9425 22.06371 17.2965 22.5050 1541.137  1000   a
dp_sort 17.007 17.5005 25.54953 17.8200 23.3655 1549.198  1000   a

正如您所看到的，向量排序时的时间没有明显的差异。然而，对于非常大的向量，结果有很大不同。观察：

s2 <- sample(10^6, 10^7, replace = TRUE)
s2_sort <- sort(s2)
microbenchmark(dp=duplicated(s2), dp_sort=duplicated(s2_sort), times=100)
Unit: milliseconds
   expr      min       lq     mean   median       uq       max neval cld
     dp 816.6883 847.9231 869.6829 861.8210 882.3978 1019.6339   100   b
dp_sort 287.6779 305.4779 322.8830 315.1198 324.9249  449.1734   100  a

几乎快了 3 倍！！！这让我陷入了兔子洞，它从这里开始：r-源.../重复.R https://github.com/SurajGupta/r-source/blob/master/src/library/base/R/duplicated.R。从这里我们看到，duplicated 调用了.Internal(duplicated(x,...))。然后使用该函数pryr::show_c_source(.Internal(duplicated(x)))和解决方法 https://github.com/hadley/pryr/issues/48由 @joran 建议（show_c_source目前出现问题..参见'show_c_source()' 坏了吗？ https://stackoverflow.com/q/38353760/4408538），我们看到duplicated打电话给。最后，heart https://github.com/wch/r-source/blob/6e7a2ed989027f3800d2e2d64e60e6d700034c6b/src/main/unique.c#L667 of duplicated显示（从第 667 行开始，到第 988 行结束）。看起来整个向量被循环，然后发生一些散列：

724     /* count unique entries */
725     k = 0;
726     for (i = 0; i < n; i++)
727         if (LOGICAL(dup)[i] == 0)
728             k++;

776     /* Build a hash table, ignoring information on duplication */
777     static void DoHashing(SEXP table, HashData *d)

我不完全理解所有代码，但似乎排序并不重要。无论哪种情况（排序与非排序），我们都会循环遍历整个向量，并最终调用各种哈希函数，这不应该取决于向量是否排序。我最初的想法是正在进行某种分支预测（请参阅这个问题 https://stackoverflow.com/q/11227809/4408538），但是从更新到这个答案 https://stackoverflow.com/a/11227902/4408538，看来这些事情应该已经不重要了。

这是怎么回事？？

EDIT

随着向量大小和重复项数量的增加，差距似乎也在增加。

set.seed(496)
s3 <- sample(10^6, 10^8, replace = TRUE)
s3_sort <- sort(s3)
microbenchmark(dp=duplicated(s3), dp_sort=duplicated(s3_sort), times = 10)
Unit: seconds
   expr       min        lq      mean    median        uq       max neval cld
     dp 12.149932 12.175665 12.848843 12.495599 12.719861 15.589190    10   b
dp_sort  2.395636  2.401837  2.706674  2.551375  2.677556  4.373653    10  a

正如@alexis_laz指出的，如果没有重复项，排序的影响就会大大减少。

s4 <- sample(10^8)
s4_sort <- sort(s4)
microbenchmark(dp=duplicated(s4), dp_sort=duplicated(s4_sort), times = 10)
Unit: seconds
   expr      min       lq     mean   median       uq       max neval cld
     dp 8.013995 8.130565 8.593626 8.197501 8.438703 10.639452    10   b
dp_sort 6.135788 6.158140 6.751101 6.256739 7.241381  8.913507    10  a

主要因素是 CPU 缓存未命中率，并且随着大小的增加，页面错误的代价也会更高。通过参考简单的哈希表来检查重复。如果被查询的哈希表部分已经在高速内存缓存中，那么这些查找会快得多。对于小向量，相应的哈希表将完全适合高速内存缓存，因此访问顺序并不重要，这就是您在第一个基准测试中看到的。

对于较大的向量，在任何给定时间只有哈希表的某些块适合缓存。如果重复项是连续的，则查找所需的哈希表部分将已经在缓存中以供后续查找。这就是为什么性能会随着较大向量的重复次数而提高。对于非常大的向量，哈希表甚至可能无法完全适合可用的物理内存并被分页到磁盘，从而使差异更加明显。

为了测试这一点，让我们使用原始帖子的s2向量及其排序版本，但也测试是否使重复项彼此相邻，但否则未排序。

# samples as in original post
s2 <- sample(10^6, 10^7, replace = TRUE)
s2_sort <- sort(s2)

# in the same order as s2, but with duplicates brought together
u2 <- unique(s2)
t2 <- rle(s2_sort)
s2_chunked <- rep(u2,times=t2$length[match(u2,t2$values)])

我们还考虑仅按哈希值排序。我将近似 R 中的哈希编码，但我们在这里处理的是双倍大小的值，而不是能够使用无符号长整型，因此我们将无法使用按位运算。

# in the order of hash value
K <- ceiling(log2(length(s2)*2))
M <- 2^K
h <- ((3141592653 * s2) %% 2^32)/2^(32-K)
ho <- order(h)
s2_hashordered <- s2[ho]

我们期望看到的是性能相似s2_sort and s2_chunked甚至更好s2_hashordered。在每种情况下，我们都尝试最大限度地减少缓存未命中。

microbenchmark(
 duplicated(s2), 
 duplicated(s2_sort), 
 duplicated(s2_chunked),
 duplicated(s2_hashordered),
 times=10)

Unit: milliseconds
                       expr      min       lq     mean   median       uq      max neval cld
             duplicated(s2) 664.5652 677.9340 690.0001 692.3104 703.8312 711.1538    10   c
        duplicated(s2_sort) 245.6511 251.3861 268.7433 276.2330 279.2518 284.6589    10  b 
     duplicated(s2_chunked) 240.0688 243.0151 255.3857 248.1327 276.3141 283.4298    10  b 
 duplicated(s2_hashordered) 166.8814 169.9423 185.9345 185.1822 202.7478 209.0383    10 a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 R 的重复数据在排序数据上表现更好？的相关文章

如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
将日期时间字符串转换为 Date 类

我有一个带有日期时间字符列的数据框当我使用as Date 除了少数实例之外我的大多数字符串都被正确解析下面的示例有望向您展示发生了什么 my attempt to parse the string to Date uses the s
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
改进R中从google获取股票新闻数据的功能

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据但我确信有一些方法可以改进它对于初学者来说我的函数返回一个 GMT 时区的对象而不是用户当前的时区如果传递的数字大于 299 它就会失败可能是因为 goog
在应用程序创建完成时设置 Spark DataGrid 列的默认排序（Flex 4.5）

我有一个包含多个列的 Spark DataGrid 组件我希望我的应用程序默认按 DataGrid 中第一列的降序排列我想使用单击顶部标题一次时发生的内置默认排序我不需要对我正在使用的 ArrayCollection 进行排序或更改比
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
如何在R中匹配具有相同主键的两个表中的数据

我有两个表其中包含有关人员的数据 df1 lt data frame id c 113 202 377 288 359 name c Alex Silvia Peter Jack Jonny 这为我提供了 id name 1 113 Al
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
角度垫排序不适用于带点表示法的 matColumnDef

我正在尝试按列对表进行排序当我必须过滤另一个结果中的结果时就会出现问题我尝试通过括号表示法和点表示法访问该属性但没有给出结果还将最终节点放置在 matColumnDef 中但失败因为有 2 列同名 table table
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
.pdbs 会减慢发布应用程序的速度吗？

如果 dll 中包含 pdb 程序调试文件则行号将出现在引发的任何异常的堆栈跟踪中这会影响应用程序的性能吗这个问题与发布与调试即优化无关这是关于拥有 pdb 文件的性能影响每次抛出异常时都会读取 pdb 文件吗加载程序集时
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的

随机推荐

根据列值分割大型 csv 文本文件

我的 CSV 文件有多列已排序例如我可能有这样的行 19980102 PLXS 10032 Q A 15 12500 15 00000 15 12500 2 19980105 PLXS 10032 Q A 14 93750 14 750
C++ 中单例的线程安全惰性构造

有没有一种方法可以在 C 中实现单例对象以线程安全的方式延迟构造两个线程可能同时是单例的第一个用户它仍然应该只构造一次不依赖于预先构造的静态变量因此在构造静态变量期间单例对象本身可以安全使用我不太了解我的C 但是在执行任何代码之
使用 maven-compiler-plugin 排除包适用于一个包，但不适用于另一个包

我的项目具有以下包结构 src com my app school course Course java com my app school course free CourseFree java 我使用Maven来构建项目在我的pom
使用 Stateful Session Bean 来跟踪用户的会话

这是我的第一个问题我希望我做得对我需要从事 Java EE 项目因此在开始之前我尝试做一些简单的事情看看是否能做到我被困住了有状态会话 Bean 这是问题我怎样才能使用SFSB跟踪用户的会话我看到的所有例子最终都放入 S
UIBezierPath：roundedRect：byRoundingCorners：cornerRadii：行为怪异

我正在尝试将按钮的两个角变成圆形如果我像这样选择 TopLeft 和 BottomLeft let bezierDisableAdsPath UIBezierPath roundedRect disableAdsButton bounds
Gitlab Pages：无法验证域所有权

今天早上我收到了针对托管在自定义域上的每个 Gitlab 页面的电子邮件称域验证失败没关系因为我认为我一开始就没有验证过它们 Gitlab 很好地实现了这一点当我转到每个存储库的设置 gt 页面 gt Domain Detail
一个 SVG 文件，里面有很多 SVG 渐变

我正在制作一组使用动态渐变的按钮我已经通过使用 Firefox 3 6 和 WebKit 专有的 CSS 扩展来处理它们我所需要做的就是使用 background image url gradient svg 支持 Opera iOS
phpExcel：无法加载资源：net::ERR_CONNECTION_RESET

我实际上使用 phpExcel 来获取一个 excel 文件我用一个命令从用户那里恢复该文件
Shiny 未检测到shiny:inputchanged 事件

如果应用程序能够检测到上次单击或更新的小部件的 ID 那么我为闪亮的应用程序设计所采用的方法将是最简单的 This https stackoverflow com q 72061061 7742981问题的出现解决了问题然而当我使用接受
从 Rails3-jquery-autocomplete 自定义列表

我有一个hotel模型及其属性是 id hotel name address searchable 当我设置可搜索时false对于特定酒店当我在搜索字段中输入时该酒店不应出现在下拉列表中控制器是 class HotelsControl
表情符号字符变灰（HTML / CSS）

我当前的问题是我正在尝试将带有表情符号的按钮灰显尽管如此由于表情符号的性质似乎无法使用 HTML CSS 属性更改颜色 I e
xib 文件的 iPhone 本地化

我刚刚熟悉 xib 文件的本地化想知道是否有一种方法可以通过直接引用 plist 来本地化 xib 中的字符串欣赏一些想法如果您不想直接本地化 xib 文件则可以将它们包含的文本提取到 strings 文件中并且在翻译 strin
如何使用node.js测试文件权限？

如何检查正在运行的 Node js 进程对给定文件的权限读写执行我希望fs Stats object http nodejs org docs latest api fs html fs class fs stats有一些有关权限的
Django 外键值的精确匹配

class Sentence Model name CharField class Tokens Model token CharField sentence ForeignKey Sentence related name tokens
如何在 android 中模拟 Kotlin 对象？

我在 kotlin 中有一个对象控制当前用户的会话信息我想模拟有回调的登录方法在测试时我需要在 SessionController 对象中模拟此方法 object SessionController fun signIn userna
Java (J2SE) DTMF 音调检测

我正在尝试执行以下操作我正在使用我的 java 应用程序给另一个人打电话已经完成并且工作正常然后我正在播放录音例如请按 1 一继续英语已经完成且工作正常现在我想检测那个人按 1 根据我在 google 搜索中的研究我发现这可
如何在 Excel 中将 hhmmAM/PM（无空格）格式化为时间 hh:mm AM/PM？

我正在开发一个薪资项目为了提高数据输入效率我希望以 hhmmAM PM 格式输入时间没有空格或冒号最好只输入 a p 而不是 AM PM 并将其转换为标准带有冒号和空格的时间格式谢谢这是一个为列编码的小宏A 可以对其进行修改以处
增加火花任务大小[重复]

这个问题在这里已经有答案了当我在 Spark Shell 中执行代码时遇到问题 Stage 1 gt 0 0 16 17 01 13 06 09 24 WARN TaskSetManager Stage 1 contains a task
如何处理“超出最大存储过程、函数、触发器或视图嵌套级别（限制 32）”。

我被要求创建脚本希望运行它的人提供员工 ID 找到所提供的员工任意深度监督的所有员工我的代码是 CREATE FUNCTION dbo GetNames V uniqueidentifier RETURNS OldNames TABLE
为什么 R 的重复数据在排序数据上表现更好？

在比较答案中两个函数的效率时检查列表是否包含 R 中的另一个列表 https stackoverflow com a 39350733 4408538 我偶然发现了一个有趣的结果排序大大提高了效率duplicated当向量很大时这让我感

为什么 R 的重复数据在排序数据上表现更好？

EDIT

为什么 R 的重复数据在排序数据上表现更好？ 的相关文章

随机推荐

热门标签

为什么 R 的重复数据在排序数据上表现更好？的相关文章