制作独特数组的最快方法是什么？

2024-02-12

我有以下情况。我有一大堆随机字符串。应尽快使该数组变得唯一。

现在通过一些基准测试我发现 ruby 的 uniq 相当慢：

require 'digest'
require 'benchmark'

#make a nice random array of strings
list = (1..100000).to_a.map(&:to_s).map {|e| Digest::SHA256.hexdigest(e)}
list += list
list.shuffle

def hash_uniq(a)
  a_hash = {}
  a.each do |v|
    a_hash[v] = nil
  end
  a_hash.keys
end

Benchmark.bm do |x|
  x.report(:uniq) { 100.times { list.uniq} }
  x.report(:hash_uniq) { 100.times { hash_uniq(list) } }
end

要点->https://gist.github.com/stillhart/20aa9a1b2eeb0cff4cf5 https://gist.github.com/stillhart/20aa9a1b2eeb0cff4cf5

结果非常有趣。难道是ruby的uniq很慢吗？

          user     system      total        real
uniq      23.750000   0.040000  23.790000 ( 23.823770)
hash_uniq 18.560000   0.020000  18.580000 ( 18.591803)

现在我的问题是：

有没有更快的方法可以使数组变得唯一？
难道我做错了什么？
Array.uniq 方法有问题吗？

我正在使用 ruby 2.2.3p173 (2015-08-18 修订版 51636) [x86_64-linux]

对大型数据集的字符串解析操作当然不是 Ruby 的亮点。如果这对业务至关重要，您可能需要用 C 或 C 等语言编写扩展Go http://dev.mikamai.com/post/130986121064/writing-ruby-extensions-in-go-an-in-depth-review，或者让另一个应用程序在将其传递给您的 Ruby 应用程序之前处理它。

就是这样说的。您的基准似乎有些奇怪。使用 Ruby 在我的 MacBook Pro 上运行相同的代码2.2.3呈现以下结果：

          user        system    total     real
uniq      10.300000   0.110000  10.410000 ( 10.412513)
hash_uniq 11.660000   0.210000  11.870000 ( 11.901917)

建议uniq稍微快一些。

如果可能，您应该始终尝试使用正确的集合类型。如果您的收藏确实独一无二，那么请使用Set http://ruby-doc.org/stdlib-2.2.3/libdoc/set/rdoc/Set.html。它们具有更好的内存配置文件和更快的查找速度Hash，同时保留一些Array直觉。

如果您的数据已经存在于Array，但是，这可能不是一个好的权衡，因为插入Set也相当慢，正如您在这里看到的：

              user        system    total     real
uniq          11.040000   0.060000  11.100000 ( 11.102644)
hash_uniq     12.070000   0.230000  12.300000 ( 12.319356)
set_insertion 12.090000   0.200000  12.290000 ( 12.294562)

我在其中添加了以下基准：

x.report(:set_insertion) { 100.times { Set.new(list) } }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

制作独特数组的最快方法是什么？的相关文章

Rails：CSRF 令牌不工作但已设置

我在 Heroku 上有我的 Rails 3 应用程序当我发送银行信息时我得到 WARNING Can t verify CSRF token authenticity但我的 CSRF 令牌已设置 https gist github c
C# Byte[] 转 BCD 和 BCD 转 INT

我有一个由 CashRegister Machine 创建的 Hex 文件我必须读入这个文件文件使用下面详述的格式它就像套接字数据包代码数据 2字节PLU 代码数据 7 字节单价数据 5字节数量数据 5字节数据总量 5字节PLU 名
在 C# 中按元素相乘数组具有意想不到的性能

我想找到按元素相乘两个数组的最佳方法这是更广泛项目的一部分其中性能而不是唯一的考虑因素我今天开始用 C Linqpad 编写一些函数因此它还没有以任何方式进行优化下面代码的输出如下 Environment ProcessorCou
C# 中的 strstr() 等效项

我有两个byte 我想找到第二个的第一次出现byte 在第一个byte 或其中的一个范围我不想使用字符串来提高效率翻译第一个byte to a string会效率低下基本上我相信就是这样strstr 在 C 中做最好的方法是什么这
如何在 Rails 4 中使用 params.require

我有一个像这样的私有方法用于有四个字段的注册表单 firstname email password and confirm password 我不知道如何检查password confirmation def user params pa
JavaScript 数组和对象除了 .length 属性之外有什么区别？

我认为 JS 数组只是一个哈希映射它只接受整数值作为键 length 属性只返回最大索引 1 这是正确的吗还有其他区别吗您错了数组可以有任何你想要的键此外他们还继承了Array原型
yard 0.7.3 无法在 Markdown 和 Textile 中构建我的自述文件

我决定将我的项目中的 README 文件转换为 Markdown 并一直使用yard 验证文档是否正确呈现所以我安装了 rdiscount 将 README 更改为 README md 并尝试 yard doc README md 这给了
Ruby 中的任务/未来

代表潜在延迟的异步计算并且可以订阅其完成的模式的惯用 Ruby 模拟是什么即类似于 NET 的东西System Threading Task 或Python 3 xconcurrent futures future 请注意这并不一定意味
如何从 Ruby 程序发送邮件？

我想从 Ruby 应用程序发送电子邮件核心语言中是否有调用来执行此操作或者是否有我应该使用的库最好的方法是什么如果你不想使用行动邮递员 http wiki rubyonrails org rails pages ActionMail
拆分字符串以仅获取前 5 个字符

我想去那个地点 var log src ap kernelmodule 10 001 100 但看起来我的代码必须处理 ap kernelmodule 10 002 100 ap kernelmodule 10 003 101 等我想使用
对象数组的数组（二维数组）JNI

我正在努力创建自定义对象类型 ShareStruct 的二维数组 jobjectArray ret jobjectArray ins jobjectArray outs jclass myClass env gt FindClass env
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
“rmagick”gem 安装问题

我在尝试在 centos 上安装 rmagick gem 时遇到问题以下是我得到的输出谁能帮我识别一下我缺少什么包裹我已经安装了所有提到的另一个堆栈溢出线程 RMagick安装错误 https stackoverflow com qu
已定义方法的 Ruby 钩子？

我一直在谷歌上搜索这个问题但找不到答案这让我认为答案是否定的但我想我会在这里问以防有人确切知道 Ruby 是否有一个钩子来定义方法即在模块或类上如果没有是否有人足够熟悉该实施的情况main对象以了解它到底如何将方法复制到Obj
没有要加载的文件 - ffi_c (LoadError)

这个问题困扰了我几天每当我使用 bring to front 方法时 require rubygems require watir browser Watir Browser new browser bring to front 我收到此
char 数组声明中字符串文字周围的大括号有效吗？（例如 char s[] = {"Hello World"}）

偶然间我发现这条线char s Hello World 已正确编译并且似乎被视为相同char s Hello World 不是第一个 Hello World 一个包含一个 char 数组元素的数组因此 s 的声明应为char s 事实上如
Bundle 说 gem 丢失了 - 但事实并非如此？

背景我正在维护contentRuby On Rails 站点但我确实没有 Rails 的经验当尝试运行 Rails 服务器时 rails s我明白了在任何来源中均找不到 activesupport 3 2 0 Run bundle
如果您编辑/更新该特定对象，laravel 唯一名称表示已被占用

我有一个投资组合表我没有在 url 中显示投资组合的 id 而是使用 getRouteKeyName 显示投资组合的名称所以我希望该名称是唯一的否则如果它已经存在它可能会显示错误的投资组合我将名称字段的规则设置为唯一如果我现在编
我无法让 ruby 开发工具包适用于 Windows XP

所以我一生都无法让它正常工作我的最终目标是安装 dbd odbc gem 并使其正常工作从我读过的多篇文章来看我需要安装ODBC 绑定 http www ch werner de rubyodbc 对于 ruby 以及 dbd od
红宝石接球和效率

catch在 Ruby 中意味着跳出深度嵌套的代码在 Java 中例如用Java也可以达到同样的效果try catch用于处理异常但它被认为是糟糕的解决方案而且效率非常低在 Ruby 中我们有处理异常的方法begin raise

随机推荐

Rails.cache.clear 和 rake tmp:cache:clear 有什么区别？

这两个命令等效吗如果不是有什么区别 rake 任务仅清除存储在文件系统中的文件 Rails root tmp cache 这是该任务的代码 namespace cache do desc Clears all files and dir
需要了解SemaphoreSlim的用法

这是我的代码但我不明白是什么SemaphoreSlim是在做 async Task WorkerMainAsync SemaphoreSlim ss new SemaphoreSlim 10 List
ASP.NET / IIS 远程调试 - DEBUG 动词

我正在寻找有关 DEBUG HTTP 动词的详细信息我很清楚这是用于远程调试尽管我什至不确定它是用于 IIS 还是 ASP NET 如果我想直接访问此界面即不通过 Visual Studio 而是手动发送这些命令我需要知道什么它的
我需要为初级程序员进行一些简单的逻辑/编程练习[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前正在教授员工 ECMA 脚本因为维护我们使用的工作流程系统需要它并且我需要一些挑战来用作练习我们已经涵盖了大部分语言他现在非
为遗留库创建代码契约

最终目标是为驻留在我无法控制的外部程序集中的类指定契约即我不能直接向该类添加契约到目前为止我已经尝试过 ContractClassFor属性不起作用因为目标类必须指向合约类通过对自动生成的程序集进行逆向工程手动构建合同引用程序集
Bingpreview 使电子邮件中的一次性链接失效

Outlook com 似乎使用必应预览 https www bing com webmaster help which crawlers does bing use 8c184ec0爬虫来爬行电子邮件中的链接但在打开电子邮件后用户有机
GCC 选项强制执行 Ansi C 标准检查？

我应该使用哪些 gcc 选项来强制执行 ANSI C C99 警告错误 gcc GCC 3 4 2 mingw 特殊我在用着 gcc 学究式 ansi std c99 它是否正确 The ansi标志是同义词 std c89 flag
CakePHP 2.1.0：如何创建“停机维护”页面

我正在尝试实现类似的东西马克斯托里的停机维护页面 http mark story com posts view quick and dirty down for maintenance page with cakephp使用 Cake
代码中未初始化的指针

我正在学习 C 我发现指针如果未初始化可能会指向内存中的随机位置并产生内存可能被其他程序使用的问题现在如果是这种情况我们就不应该在代码的任何部分包含这一行 int ptr 相反我们应该有类似的东西 int ptr NULL Is
Spring 批处理：FlatFileItemWriter 标头从未被调用

我的 FlatFileItemWriter 回调有一个奇怪的问题我有一个自定义 ItemWriter 实现 FlatFileFooterCallback 和 FlatFileHeaderCallback 因此我在 FlatFileIte
将 Android Google Maps v2 与自定义 View 或 ImageView 结合使用

基本上我希望能够使用 Google 地图 v2 在地图上绘制雷达图像并使用良好的性能并且位图图像没有闪烁或延迟我目前正在使用 Maps v1 来执行此操作效果很好但是 Maps v2 不太适合这样做您可能认为 GroundOve
反射 - 在我自己的程序集中递归迭代对象的属性 (Vb.Net/3.5)

我想知道是否有人可以帮助我我没有做太多反思但了解基本原理我正在尝试做的事情我正在开发一个类该类收集大量有关本地系统网络等的信息用于自动错误报告我理想情况下希望能够将批次序列化为 XML 字符串并仅将其显示在文本框中而不
vue Express上传多个文件到亚马逊s3

我需要有关如何在亚马逊 S3 上上传多个文件图像的帮助我假设我有三个这样的输入
聚合实体框架中的 List Code First

我最初在聚合中使用 Enum 这对我来说工作得很好但现在当我将属性更改为 List 时我发现这些值没有在数据库中保存或检索我认为 CodeFirst 会创建一个单独的表并映射其中的行但事实并非如此值既不被存储也不被检索 Agg p
在不同数量的行上重复计算 fft

我有兴趣计算矩阵第一行的 fft 但我事先不知道需要多少行我需要重复执行此操作但需要转换的行数可能会改变我将用下面的例子来说明假设我有一个 100 x 128 的数组如果我在每一行上计划一维 fft FFTW 会生成以下计划 df
不使用 GUI 发送电子邮件 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有任何框架可以让我在不通过 GUI 的情况下发送电子邮件 Add this https githu
需要来自 swagger codegen 的注释

我需要一种方法来注释我的 openapi 3 规范以便 swagger codegen 向我的 java 类添加注释例如 JsonIgnoreProperties ignoreUnknown true 那可能吗 TIA 看来您可以利用胡
通过 WebJobs 重新排队或删除 Azure 存储队列中的消息

我希望有人能够澄清有关 Azure 存储队列及其与 WebJobs 交互的一些事情要执行重复的后台任务即添加到队列一次然后以设定的时间间隔重复是否有一种方法可以更新 QueueTrigger 函数中传递的相同消息以便可以扩展其租约
如何使用OpenCV的重映射功能？

这是 remap 最简单的测试用例 import cv2 import numpy as np inimg np arange 2 2 reshape 2 2 astype np float32 inmap np array 0 0 0 1
制作独特数组的最快方法是什么？

我有以下情况我有一大堆随机字符串应尽快使该数组变得唯一现在通过一些基准测试我发现 ruby 的 uniq 相当慢 require digest require benchmark make a nice random array of

制作独特数组的最快方法是什么？

制作独特数组的最快方法是什么？ 的相关文章

随机推荐

热门标签

制作独特数组的最快方法是什么？的相关文章