如何查找 MASSIVE 数组中哪些项出现多次？

2024-04-15

这是一个非常简单的问题；哪些项目在列表中出现多次？

array = ["mike", "mike", "mike", "john", "john", "peter", "clark"]

正确答案是["mike", "john"].

看来我们只能这样做：

array.select{ |e| ary.count(e) > 1 }.uniq

问题解决了。可是等等！如果数组真的很大怎么办：

1_000_000.times { array.concat("1234567890abcdefghijklmnopqrstuvwxyz".split('')) }

碰巧我需要弄清楚如何在合理的时间内做到这一点。我们谈论的是数以百万计的记录。

就其价值而言，这个大型阵列实际上是 10-20 个较小阵列的总和。如果比较这些更容易，请告诉我 - 我被难住了。

我们谈论的是每个文件 10,000 到 10,000,000 行，数百个文件。

做类似的事情

items = 30_000_000

array = items.times.map do
  rand(10_000_000)
end

puts "Done with seeding"
puts
puts "Checking what items appear more than once. Size: #{array.size}"
puts

t1 = Time.now
def more_than_once(array)
  counts = Hash.new(0)
  array.each do |item|
    counts[item] += 1
  end

  counts.select do |_, count|
    count > 1
  end.keys
end

res = more_than_once(array)
t2 = Time.now


p res.size
puts "Took #{t2 - t1}"

为你工作？

在我的机器上持续时间约为40秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

ruby

performance

Sorting

unique

如何查找 MASSIVE 数组中哪些项出现多次？的相关文章

从现有数组创建新结果

如果我有一个如下所示的示例数据我需要从结果数组中获取 FinalResult 数组 let result type Science link www educatorsector com type Sports News link www
在 Ruby 中获取 system() 调用的输出

如果我使用调用命令内核系统 http ruby doc org core 2 2 0 Kernel html method i system在 Ruby 中如何获取其输出 system ls 我想扩展和澄清混沌的答案 https sta
连接表时，rails 在访问连接表中的字段时无论如何都会发出额外的请求

我有公司表和城市表公司属于城市我的数据库架构的一部分是 create table companies force true do t t string title default null false t string address
在 AS3 中将 Little-endian ByteArray 转换为 Big-endian

AS3中如何将Little endian ByteArray转换为Big endian 我将 bitmapData 转换为 Big endian ByteArray 然后使用 Adob e Alchemy 将其推入内存然后当我从内存中读取
将 linq 查询转换为字符串数组 - C#

将单列 linq 查询转换为字符串数组的最有效方法是什么 private string WordList DataContext db new DataContext var list from x in db Words orderby
PHP数组转SQL

array array 53 gt array num gt 20 name gt aaa 10 gt array num gt 20 name gt bbb sql 插入数据 id num name 值 53 20 aaa 10 20 b
从 mongoDB 数组中获取特定元素[重复]

这个问题在这里已经有答案了我有像下面这样的 mongo 集合 auther xyz location zzz books book1 b1 date 2 3 00 book1 b2 date 4 9 00 auther pqr locat
为什么这个 require 从 rake 中失败但在显式运行时成功？

帮助我理解为什么这个项目的测试在直接执行时运行但在通过 rake 运行时不运行通过 Rake TestTask 运行时出现错误 Execute test home myockey rvm rubies ruby 1 9 2 p136 b
堆和栈数据访问性能对比

众所周知的常识是对于大多数算法来说在堆栈上分配和释放数据比在堆上分配和释放数据要快得多在C 中代码的区别就像 double foo n n vs double foo new int n n 但是当访问和计算位于堆或堆栈上的数据时
使用概率选择数组值

我还有一个作业要做那就是从黄色蓝色和红色中随机选择一种颜色概率为黄色 3 7 蓝色 1 7 红色 3 7 我知道我可以通过使用类似的方法来解决这个问题黄黄黄蓝红红红但我认为这在编程上不是很好因为当我碰巧发生这种情况时我将不
如何使该月的日期按照每天打印（例如：Su Mo Tu We...等）？

我有一个包含数字 1 31 的大字符串我怎样才能将月份的名称居中 My code class Month attr reader month year def initialize month year month month year
Java 中的原始数组如何与 new for every 循环一起使用？

我知道 new for every 循环适用于 Iterable 和数组但我不知道使用数组时幕后的情况谁能帮助我理解这一点提前致谢 int number new int 10 for int i number 该循环相当于 for i
Rails：如何自动完成名称搜索但保存 ID？

我用过这个视频http railscasts com episodes 102 auto complete association revised http railscasts com episodes 102 auto complete
需要“Ruby 编程语言”中的反射示例帮助

在这个例子中来自Ruby 编程语言第270页我很困惑为什么instance eval示例代码最后一行的方法定义一个类方法 called String empty 你不使用class eval定义一个类方法并instance eval当你
删除数组中的第 m 个元素

给定一个大小为 n 的数组我需要编写一个函数删除数组中的每个 m 个元素直到数组中仅存在一个元素并返回该值有人可以给我提示吗听起来你正试图解决这个问题约瑟夫问题 http en wikipedia org wiki Josephu
大虾PDF压缩，压缩内容流，它是做什么用的

虾 gem 有一个初始化选项 compress 描述的是here http www rubydoc info github sandal prawn Prawn 2FDocument 3Ainitialize 显然它 Compresses
Ruby 中类单例方法的方法查找

我的印象是obj method导致 ruby 寻找method thusly Look in obj的单例类查看包含的模块obj的单例类 Look in obj的班级查看包含的模块obj s class 对类的超类重复步骤 3 和 4
jquery中元素+ ID vs 只有ID？

div some id将扫描整个 DOM 中的所有 div some id将直接从 DOM 获取 ID 那么哪个更快呢 div some id or some id See 优化选择器 https learn jquery com perf
App Engine Cron 作业始终返回 HTTP 状态代码 301

我已关注本指南 https cloud google com appengine docs flexible ruby scheduling jobs with cron yaml为我的 Rails 应用程序创建 cron 作业但 HTT
在Matlab中将矩阵中的元素i,j设置为i*j

我想生成一个矩阵其中 i j 元素等于 i j 其中 i j e g 0 2 3 2 0 6 3 6 0 到目前为止我已经发现我可以使用这个索引矩阵访问非对角线元素 idx 1 eye 3 但我还没有弄清楚如何将矩阵单元的索引合并到计算

随机推荐

当用户更改活动进程时触发事件

当程序用户将活动窗口更改为不同进程的窗口时是否有一个事件或创建事件的方法会触发如果没有这样的事件那么制作类似的东西的最佳方法是什么我目前有一个每 3 秒运行一次 Process GetCurrentProcess 的计时器但我正在
dll 中的 Delphi 表单

将具有完整功能的Form放在dll中是个好主意吗主应用程序将调用返回表单对象的 dll 函数在 Delphi 中执行此操作的公认方法是使用包而不是 DLL 包本质上是 DLL 但具有 Delphi 特定功能允许跨包边界使用 VCL 对
当增量值重新开始时如何排除行？

我是一个新手海报但花了很多时间在这里研究答案我不太清楚如何使用 SQL Server 2008 R2 创建 SQL 结果集它可能应该使用更现代版本的超前滞后我试图根据一列的排序来聚合数据但每个序列中可能有不同数量的实例我知道序
是否可以在远程 ssh 命令中使用变量？

我想在远程计算机上按顺序执行多个命令并且后面的一些命令依赖于前面的命令在最简单的例子中我得到了这个 ssh my server echo this is my server abc 2 this is my server abc 2
如何使用 moment.js 获取 2 个日期（以年、月和日为单位）之间的差异

如何使用 moment js 获取以年月和日为单位的 2 个日期之间的差异例如之间的区别4 5 2014 2013年2月22日应计算为1年1月14天 Moment js 无法直接处理这种情况它确实允许您获取两个时刻之间的差异但结果是
jQuery 验证错误放置

这有效 id zzz rules add required true minlength 8 messages required minlength jQuery format 出现错误消息当我尝试设置消息样式时这不起作用 id zzz
如何在 Xamarin.Forms 中获取 iOS 和 Android 的辅助功能字体大小，以便我可以更改 HTML WebView 中的字体大小？

我试图允许 Xamarin Forms WebView 中的 HTML 字体大小根据用户的可访问性大文本设置来增加减小大小我想做以下事情 1 从 iOS 和 Android 的辅助功能大文本选项中获取文本选项标题正文说明文字等
Python扭曲：如何调度？

在 Twisted 中有 1 天的经验我尝试安排消息发送以回复 tcp 客户端 import os sys time from twisted internet import protocol reactor self scenario
TCL - 使用正则表达式获取另一个字符串中由空格分隔的字符串列表

如何在 TCL 中编写匹配单词和空格的正则表达式例如我有 aaaa bbbb cccc 我想匹配 aaaaa bbbb cccc 另外请告诉我空白和非空白的正则表达式符号是什么我到处都找不到它 Thanks 我的想法是只搜索单词字符的分
Django Rest Framework 过滤计算模型属性

抱歉有一个新手问题我有以下模型 class WeightSlip models Model grossdate models DateTimeField auto now False auto now add False grosswe
在IOS MapView中，是否有注释标题回调函数或设置目标的方法？

我正在显示一个自定义 MKAnnotationView 单击时会显示标题我知道我可以使用 void mapView MKMapView mapView didSelectAnnotationView MKAnnotationView vi
Rails：是否可以向 has_and_belongs_to_many 关联添加额外的属性？

我的意思是如果我有两个模型通过 has and belongs to many 关联连接我可以在每个关联的连接表中存储其他数据吗也就是说额外的数据不会成为任一表中单个记录的一部分而是它们之间的连接我的实际模型如下 class
为什么 MenuItemCompat.getActionProvider 返回 null？

我尝试在我的应用程序的操作栏上使用 android support v7 widget ShareActionProvider 所以我按照 android 文档中的示例进行操作但遇到了一些问题这是我的菜单 xml menu menu
当我尝试使用“make”安装某些东西时，为什么我的权限被拒绝？

我正在尝试安装一些东西但它抛出了一个错误 Permission denied当我尝试跑步时make on it 我不太喜欢unix linux的通用规则也不太喜欢用户权限我最好的猜测是我登录的用户没有运行权限make命令但希望这是其
CLR 存储过程：如何设置架构/所有者？

我正在开发一个基于 Linq 的 CLR 存储过程用于一些复杂的过滤和操作否则如果在更传统的存储过程中实现则需要大量混乱且性能较差的 T SQL 代码这工作得很好但我找不到如何在部署阶段设置此存储过程的架构以便更好地组织和分
正则表达式提取电子邮件

我只需要从 Excel 电子表格中提取电子邮件我在 StackOverflow 上找到了一些示例 VBA 代码link https stackoverflow com questions 22542834 how to use regul
是否有 AWS 入站策略会干扰“授权：持有者 {token}”数据？ [复制]

这个问题在这里已经有答案了上面的问题是与这些链接相关的线程 Link 1 https stackoverflow com questions 62673139 anonymoususer object has no attribute i
使用参数时内联汇编混乱

我正在 x86 64 Linux 上试验 Rust 的内联汇编功能我写了一个简单的程序调用exit值为 23 的系统调用 feature asm fn main unsafe asm mov 60 rax mov 23 rdi sysc
如何在Python中使用gRPC处理自定义异常？

我需要实现自定义异常来使用 Python 处理 gRPC 请求错误对于 HTTP 请求它很简单当出现错误代码等时请求库可以很好地捕获它我正在寻找 gRPC 的类似方法来执行以下操作 try send gRPC request ex
如何查找 MASSIVE 数组中哪些项出现多次？

这是一个非常简单的问题哪些项目在列表中出现多次 array mike mike mike john john peter clark 正确答案是 mike john 看来我们只能这样做 array select e ary count e

如何查找 MASSIVE 数组中哪些项出现多次？

如何查找 MASSIVE 数组中哪些项出现多次？ 的相关文章

随机推荐

热门标签

如何查找 MASSIVE 数组中哪些项出现多次？的相关文章