在非常大的数组中查找重复项的算法

2024-04-21

在一次技术面试中得到了这个问题。我知道使用（在java中）HashSet解决这个问题的方法。

但当面试官强行说出“”这个词时，我无法理解一个非常大的数组，假设给定数组中有 1000 万个元素".

我需要改变方法吗？如果不是，实现这一目标的效率应该是多少？

PS：算法或实现与语言无关。

谢谢。

有一些关键的事情，面试官希望你回答这样的问题：如果你无法将数组加载到内存中，那么how much I can load。解决问题的步骤如下：

您需要根据可用内存量来划分数组。
假设您一次可以加载 1M 个数字。您已将数据拆分为k parts。您加载前 1M 并构建Min Heap它的。然后取下顶部并应用HeapifyMin Heap.
对数据的其他部分重复相同的操作。
现在你将有 K 个已排序的分割。
现在从每个 K 分割中获取第一个数字，并再次构建一个Min Heap.
现在将顶部从Min Heap并将值存储在temporary variable以及与下一个即将到来的数字进行比较以查找重复项。
现在，从上次删除编号的同一分割（部分）中获取下一个编号。把这个数字放在上面Min Heap并应用Heapify。
现在最上面的Min Heap是你的下一个排序数字并将其与temporary variable for finding the duplicates. Update the如果数字不重复，则为临时变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

Java

python

c

Algorithm

在非常大的数组中查找重复项的算法的相关文章

OpenMP 和 C++：this 指针

Is thisOpenMP 中始终共享指针尽管编译器不会抱怨以下代码default none pragma omp parallel for default none shared n for SInt i 0 i lt n i f i
iframe 内 Web 元素的 QuerySelector

编辑新标题我正在寻找的是 iframe 内元素的 document querySelector 我已经用谷歌搜索了很多答案最后我被难住了我正在尝试在 iframe 内查询我正在构建要在 Selenium 中使用的字符串选择器通常
cmake 包括其他目录中的 h 文件

我在 cmake 项目下进行测试时遇到问题我的项目是这样安排的 TerrainMap PointAccumulator heightQuadGrid Test 在 TerrainMap 目录中 CMakeLists txt 文件简单地概述
添加鼠标事件到svg ，检测网格悬停

我有一个有点复杂的问题我正在尝试通过 svg 渲染网格然后将事件侦听器添加到网格中目前我正在通过渲染网格
如何在控制台程序中获取鼠标位置？

如何在 Windows 控制台程序中用 C 获取鼠标单击位置点击时返回鼠标位置的变量我想用简单的文本命令绘制一个菜单这样当有人点击时游戏就会注册它并知道位置我知道如何做我需要做的一切除了单击时获取鼠标位置您需要使用 Conso
为什么.net中的数组只实现IEnumerable而不实现IEnumerable？

我正在实现自己的 ArrayList 类当我意识到这一点时我感到很惊讶 public System Collections Generic IEnumerator
随机排列

我无法找到一种随机洗牌元素的好方法std vector经过一些操作后恢复原来的顺序我知道这应该是一个相当简单的算法但我想我太累了由于我被迫使用自定义随机数生成器类我想我不能使用std random shuffle 无论如何这没有帮
iOS 6 上的 Safari 是否缓存 $.ajax 结果？

自从升级到 iOS 6 以来我们看到 Safari 的网页视图擅自缓存 ajax来电这是在 PhoneGap 应用程序的上下文中因此它使用 Safari WebView 我们的 ajax电话是POST方法并且我们将缓存设置为 fals
如何查明我的字符串是否包含“micro”Unicode 字符？

我有一个包含实验室数据的 Excel 电子表格如下所示 g L ppb 我想测试希腊字母是否存在如果发现我需要做一些特别的事情通常我会写这样的东西 if cell StartsWith matchSequence lt unive
如何使用 google.oauth2 python 库？

我试图对谷歌机器学习项目的安全预测端点进行简单的休息调用但它找不到 google oauth2 模块这是我的代码 import urllib2 from google oauth2 import service account Cons
Pandas - 过滤器和正则表达式搜索 DataFrame 的索引

我有一个 DataFrame 其中列是 MultiIndex 索引是名称列表即index Andrew Bob Calvin 我想创建一个函数来返回数据帧中使用名称 Bob 或以字母 A 开头或以小写字母开头的所有行如何才能做到这一点
为什么 asmjs 代码即使在 Firefox 中也较慢？

我创建了一个 jsPref 来测试这个 asm js 的东西 http jsperf com asm diag http jsperf com asm diag 我想我做错了什么因为asmjs代码的运行速度比常规js代码慢两倍即使在fi
AllowUserToAddRows 不适用于 DataGridView 上的 List<> 数据源

我有一个DataGridView与DataSource set to List
Python 和 Visual Studio Code - 如何在编辑器中运行特定文件？

我正在使用 Visual Studio Code 和 Python 编写一个小型应用程序我的应用程序有两个文件 Main py and MyCustomClass py Main py是应用程序的入口点 MyCustomClass py包
从java小程序获取正确的本地IP地址

我想从我的 java 小程序确定本地 IP 地址问题是当同一台机器上有多个 IP 地址时该机器具有 LAN 和互联网连接掌上电脑 VMWare 这是我的测试 public static void main String args tr
如何获取数字列的确切类型，包括。规模和精度？

有没有办法知道列中列的确切类型DataTable 现在我正在这样做 DataTable st dataReader GetSchemaTable foreach DataColumn col in st Columns var type c
在 Groovy 中将整数转换为 BigDecimal

假设我们有一个 groovy 函数作为参数BigDecimal void func BigDecimal bd 并在 groovy 的其他课程中再次调用它var func 0 这工作正常但在 java 中它根本无法编译我知道有一个构造函
QT C++ QRegularExpression 多个匹配

我想使用正则表达式从 QString html 中提取信息我明确想使用正则表达式无解析器解决方案和类Q正则表达式 http qt project org doc qt 5 0 qtcore qregularexpression htm
为什么 Pytest 对夹具参数执行嵌套循环

使用 Pytest 我想编写一个测试函数该函数接受多个装置作为参数每个灯具都有几个参数例如 test demo py 中是一个函数test squared is less than 10需要固定装置 negative integer
Jquery 脚本可以在 JSfiddle 中运行，但不能在 html 页面上运行

我创建了一个JSFiddle http jsfiddle net defjam64 w4sGZ 4 其按预期工作 Jquery script function icon hover gcp icon hover function gcp i

随机推荐

寻找优秀、可靠玩家的算法

我有以下玩家每个值对应于给定游戏中正确答案百分比的结果 players array A gt array 0 0 0 0 B gt array 50 50 0 0 C gt array 50 50 50 50 D gt array 75
从另一个 Jenkinsfile 调用远程 jenkins 文件

我正在我的组织中设计 Jenkins CICD 管道我有以下问题我来自一个 DevOps 团队负责控制多个开发团队的 Jenkins 管道我基本上想编写一个具有多个阶段的 Jenkins 文件可以由多个团队运行据我所知这个 J
两个列表中的公共元素

我有两个ArrayList每个对象都有三个整数我想找到一种方法来返回两个列表的共同元素有人知道我该如何实现这一目标吗 Use Collection retainAll https docs oracle com en java java
如何查找正在执行的 AppleScript 的文件名

如何找到正在执行的 AppleScript 的名称原因我想创建一个根据文件名更改其行为的脚本就像是 if myname is Joe then ACTION1 else if myname is Frank then ACTION2
Python 的 re 模块 - 保存状态？

我发现 Python 中最大的烦恼之一是无法re模块来保存其状态而无需在匹配对象中显式执行此操作通常人们需要解析行如果它们符合某个正则表达式则通过相同的正则表达式从中取出值我想写这样的代码 if re match foo w b
Google Chrome 警告：密码表单应包含（可选隐藏）用户名字段以方便访问

当访问我的单页应用程序的重置密码路径并查看 Chrome 浏览器控制台时我收到以下警告 DOM 密码表单应具有可选择隐藏用户名字段以方便访问更多信息 goo gl 9p2vKq
如何解决 Yelp API 调用中的 CORS 错误？

我尝试使用 AJAX 调用 Yelp Fusion API 但出现以下错误有人可以帮我弄清楚这里发生了什么事吗 api yelp com v3 1 加载资源失败服务器响应状态为 403 index html 1 从源 null 访问 h
我应该使用哪些 gdb 命令来缩小标签“main”中出现分段错误的位置？

这是我的汇编代码和我的主要子例程这是我的宏和常量 text fmt string x t t ln x n sfmt string 10lf t 10lf n error string Error filename string inpu
同一 IP 443 端口中的多个域

我在 IIS 7 的端口 443 https 上托管了一个网站 www example1 com 现在我为同一 IP 的 www example2 com 购买了一个新域我想在此域中托管另一个网站 www example2 com htt
Jquery 获取具有特定类的第 n 个子级

我有一个 html 表如下 table tr td class take 1 td td 2 td td 3 td td class take 4 td td 5 td td class take 6 td tr tr td class t
如何在 Java 8 中组合不同的流

我有一个Set
在代码中添加一个定时器，然后循环它

尝试找到一种方法将计时器添加到我的代码中然后用计时器不断循环它例如尝试通过单击按钮来制作物品然后等待 5 秒以使其制作然后只要我有材料它就会自动开始再次制作依此类推我环顾四周的教程但未能找到我一直在寻找的东西这是我想要循
专门针对右值的 std::swap

在标准 20 2 2 utility swap 中 std swap 是为左值引用定义的我知道这是当你想交换两件东西时的常见情况但是有时交换右值是正确且可取的当临时对象包含引用时如下所示交换临时引用元组 https stacko
如何仅定义自定义产品类型的字段 - Woo Commerce Hook

我的代码显示在所有产品类型中例如简单产品可变产品自定义类型手段适用于所有人但我想将其限制为仅适用于我的自定义类型如何将自定义字段类型限制为英语课程产品类型 add filter product type selector eng
Tensorflow 中多维时间序列预测中的向量表示

我有一个大型数据集约 3000 万个数据点具有 5 个特征我已使用 K 均值将其减少到 200 000 个集群数据是大约 150 000 个时间步长的时间序列我想要训练模型的数据是每个时间步上特定簇的存在预测模型的目的是生成一个
将 Ajax JQuery 选择器保存在数组中

我对 Ajax 非常陌生需要帮助将 Ajax 请求中的数据存储到数组中我在论坛上查看了答案但无法解决我的问题 Ajax 响应正在进入 responseField val format output response 我想将 outpu
等待多个 future 的回调

最近我深入研究了一些使用 API 的工作该API使用Unirest http库来简化从网络接收的工作当然由于数据是从 API 服务器调用的因此我尝试通过使用对 API 的异步调用来提高效率我的想法结构如下通过返回 future
JDK 17：Switch 语句导致 java.lang.VerifyError：操作数堆栈上的类型错误

刚刚在 Eclipse 2021 09 上尝试了 JDK17 结果失败并显示java lang VerifyError 这本身并没有多大帮助我追踪到了一个 switch 语句它被提供了一个从 a 中取出的值Map或其他泛型类型如果我在
React-native cli 和带有 Bare 工作流程的 Expo 有什么区别？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我将构建一个具有多种复杂功能的非常大的应用程序但我坚持以下几点 React native cli 和带有 Bare 工作流程的 Expo 有什
在非常大的数组中查找重复项的算法

在一次技术面试中得到了这个问题我知道使用在java中 HashSet解决这个问题的方法但当面试官强行说出这个词时我无法理解一个非常大的数组假设给定数组中有 1000 万个元素我需要改变方法吗如果不是实现这一目标的效率应该是

在非常大的数组中查找重复项的算法

在非常大的数组中查找重复项的算法 的相关文章

随机推荐

热门标签

在非常大的数组中查找重复项的算法的相关文章