最快速度求两个数组之交集算法与hash

2023-10-29

一个题目
该题目来自58同城的二面,用最快速度求两个数组之交集算法。
比如A={6,2,4,1},B={2,9,4,3},那么A&B={2,4}。
算法一:在大多数情况,也就是一般的情况下,大家都能想出最暴力的解法,通常也就是采用遍历或者枚举的办法来解决问题。
该题需要找出两个数组的交集,最简单的一个办法就是用A数组里面的所有数去匹配B数组里面的数。假设两个数组的大小都是n,那么这种遍历的时间复杂度为O(n^2)。这个也是最复杂的情况了。
算法二:通常下,除了用暴力枚举的问题,还有另外一种外万金油的解法----预处理。其实思想和C语言中的预处理一样,对数据记性归一化处理。说白了,在这里就是对数组排序。我们知道数组排序的算法时间复杂度最低是O(nlogn),可以看到数量级已经低于算法一的时间复杂度。
那么在排好序好,怎么得到数组的交集呢?
假设我们已经有了两个排好序的数组:
A={1,2,4,6}
B={2,3,4,9}
那么我们只要分别对A和B设置两个指针i,j(或者直接说是下标),进行循环,伪代码如下:
int count()
{
total=i=j=0;
while(i<n && j<n)
{
if(a[i]<b[j]) i++;
else if(a[i]>b[j])j++
else
    total++;
}
    return total;
}
时间复杂度为O(n)
综合排序的时间复杂度则整体复杂度为:O(nlogn)
算法三:如果只是会了上面两种,还只能说是计算机的菜鸟,而且一般面试或者笔试题也不会这么简单。那么比O(nlogn)时间复杂度更低的是多少呢?一般就是O(n)。我们可以思考一下计数排序的算法。也就是把两个数组A和B都遍历到一个新的数组里,然后在统计重复的数字即可,这个时间复杂度就是O(n)。当然,计数排序是有条件的,也就是要求数组内数字的范围是已知并且不是很大。
算法四:上面的算法实现简单,也很容易达到题目的要求,但是还是有一些瑕疵,也就是非完美方案,同样根据算法三我们可以想出用哈希函数或者哈希表来解决问题。也就是将数组A哈希到哈希表中,然后继续将数组B哈希到哈希表中,如果发生哈希碰撞则统计加1,最后可以得出数组的交集。时间复杂度也就是哈希所有元素的复杂度O(n)。
那么什么是哈希呢?

 Hash ,一般翻译做“ 散列” ,也有直接音译为“ 哈希” 的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不 同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

HASH 主要用于信息安全领域中加密算法,它把一些不同长度的信息转化成杂乱的128 位的编码, 这些编码值叫做HASH 值. 也可以说,hash 就是找到一种数据内容和数据存放地址之间的映射关系

例如字符串 hello 的哈希算法

char* value = "hello"; int key = (((((((27* (int)'h'+27)* (int)'e') + 27)  * (int)'l') + 27) * (int)'l' +27) * 27 ) + (int)'o' ; 。

 

  数组的特点是:寻址容易,插入和删除困难;而链表的特点是:寻址困难,插入和删除容易。那么我们能不能综合两者的特性,做出一种寻址容易,插入删除也容易 的数据结构?答案是肯定的,这就是我们要提起的哈希表,哈希表有多种不同的实现方法,我接下来解释的是最常用的一种方法—— 拉链法,我们可以理解为“ 链表 的数组” ,如图:


 

 

 

HashMap其实也是一个线性的数组实现的,所以可以理解为其存储数据的容器就是一个线性数组。这可能让我们很不解,一个线性的数组怎么实现按键值对来存取数据呢?这里HashMap有做一些处理。

 

    1.首先HashMap里面实现一个静态内部类Entry 其重要的属性有 key , value, next,从属性key,value我们就能很明显的看出来Entry就是HashMap键值对实现的一个基础bean,我们上面说到HashMap的基 础就是一个线性数组,这个数组就是Entry[],Map里面的内容都保存在Entry[]里面。

     2.既然是线性数组,为什么能随机存取?这里HashMap用了一个小算法,大致是这样实现:

 

Java代码   收藏代码
  1. 存储时:  
  2.   
  3. int hash = key.hashCode();--> 这个hashCode方法这里不详述,只要理解每个key的hash是一个固定的int值  
  4.   
  5. int index = hash % Entry[].length;  
  6.   
  7. Entry[index] = value;  
  8.   
  9. 取值时:  
  10.   
  11. int hash = key.hashCode();  
  12.   
  13. int index = hash % Entry[].length;  
  14.   
  15. return Entry[index]  
 

到这里我们轻松的理解了HashMap通过键值对实现存取的基本原理

    3.疑问:如果两个key通过hash % Entry[].length得到的index相同,会不会有覆盖的危险?

这里HashMap里面用到链式数据结构的一个概念.上面我们提到过Entry类里面有一个next属性,作用是指向下一个Entry。打个比方, 第一个键值对A进来,通过计算其key的hash得到的index=0,记做:Entry[0] = A.一会后又进来一个键值对B,通过计算其index也等于0,现在怎么办?HashMap会这样做:B.next = A,Entry[0] = B,如果又进来C,index也等于0,那么C.next = B,Entry[0] = C;这样我们发现index=0的地方其实存取了A,B,C三个键值对,他们通过next这个属性链接在一起。所以疑问不用担心。

到这里为止,HashMap的大致实现,我们应该已经清楚了。

当然HashMap里面也包含一些优化方面的实现,这里也啰嗦一下。

比如:Entry[]的长度一定后,随着map里面数据的越来越长,这样同一个index的链就会很长,会不会影响性能?

HashMap里面设置一个因素(也称为因子),随着map的size越来越大,Entry[]会以一定的规则加长长度。

 

 

解决hash冲突的办法

1)开放定址法(线性探测再散列,二次探测再散列,伪随机探测再散列)

2)再哈希法

3)链地址法

4)建立一 公共溢出区

 

java 中hashmap的解决办法就是采用的链地址法。



本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

最快速度求两个数组之交集算法与hash 的相关文章

  • 为什么有些哈希值使用大括号初始化,有些哈希值使用圆括号初始化?

    我正在查看以下演示嵌套哈希的代码 my HoH flintstones gt husband gt fred pal gt barney jetsons gt husband gt george wife gt jane his boy g
  • Bool.hashValue 转换为 Int 有效吗?

    在某些情况下和一些代码我看到hashValue用于转换Bool to Int 然而 代码 let someValue true let someOtherValue false print someValue hashValue print
  • Ruby 数组上未定义的方法“to_h”

    As per Ruby 数组文档 http ruby doc org core 2 2 0 Array html method i to h 有一个方法to h只要数组的每个元素是另一个包含两个元素的数组 就可以使用它将数组转换为哈希 以下
  • C++11:是否有一些原因导致某些常规类型不应该专门化`std::hash`?

    对于常规类型 我的意思是 Stepanov 的定义编程要素基本上 存在相等的概念 并且作为彼此副本的对象比较相等 所以当你有常规类型时T 并且等式关系是传递的 a b b c gt a c 你可以定义一个 不平凡的 符合等式定义的哈希函数
  • 获取文件哈希性能/优化

    我正在尝试尽快获取文件的哈希值 我有一个程序 可以对大量数据 100GB 进行哈希处理 这些数据由随机文件大小 每个文件从几KB到5GB 组成 跨少量文件到数十万个文件 该程序必须支持所有 Java 支持的算法 MD2 MD5 SHA 1
  • 使用未定义常量 CRYPT_SHA512

    我使用一个 php 脚本 该脚本使用 php 的 crypt 并使用 SHA512 对密码进行哈希处理 但是当我尝试检查 SHA512 是否已设置时 出现上述错误 当然我知道为什么我会收到这个错误 php 缺少一些依赖项 我只是不知道这种依
  • 在Ruby中,如何从具有值的哈希中提取键

    当我写下这段文字时 我以为我是一个 Ruby 巨人 having this hash hash Portugal gt 1 France gt 2 USA gt 3 country id comes from input country n
  • 如何从 PHP 字符串中获取 64 位整数哈希值?

    我需要 64 位字符串整数哈希值来实现哈希映射之类的功能 在我看来 没有可以返回 64 位整数的原生 PHP 哈希功能 我认为可以获取 sha1 哈希值的第一部分并将其转换为整数 然而 这不会带来最好的性能 而且转换似乎很棘手 当然 如果不
  • set 中的哈希表在 python 中如何工作?

    据我所知 set在python中通过哈希表来实现O 1 查找复杂度 虽然它是哈希表 但其中的每个条目set必须是可散列的 或不可变的 所以这种和平的代码引发了异常 gt gt gt dict Traceback most recent ca
  • 散列到分组数组中

    我对 ruby 的经验不是很丰富 所以我正在努力格式化一段数据 我有这个哈希 其中包含一些具有相同值的键 例如 key gt value1 key2 gt value2 key3 gt value3 key4 gt value1 key5
  • MacOS X 上使用 crypt 进行 Python SHA512 加盐密码

    我正在尝试生成加密的密码字符串 类似于Linux中的 etc shadow 由于某种原因 我得到的输出是不同的 我有什么想法吗 一个比另一个长 不包括盐部分 usr bin python import crypt alg 6 SHA512
  • 对于范围从 0 到最大值的 uint64_t 键,最佳哈希函数是什么?

    假设我们有一组元素并希望将它们存储在哈希映射中 例如std unordered set 并且每个元素都有一个 type 的键uint64 t其值可以从 0 到最大可能值变化 使用简单哈希函数 其中键的哈希值就是键本身 是最佳选择吗 它是否取
  • 如何按值降序对哈希进行排序并在 ruby​​ 中输出哈希?

    output sort by k v v reverse 和钥匙 h a gt 1 c gt 3 b gt 2 d gt 4 gt a gt 1 c gt 3 b gt 2 d gt 4 Hash h sort 现在我有这两个 但我试图按值
  • Rails 4 - 将地址保存为数据库中的一列

    我是 Rails 新手 正在开发一个简单的应用程序 我的 ERD 中有一个名为 Client 的模型 并且希望保存每个客户的地址 我最初的想法是将地址保存为单独的字段 即 rails g model Client address first
  • 在同步函数中使用 javascript `crypto.subtle`

    在javascript中 是否可以使用浏览器内置的sha256哈希 https developer mozilla org en US docs Web API SubtleCrypto digest Converting a digest
  • 什么时候使用哈希表?

    什么情况下使用哈希表可以提高性能 什么情况下不能 哪些情况不适合使用哈希表 什么情况下使用哈希表可以提高性能 什么情况下不能 如果您有理由关心 请使用哈希表和您正在考虑的其他任何内容来实现 将您的实际数据放入其中 并衡量哪个性能更好 也就是
  • 防止 .exe 时间戳发生变化

    有谁知道如何防止可执行文件的时间戳更改 我正在尝试为 exe 生成一致的哈希代码 但我认为时间戳可能会阻止这种情况发生 每次我重新编译代码 VS C 时 FastSum 都会生成不同的校验和 Thanks PE 文件格式 如 EXE 中 具
  • 哈希上的多次迭代:这不会减少熵吗?

    我看到在很多地方 包括堆栈 都推荐了这种技术 而且我无法摆脱这种技术会减少熵 毕竟 您正在再次对已经被散列过并且有碰撞机会的东西进行散列 碰撞机会大于碰撞机会会不会导致更多的碰撞机会 经过研究 似乎我错了 但为什么呢 既然您标记了 md5
  • 如何将文件的元素放入哈希中? -红宝石

    所以我有一个以下形式的文件 Key1 Value1 Key2 Value2 Key3 Value3 用制表符分隔 我的问题是如何打开这个文件并将其放入哈希中 我曾尝试这样做 fp File open file path fp each do
  • javascript:完全删除top.location.hash?

    如果我的地址栏中已经有一个哈希值 例如domain com whatever 我打电话 top location hash wathever 被转换为domain com 没有任何内容 是否可以完全删除哈希值 所以没有 left 因为如果我

随机推荐

  • sockjs-node请求一直报错

    今天在运行本地项目时候 一直提示sockjs node info 请求失败 我一直在想本地并没有这个请求接口 这个是哪里来的 后来经过查阅资料发现 sockjs node 是一个JavaScript库 提供跨浏览器 JavaScript 的
  • 蓝桥杯省赛2021 回路计数 python

    题目描述 蓝桥学院由 21栋教学楼组成 教学楼编号 1 到 21 对于两栋教学楼 a 和 b 当 a 和 b 互质时 a和 b之间有一条走廊直接相连 两个方向皆可通行 否则没有直接连接的走廊 小蓝现在在第一栋教学楼 他想要访问每栋教学楼正好
  • python实现onvif客户端及问题小结

    python实现onvif客户端及问题小结 文章目录 python实现onvif客户端及问题小结 1 前言 2 python onvif安装及ptz示例 2 1 openwrt下安装pip及python onvif 2 2 ptz示例 3
  • 公众号一次性订阅消息

    洛塔服务号回复007获取代码 功能说明 之前发布通知 要用订阅通知替代一次性订阅消息 不知道是被骂的太惨还是技术原因 一次性订阅消息还是一直能用 和模板消息不同的是 一次性订阅消息无需用户关注公众号 但是必须用户点击同意发送才能接收消息 模
  • 面试被问Spring Boot自动配置原理,答不出来?

    我们知道 Spring Boot 项目创建完成后 即使不进行任何的配置 也能够顺利地运行 这都要归功于 Spring Boot 的自动化配置 Spring Boot 默认使用 application properties 或 applica
  • 1.7 C++ struct class

    c 中 struct 内可以定义函数 c不可以 定义时 可以省略struct关键字 可以对成员加入访问权限 private protected public 如何对private和protected 进行外部赋值和访问 set 和get方法
  • selenium跳转新页面定位

    1 获取当前页面 跳转过来的页面 句柄 self driver window handles 1 2 切换窗口 self driver switch to window self driver window handles 1 3 sele
  • C语言二维数组作为形参传递问题

    问题 今天想用一个二维字符串数组保存字符串 在参数传递过程中发现返回的结果不对 上网一搜 发现二维数组作为形参传递不像一维数组那么简单 请看以下详细分析 异常代码 int StrCut char pinput char ppOut char
  • 1477 找两个和为目标值且不重叠的子数组

    题目描述 给你一个整数数组 arr 和一个整数值 target 请你在 arr 中找 两个互不重叠的子数组 且它们的和都等于 target 可能会有多种方案 请你返回满足要求的两个子数组长度和的 最小值 请返回满足要求的最小长度和 如果无法
  • Linux/Windows备份数据库

    使用场景基于SpringBoot 简单的记录下 比较粗糙 工具类 public static int backupMysql String host String root String pwd String dbName String b
  • 如何在 Linux 上安装、启动和卸载 Lotus Notes 8.5

    http tech ddvip com 2010 04 1271908410152075 html 安装之前的准备工作 在 Linux 客户机上安装 IBM Lotus Notes 8 5 之前 应了解以下信息 客户机配置要求 表 1 No
  • Spark

    1 Spark架构设计 1 1架构设计图 1 2 相关术语名词解释 1 RDD Resillient Distributed DataSet 弹性分布式数据集 是对数据集在Spark存储和计算过程中的一种抽象 是一组制度 可分区的分布式数据
  • 【Docker】docker bash: sudo: command not found

    1 背景 mac下安装了docker 然后用docker 安装了grafana软件 然后进入grafana base lcc lcc prometheus docker exec it 4b5f517f4340 bash grafana 4
  • 【经典】SpringBoot自定义配置信息

    当我们系统中为方便管理 会定义一些自定义配置项 方便系统的管理和维护 在SpringBoot中 有两种方式可以进行自定义配置 Value 进行单个属性的注入 ConfigurationProperties 类型安全加载 Value方式注入
  • C语言取出一个长整型数中的偶数并构成一个新数案例讲解

    思路分析 1 本题的难点在于 如何把一个长整型数中每一位上的数依次取出 可以使用while循环对整数中的每一位进行取模操作 取出最后一位数 然后把这个数保存到一个数组中 并用除法去掉最后一位数 循环遍历直到一个整数中的每一位都被取出并依次保
  • GitKraken中push时,报ssh key的错误

    问题 configured ssh key is in an invalid format please ensure that your key is valid and is an rsa type key 解决方案 1 GitKrak
  • 卓越性能代码_Win10如何开启卓越模式?学会输入这串代码,电脑性能大幅提升...

    自己的电脑性能如何总是被用户所关注的 那么今天就是来给大家介绍一个Win10的模式 输入一串代码后即可开启该模式 卓越模式 该模式开启之后 完全可以用来代替 高性能 模式 尤其是对于喜欢超频 玩硬件的用户来说还是比较推荐使用的 比较该模式下
  • 新手如何在IEEE上发表论文?

    IEEE 也就是美国电子与电器工程师学 Institute of Electrical and Electronics Engineers 是一个国际性的电子技术与信息科学工程师的学术组织 其会员人数超过40万人 遍布160多个国家 是世界
  • Spring Boot配置MySQL多数据源

    1 导读 在日常开发中我们都是以单个数据库进行开发 在小型项目中是完全能够满足需求的 但是 当我们牵扯到像淘宝 京东这样的大型项目的时候 单个数据库就难以承受用户的CRUD操作 那么此时 我们就需要使用多个数据源进行读写分离的操作 这种方式
  • 最快速度求两个数组之交集算法与hash

    一个题目 该题目来自58同城的二面 用最快速度求两个数组之交集算法 比如A 6 2 4 1 B 2 9 4 3 那么A B 2 4 算法一 在大多数情况 也就是一般的情况下 大家都能想出最暴力的解法 通常也就是采用遍历或者枚举的办法来解决问