如何选择哈希表的大小？

2024-01-01

假设我有 200.000 个单词，我将使用hash*33 + word[i]作为哈希函数，为了最小化内存/分页问题，优化表的大小应该是多少？

使用的平台-C（c99版本），

单词是英文字符单词，ASCII值

哈希表的一次初始化（链表式的桶），

用于下一步搜索，如字典搜索。

碰撞后，该单词将作为新节点添加到存储桶中。

一个好的经验法则是将负载因子保持在 75% 或更低（有人会说 70%），以维持（非常接近）O(1) 查找。假设你有一个好的哈希函数。

基于此，您至少需要大约 266,700 个存储桶（对于 75%），或者对于 70% 需要 285,700 个存储桶。这是假设没有碰撞的情况。

也就是说，最好的选择是使用不同哈希表大小的一些样本数据运行测试，看看会发生多少次冲突。

您可能还可以考虑比以下更好的哈希函数hash*33 + word[i]. The 詹金斯哈希 http://en.wikipedia.org/wiki/Jenkins_hash_function及其变体需要更多的计算，但它们提供了更好的分布，因此通常会减少冲突并减小所需的表大小。

你也可以只用记忆来解决这个问题。表大小为 500,000 时，最小负载系数为 40%，这可以弥补哈希函数的缺点。然而，你很快就会达到收益递减的地步。也就是说，将表大小设置为 100 万，理论负载系数为 20%，但几乎可以肯定您实际上不会意识到这一点。

长话短说：使用更好的哈希函数并在不同的表大小下进行一些测试。

有这样一种东西最小完美哈希 http://en.wikipedia.org/wiki/Perfect_hash_function#Minimal_perfect_hash_function。如果您知道输入数据是什么（即它不会改变），那么您可以创建一个保证 O(1) 查找的哈希函数。它也非常节省空间。然而，我不知道为 200,000 个项目创建一个最小的完美哈希会有多困难。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何选择哈希表的大小？的相关文章

当从后台工作程序发生事件时，XlCall.Excel(XlCall.xlcCalculateNow) 抛出 XlCallException

我有一个 ExcelFunction 来排队一些计算 ExcelFunction public static void QueueCalcs takes ranges var calcRequests builds list of calc
从 Invoke 方法获取 RETURN

我正在尝试从另一个线程上的列表框项目中读取值我尝试创建一种新方法来运行调用命令我可以设法将命令发送到列表框例如通过调用方法添加但我似乎无法得到响应我似乎无法获取该项目的值我尝试了几种方法一旦我将它从空变为字符串事情就开始变得
EventHandler 应该始终用于事件吗？

我一直在愉快地使用自定义委托类型和通用编写事件Action委托类型没有真正考虑我在做什么我有一些很好的扩展助手Action and EventHandler这使我倾向于使用那些预定义的委托类型而不是我自己的委托类型但除此之外除了惯例
从另一个 FORM 中取回隐藏的 FORM

我有两种形式Form1 and Form2 我正在打开Form2 from Form1 on button Click Form2 obj2 new Form2 this Visible false obj2 Show 然后我想回来Form
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
虚拟并行端口模拟器

在我的计算机网络课程中我们应该通过使用本机寄存器例如使用 outportb 等命令来学习并行端口编程我没有并行端口因为我住在 2011 年但想练习这些程序我使用 dosbox 安装了旧的 Turboc 3 IDE 有没有一个程
关闭整数的最右边设置位

我只需要关闭最右边的设置位即可我的方法是找到最右边位的位置然后离开该位我编写这段代码是为了这样做 int POS int n int p 0 while n if n 2 0 p else break n n 2 return p i
判断串口是普通COM还是SPP

我正在寻找一种方法来确定 COM 是标准 COM 还是 SPP COM 也称为 COM 设备的电缆替换蓝牙适配器我有一个可以在 USB COM gt USB 和蓝牙下工作的设备并且蓝牙接口可以与 SPP 一起工作我目前正在使用Syst
C 类型命名约定，_t 或 ALLCAPS

我一直想知道是否有任何命名约定例如何时对类型使用全部大写以及何时追加 t 什么时候不使用任何东西我知道当时 K R 发布了各种有关如何使用 C 的文档但我找不到任何相关内容在 C 标准库类型中 t看起来漂亮占主导地位 time t
无法获取本地或参数的值，因为它在此指令指针处不可用，可能是因为它已被优化掉

Visual Studio 2010 会删除没有其他词不安全块中函数参数之一中的数据什么可能导致此错误调试器显示以下消息 Cannot obtain value of local or argument as it is not a
“没有合适的默认构造函数可用”——为什么会调用默认构造函数？

我已经查看了与此相关的其他一些问题但我不明白为什么在我的情况下甚至应该调用默认构造函数我可以只提供一个默认构造函数但我想了解它为什么这样做以及它会产生什么影响 error C2512 CubeGeometry no appropria
如何在新窗口中打开图像或pdf文件？

我有一个 gridview 它包含文件名和文件路径图像和 pdf 格式文件其中我使用了模板字段在该字段下放置了 1 个图像按钮单击该图像按钮即查看按钮时我想在新窗口中打开所选文件这是我的代码 protected void
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
C 与 C++ 中的 JNI 调用不同？

所以我有以下使用 Java 本机接口的 C 代码但是我想将其转换为 C 但不知道如何转换 include
在 mvc4 中创建通用 mvc 视图

我以前也提过类似的问题没有得到答案如何创建一个通用的 mvc4 视图该视图可以显示传递给它的模型列表或单个模型模型可以是个人组织或团体无论传递给它的是什么如果您正在寻找类似的东西 model MyViewModel
使用 boost 异步发送和接收自定义数据包？

我正在尝试使用 boost 异步发送和接收自定义数据包根据我当前的实现我有一些问题 tcpclient cpp include tcpclient h include
初始化列表在 VC10 中不起作用

我在 VC 2010 中编写了这个程序 class class1 public class1 initializer list
在 C 中使用 #define 没有任何价值

If a define没有任何价值地使用例如 define COMMAND SPI 默认值是0吗不它的评估结果为零从字面上看该符号被替换为空然而一旦你有了 define FOO 预处理器条件 ifdef FOO现在将是真的另
MSVC编译器下使用最大成员初始化联合

我正在尝试初始化一个LARGE INTEGER在 C 库中为 0 确切地说是 C 03 以前初始化是 static LARGE INTEGER freq 0 在 MinGW 下它产生了一个警告缺少成员 LARGE INTEGER Hig
运行 xunit 测试时无法将输出打印到控制台窗口

public class test2InAnotherProject private readonly ITestOutputHelper output public test2InAnotherProject ITestOutputHel

随机推荐

javascript中自执行函数的目的是什么？

在 javascript 中你什么时候想使用这个 function Bunch of code 在此 Bunch of code 这都是关于变量范围的默认情况下自执行函数中声明的变量仅可用于自执行函数中的代码这允许编写代码而无需关心
Java/libGDX - 如何检查多边形与矩形或圆形的碰撞

我是 libGDX 的新手据我所知 Intersector 类具有矩形矩形圆圆圆矩形和多边形多边形的重叠方法但由于某种原因它似乎没有任何方法检查多边形矩形或多边形圆形是否有推荐的方法来检查多边形和矩形圆形之间的碰撞
Page Curl 的现状

关于 iPad 上的卷页动画存在很多问题最近越来越多的应用程序已经包含了这一点我在 github 上看到了两个实现此动画的项目的链接 here https github com jemmons PageCurl and here htt
描边矩形 svg 的左侧和右侧

我使用 d3 在 svg 中绘制了一个矩形并且只想描边左侧和右侧
hbm2ddl 忽略@Column 注释？

为什么 hbm2ddl 会忽略 Column 注释这是我的课 import javax persistence Column import javax persistence Entity import javax persistence
返回 HttpResponseMessage 时的 WebAPI Gzip

我有一个 WebAPI 控制器它返回一个HttpResponseMessage我想添加 gzip 压缩这是服务器代码 using System Net Http using System Web Http using System We
在 iOS 应用程序中安装特定字体时遇到问题 - 不兼容的 TTF？

我的代码仓库中有一些 Nubian 和 Nubian Alt 字体的字体文件它们已获得许可并付费并且需要使用但是我无法在 iOS 中使用此字体并且无法使用 Font Book 打开该字体即使该字体在 Finder 中预览正常并且
Spring boot 示例：无法启动嵌入式容器错误

我是 spring 新手所以我从 spring intializr 下载了 jar for maven web java 1 8 demo 我将其提取并导入到 STS 中以运行 main 文件但出现以下异常有人可以告诉我这个问题的解决
ASP.MVC：实现非模板化视图引擎？

我对 ASP MVC 还很陌生对于我们的新 Web 应用程序我正在考虑两种视图引擎选项使用一些可用的视图引擎默认的 NVelocity Brail 等作为主要视图代码生成器实现特定于应用程序的 C DSL 来生成 HTML 代码
“language_model_penalty_non_dict_word”在 tesseract 3.01 中没有效果

我正在设置language model penalty non dict word通过 Tesseract 3 01 的配置文件但其值没有任何效果我尝试过使用多个图像及其多个值但每个图像的输出始终相同另一位用户也注意到了同样的情况在
jsoncpp。通过匹配值查找数组中的对象

我有这个 JSON 对象 books author Petr book name Test1 pages 200 year 2002 author Petr book name Test2 pages 0 year 0 author STO
Angular ng-bind-html 不适用于 YouTube 嵌入

我试着jsfiddel http jsfiddle net N2RgN 4 使用 ng bind html 它似乎不适用于 YouTube 嵌入为什么 div div div div p this is a youtube youtube
如何在python中生成文件而不将其保存到磁盘？

我正在使用 Python 2 7 和 Django 1 7 我的管理界面中有一个方法可以生成某种 csv 文件 def generate csv args some code that generates a dictionary to b
启动 Tomcat 服务器 9.0 时出现异常

Exception is SEVERE Exception starting filter struts2 java lang ClassNotFoundException org apache struts2 dispatcher ng
有人可以给我提供一个 pom.xml 文件来设置用于 UI 测试的空手道框架吗？

我目前正在研究空手道核心但我不确定我是否走在正确的道路上他们有一个演示项目您可以在 github 上参考这将是一个检查的好地方https github com intuit karate tree master examples u
警告：道具“className”不匹配。当将样式化组件与语义-ui-react一起使用时

我使用此代码将按钮从顶部留出边距 const makeTopMargin elem gt return styled elem margin top 1em important const MarginButton makeTopMargi
使用 JQ 的多个过滤器

我的老板希望我们的团队使用 JQ 来解析 JSON 文件我使用的应用程序生成我需要转换的 JSON 我有一个如下所示的文件 Collections OptionGroups OptionGroupName Test1 Status in
现实生活中的依赖注入

我正在构建一个非常小的 MVC 框架来增加我的 PHP 知识并挑战自己我已经到了类开始相互依赖才能工作的地步依赖注入 http fabien potencier org article 11 what is dependency inj
运行 mocha 测试时使用不同的 babel 预设

我的 npm 包构建与 babel 一起运行并且我在我的中配置了 babel 预设package json with babel presets es2015 我还配置了一个摩卡测试脚本 test mocha compilers js b
如何选择哈希表的大小？

假设我有 200 000 个单词我将使用hash 33 word i 作为哈希函数为了最小化内存分页问题优化表的大小应该是多少使用的平台 C c99版本单词是英文字符单词 ASCII值哈希表的一次初始化链表式的桶用于下一步

如何选择哈希表的大小？

如何选择哈希表的大小？ 的相关文章

随机推荐

热门标签

如何选择哈希表的大小？的相关文章