为什么使用散列来为大量文件创建路径名？

2024-04-14

我注意到在许多情况下，应用程序或数据库使用 has 来存储文件/blob 集合来确定路径和文件名。我相信预期的结果是路径永远不会太深，或者文件夹太满 - 文件夹中的文件（或文件夹）太多，导致访问速度变慢。

编辑：示例通常是数字图书馆或存储库，尽管我能想到的最简单的示例（可以在大约 30 秒内安装）是Zotero 文档/引文数据库。 http://zotero.org

为什么要这样做？

编辑：感谢 Mat 的回答 - 这种使用哈希创建文件路径的技术有名称吗？是不是一个pattern？我想阅读更多内容，但未能在其中找到任何内容ACM数字图书馆 http://portal.acm.org/portal.cfm

哈希/B：树

当您仅使用“=”运算符进行搜索时，哈希的优点是查看速度更快。

如果您要使用“”或“=”以外的任何内容，您将需要使用 B:Tree，因为它将能够执行此类搜索。

目录结构

如果您有数十万个文件要存储在文件系统上，并将它们全部放在一个目录中，那么目录 inode 将变得如此庞大，以至于需要几分钟才能添加/删除文件该目录，您甚至可能会遇到 inode 无法放入内存的情况，并且您将无法添加/删除甚至触摸该目录。

您可以放心，对于哈希方法 foo，foo("something") 将始终返回相同的内容，例如“grbezi”。现在，您使用该哈希的一部分来存储文件，例如，在 gr/be/something 中。下次您需要该文件时，您只需计算哈希值即可直接使用。另外，您会发现，使用良好的散列函数，散列在散列空间中的分布非常好，并且对于大量文件，它们将均匀分布在层次结构内，从而分散负载。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

databasedesign

datastructures

DesignPatterns

为什么使用散列来为大量文件创建路径名？的相关文章

InnoDB 或 MyISAM - 为什么不两者都使用呢？

我读过各种关于两者之间哪个更好的主题InnoDB and MyISAM 看来争论的都是使用还是其他根据表的不同是否不能同时使用两者这样做会有什么缺点据我所知发动机可以在CREATE TABLE命令因此某些经常读取的表可以设置为
C# 中类似图的实现

所以我有一个对象我们称之为 Head 它有一个对象列表 C C1 C2 C3 T T1 T2 和 M M1 M2 并且所有这些都是相互关联的例如 Head gt C1 C2 C3 T1 T2 M1 M2 T1 gt C1 C2 T2 g
强制函数调用的顺序？

假设我有一个抽象基类并且我想要一个必须由派生类实现的纯虚方法但我想确保派生方法以特定顺序调用函数我可以做什么来强制执行它 I E base class virtual void doABC 0 virtual void A 0 vir
AngularJS 服务并承诺最佳实践

我有一个 AngularJS 应用程序services 调用 http资源并返回promise我在控制器中解决了这个问题这是我正在做的事情的示例 app service Blog function http q var deferred
MVVM ViewModel 与 MVC ViewModel

ViewModel 是一个在 MVVM Model View ViewModel 和 ASP NET MVC 的推荐实现中使用的术语鉴于每种模式都使用相同的术语研究 ViewModel 可能会令人困惑 MVC ViewModel 和 M
将数据从 MS SQL 导入 MySQL

我想从 MS SQL Server 导入数据通过某种正则表达式运行它以过滤掉内容然后将其导入 MySQL 然后对于每个查询我希望显示来自第三个数据库的相关图像明智地导入和链接最简单的方法是什么谢谢澄清它是一个 PHP 应用
设计 Cassandra 数据模型的最佳实践是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案以及需要避免哪些陷阱您有任何交易中断吗例如我听说导出导入 Cassandra 数据非常困难这让我想知道这是否会妨碍将生产数据
Delphi 5 的哈希表实现 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您知道 Delphi 5 的良好且免费的哈希表实现吗我需要在哈希表中组织大量数据并且我有点担心在网
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
生成二叉树的所有从根到叶的分支

抱歉如果这是一个常见问题但我还没有找到适合我的特定问题的答案我正在尝试实施一个walk方法将二叉树从根节点遍历到每个叶节点每当到达叶节点时都会生成根到叶路径例如遍历表示为的二叉树 a b d c 会产生 a b c a d 我的
单例属性

好吧如果我创建一个单例类并通过公共静态属性公开单例对象我明白了但我的单例类还有其他属性这些应该是静态的吗这些也应该是私人的吗我只想通过执行以下操作来访问单例类的所有属性 MySingletonClass SingletonPro
使用接口或函数对象进行回调？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在面向对象中通常使用接口来实现回调粗略示例 class Message class IMsgProcessor public virtual
MonoState、Singleton 或派生形式：CRUD 应用程序的最佳方法？

我有一个相当大的 CRUD WinForm 应用程序其中有许多对象人员注册计划案例注释等该应用程序由 30 多种表单组成 UI 逻辑上被分解会员注册计划案例说明等我正在尝试弄清楚如何创建我的人物对象搜索后搜索表格并将对
UML类图：抽象方法和属性是这样写的吗？

当我第一次为一个小型 C 项目创建 uml 类图时我在属性方面遇到了一些麻烦最后我只是将属性添加为变量 lt
MySQL JOIN 滥用？情况会变得有多糟糕？

我读了很多关于关系数据库的文章在每个 SELECT 上使用许多 JOIN 语句但是我一直想知道滥用这种方法从长远来看是否会出现任何性能问题例如假设我们有一个users桌子我通常会添加最常用的数据而不是进行任何额外的联接例
处理大数据二进制文件

我正在处理包含原始数据的大型二进制文件每个大约 2 GB 这些文件具有明确定义的结构其中每个文件都是一个数组events 每个事件都是一个数组data banks Each event and data bank有一个结构 header
C# 扩展方法 - 设计模式

我想知道 C 扩展方法是否基于任何现有的设计模式设计模式只是一种众所周知的范例即当你想实现 X 时就做 Y 面向对象语言例如 C 中的一个众所周知的范例是当您想要对对象的状态进行操作时调用它的实例上的方法但是在创建扩展方法
构建器模式的真实示例

我想看看 Builder 模式是如何在现实世界的应用程序 API 中使用的我找到的例子都是披萨蛋糕汽车等等加上 GoF 书中的解析器示例您能否告诉我这个模式在现实世界的应用程序 API 中的一些用法最好是来自 C NET 或 P
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确设计数据库的这一部分（循环引用？）

情况一个公司有很多项目一个项目有很多标签一个项目只属于1家公司一个标签可以属于多个项目公司必须有权访问自己的标签示例1 在第一张图片中公司的所有标签都可以通过projects project tag 获得但如果所有项目都被删除那么

随机推荐

“download_slot”在 scrapy 中如何工作

我在 scrapy 中创建了一个脚本来解析author name来自其着陆页的不同帖子然后将其传递到parse page方法使用meta关键字以打印post content随着author name同时我用过下载槽在元关键字中据称该关
hibernate_unique_key表是如何在新数据库中创建的？

我正在尝试使用 NHibernate 创建我的第一个测试应用程序如下所示NHibernate 2 0 初学者指南 https rads stackoverflow com amzn click com 1847198902 该示例在映射中
EF Code-First 中查找表的最佳实践

我正在使用 EF 做我的第一个项目并且计划采用代码优先模型我正在尝试找到一些有关处理相当经典的查找表场景的指导我正在处理一个非常规范的情况我将保留地址数据所以我有一个简单的地址 DTO public class Addres
在 BST 中查找中序后继而不使用任何额外空间

我正在寻找一种方法来找出 BST 中节点的中序后继者而不使用额外的空间获取给定节点的中序后继节点N我们使用以下规则 If N有一个合适的孩子R那么inorderSuccessor N 是最左边的的后继者R Else inorderSu
Solidity v0.6.0。后备功能。需要它们做什么？

阅读 Solidity v0 6 0 的文档后docs https docs soliditylang org en latest 060 breaking changes html semantic and syntactic chang
删除指向不存在目录的符号链接的安全方法（对于 python 二进制文件）

我不小心输入了 sudo ln sf usr local bin python2 5 usr bin python 代替 sudo ln sf usr local bin python2 5 usr bin python 现在每当我运行
获取批处理文件中两个目录的路径

我想获取从当前位置向上 2 个目录的文件夹的路径我正在做以下事情 echo CD set NEW PATH bin echo PATH 当我运行上面的代码时我打印了当前目录路径但 NEW PATH 不是它只是说 ECHO OFF 从
在 ThreadPoolExecutor 中实现优先级队列

已经为此苦苦挣扎了 2 天多了实施了我在这里看到的答案Java中指定任务顺序执行 https stackoverflow com questions 12722396 specify task order execution in jav
在 C# 中从不同类引发一个类的事件

我有一个类 EventContainer cs 其中包含一个事件例如 public event EventHandler AfterSearch 我还有另一个类 EventRaiser cs 我如何从此类中引发而不是处理上述事件引发
SQL Server 2008 行插入和更新时间戳

我需要向 SQL Server 2008 R2 中的数据库表添加两列创建TS 插入行的日期和时间更新TS 更新行的日期和时间我有几个问题我应该为其中的每一个使用什么列数据类型 createTS只需在插入行时设置一次当我尝试date
如何获取Core Data数据库的最后一条记录？

我有一个名为 images 的核心数据实体它只有 2 个字段 imageName NSString timeStamp NSNumber 我正在尝试模拟一种堆栈 LIFO 后进先出插入新条目很容易但是读取添加到实体的最后一个条目怎么
如何将Python屏幕输出保存到文本文件

我想从字典中查询项目并将打印输出保存到文本文件中这是我所拥有的 import json import exec fullog as e inp e getdata inp now is a dict which has items key
Blueimp文件上传，如何知道进度回调是针对哪个文件的？

你如何知道进度回调是针对哪个文件的即使我将equentialUploads设置为true 但仅在IE10中而不是Chrome FireFox Safari 当我选择同时上传多个文件时 add回调中的data files数组包含多个文件
删除外键约束

如果我在创建过程中没有命名外键如何删除它 create table abc id number 10 foreign key id references tab roll even alter table abc drop foreign
[__NSCFTimer copyWithZone:]：无法识别的选择器发送到实例

var searchDelayer NSTimer func searchBar searchBar UISearchBar textDidChange searchText String searchDelayer invalidate
如何组合多个可为空的 NSPredicate？

例如类似的东西 var finalPredicate NSPredicate format if screen nil screenPredicate NSPredicate format screen screen finalPredi
使用jquery mobile点击而不是点击

我正在制作一个需要在移动设备和非移动设备上运行的网络应用程序在我的应用程序中我有几个图标用户可以单击这些图标以便使用 Websocket 向服务器发送消息我的代码看起来像这样 button container on tap sen
像素转MM方程？

有没有可靠的公式可以计算出 MM 的像素大小或者说这不可能跨设备我们正在使用一个定制系统该系统可以向许多具有不同屏幕尺寸的设备提供内容它可以检测 MM 中的屏幕宽度但我们希望将其准确地转换为像素大小以便使用简单的 jquery
在 Rstudio 上浏览 R 代码的高效递归方式？

我正在使用 RStudio 我开始觉得有必要通过包代码来更深入地理解或破解某些功能当我尝试使用导航时使用 Ctrl 单击鼠标 http www rstudio com ide docs using navigation对于包内定义的函数
为什么使用散列来为大量文件创建路径名？

我注意到在许多情况下应用程序或数据库使用 has 来存储文件 blob 集合来确定路径和文件名我相信预期的结果是路径永远不会太深或者文件夹太满文件夹中的文件或文件夹太多导致访问速度变慢编辑示例通常是数字图书馆或存储库尽管

热门标签