Amazon S3s 密钥背后的数据结构（过滤数据结构）

2024-04-02

我想实现一个类似于 Amazon S3 的查找功能的数据结构。就上下文而言，Amazon S3 将所有文件存储在平面命名空间中，但允许您通过文件名中的公共前缀查找文件组，从而复制目录树的功能，但又不那么复杂。

问题是，查找和过滤操作都是 O(1)（或者足够接近，即使在非常大的存储桶上 - S3 的磁盘等效项 - 两个操作也可能是 O(1)））。

简而言之，我正在寻找一种功能类似于哈希图的数据结构，并具有高效（至少不是 O(n)）过滤的额外好处。我能想到的最好的方法是扩展 HashMap，使其还包含一个（排序的）内容列表，并对与前缀匹配的范围进行二分搜索，然后返回该集合。这对我来说似乎很慢，但我想不出任何其他方法来做到这一点。

有谁知道亚马逊是如何做到的，或者有更好的方法来实现这种数据结构？

只是为了验证我的主张，即常规 TreeMap 应该足以满足任何包含多达 1,000,000 个条目的存储桶，这里有一个非常简单的测试用例，它给出了一些数字（注意：这并不是一个微基准测试，只是为了感受一下这个问题的严重程度）。

我使用随机生成的 UUID 来模拟按键（如果您用斜杠替换破折号，您甚至会得到一种目录结构）。之后，我将它们放入常规中java.util.TreeMap最后询问他们map.subMap(fromKey, toKey).

public static void main(String[] args) {

    TreeMap<String, Object> map = new TreeMap<String, Object>();

    int count = 1000000;
    ArrayList<String> uuids;

    {
        System.out.print("generating ... ");
        long start = System.currentTimeMillis();
        uuids = new ArrayList<String>(count);
        for (int i = 0; i < count; i++) {
            uuids.add(UUID.randomUUID().toString());
        }
        System.out.println((System.currentTimeMillis() - start) + "ms");
    }

    {
        System.out.print("inserting .... ");
        long start = System.currentTimeMillis();

        Object o = new Object();
        for (int i = 0; i < count; i++) {
            map.put(uuids.get(i), o);
        }

        System.out.println((System.currentTimeMillis() - start) + "ms");
    }

    {
        System.out.print("querying ..... ");

        String from = "be400000-0000-0000-0000-000000000000";
        String to =   "be4fffff-ffff-ffff-ffff-ffffffffffff";

        long start = System.currentTimeMillis();

        long matches = 0;

        for (int i = 0; i < count; i++) {
            Map<String, Object> result = map.subMap(from, to);
            matches += result.size();
        }

        System.out.println((System.currentTimeMillis() - start) + "ms (" + matches/count
                + " matches)");

    }
}

这是我的机器的一些示例输出（1,000,000 个键，1,000,000 个范围查询）：

generating ... 6562ms
inserting .... 2933ms
querying ..... 5344ms (229 matches)

插入 1 个键平均花费 0.003 毫秒（当然，接近结束时花费的时间更长），而查询包含 229 个匹配项的子范围每个查询花费 0.005 毫秒。这是相当理智的表现，不是吗？

将数量增加到 10,000,000 个键和查询后，数量如下：

generating ...  59562ms
inserting ....  47099ms
querying ..... 444119ms (2430 matches)

插入 1 个键平均需要 0.005 毫秒，而查询具有 2430 个匹配项的子范围每次查询需要 0.044 毫秒。尽管查询速度慢了 10 倍（最后，它会迭代所有匹配项，且始终为 O(n)），但性能仍然还不错。

由于 S3 是一项云服务，我认为它无论如何都会受到网络的限制。因此，并不迫切需要非常奇特的数据结构来获得所需的性能。尽管如此，我的测试用例仍然缺少一些功能，最明显的是并发性和持久性。尽管如此，我认为我已经证明常规树结构足以满足此用例。如果你想做一些奇特的事情，可以尝试子树读写锁定，也许可以替代 .subMap(fromKey, toKey);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Amazon S3s 密钥背后的数据结构（过滤数据结构）的相关文章

从 OMElement 对象获取 InputStream/io.Reader

我有一个OMElement对象从中我想得到一个InputStream或读者对象我想要的是流式传输xml来自OMElement我有没有加载到内存中我只能得到XMLStreamReader对此表示反对但我找不到办法得到InputStr
JPanel透明背景和显示元素[重复]

这个问题在这里已经有答案了我插入一个背景图e 变成 aJPanel但一些界面元素消失了以下 Java Swing 元素不会出现标签标题标签 usuario 标签密码按钮加速器你能否使图像透明或元素不透明 setOpaque f
使用 Java 编程式 HTML 文档生成

有谁知道如何在 Java 中以编程方式生成 HTMLDocument 对象而不需要在外部生成字符串然后使用 HTMLEditorKit read 来解析它我问的两个原因首先我的 HTML 生成例程需要非常快并且我认为将字符串解析
有效地查找正则表达式的所有重叠匹配项

这是后续与 java 正则表达式匹配的所有重叠子字符串 https stackoverflow com q 11303309 244526 有没有办法让这段代码更快 public static void allMatches String
如何在Spring的applicationContext.xml中指定默认范围来请求范围？

我想让所有 bean 请求默认作用域但是 Spring 文档说默认作用域是 Singleton 第 3 4 1 和 3 4 2 节http static springsource org spring docs 2 5 x referen
在气球内显示带有照片的多个地标的最佳做法是什么？

我有一个项目如下从手机上拍摄几张照片将照片保存在网络系统中然后将照片显示在其中的谷歌地球上我读过很多文章但它们都使用 fetchKml 我读过的一篇好文章是使用 php 但使用 fetchKml 我不知道是否可以使用 parseK
删除 servlet 中的 cookie 时出现问题

我尝试使用以下代码删除 servlet 中的 cookie Cookie minIdCookie null for Cookie c req getCookies if c getName equals iPlanetDirectoryPr
无法从后台服务通过 WiFi 访问互联网

我将直接介绍我发现的一些事实数据如果您遇到解决了类似的问题请帮助我我每 5 分钟向服务器发送一次数据除非用户在服务器的帮助下手动将其关闭 wakeful broadcast receiver通过一个intent service
Maven 多模块项目结构问题

自从过去几周构建我的 Maven 多模块项目以来这是我的一次有趣的经历当我决定使用 Maven 进行构建生命周期管理时我有几个原因希望选择 Maven A 大多数开发团队都是分开的这样每个团队都可以在项目中的单独模块上工作例如团队
在 Django Rest Framework 中过滤多个值

我有一个模型想要过滤多个值我的模型 class Product models Model ean models CharField max length 13 unique True product id models CharField
getClassLoader().getResource() 返回 null

我有这个测试应用程序 import java applet import java awt import java net URL public class Test extends Applet public void init URL
grails 上的同步块在 Windows 上有效，但在 Linux 上无效

我有一个 grails 应用程序它依赖于服务中的同步块当我在 Windows 上运行它时同步按预期工作但当我在 ams linux 上运行时会出现 StaleObjectStateException 该问题在以下示例中重现 cla
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
存储过程将多个表返回到 spring jdbc 模板

我正在使用 JdbcTemplate 从 Spring DAO 类调用存储过程我的问题是存储过程返回多个表有没有办法使用 Spring JdbcTemplate 访问多个表如果我使用jdbcTemplate queryForList
@TestPropertySource 不适用于 Spring 1.2.6 中使用 AnnotationConfigContextLoader 的 JUnit 测试

似乎我在 Spring 4 1 17 中使用 Spring Boot 1 2 6 RELEASE 所做的任何事情都不起作用我只想访问应用程序属性并在必要时通过测试覆盖它们无需使用 hack 手动注入 PropertySource 这不行
是什么原因导致“对象不是声明类的实例”？ [复制]

这个问题在这里已经有答案了可能的重复使用反射调用方法时为什么会出现对象不是声明类的实例 https stackoverflow com questions 7202988 why do i get object is not an
为什么在尝试使用 Java 连接到 RDS PostgreSQL 数据库时会收到 SocketTimeoutException？

我有一个 Spring 应用程序我试图在 AWS 上托管几天来我一直在努力配置我有一个 EC2 实例并且能够通过 SSH 连接到它我还在 AWS 中设置了 Postgres RDS 数据库但我无法使用 IDE 中的代码连接到它
使用 Maven 3 时 Cobertura 代码覆盖率为 0%

读完这篇文章后将 Cobertura 与 Maven 3 0 2 一起使用的正确方法是什么 https stackoverflow com questions 6931360 what is the proper way to use c
监控 Java 应用程序上的锁争用

我正在尝试创建一个小基准在 Groovy 中以显示几个同步方法上的高线程争用当监控自愿上下文切换时应该会出现高争用在 Linux 中这可以通过 pidstat 来实现程序如下 class Res private int n s
如何在Java中跨类共享变量，我尝试了静态不起作用

类 Testclass1 有一个变量有一些执行会改变变量的值现在在同一个包中有类 Testclass2 我将如何访问 Testclass2 中变量的更新值由 Testclass1 更新试过这个没用注意 Testclass1和Tes

随机推荐

Android ADT插件问题

当我尝试执行 ADT 插件步骤并需要一些帮助时我遇到了这个问题错误如下 Cannot complete the install because of a conflicting dependency Software being ins
如何在IE9中访问Event.target？

HTML DOM 对象模型定义了一个Event object with a target财产 https stackoverflow com a 10637046 12597 查看MSDN 微软文档target财产 http msdn mi
Xcode 上 Boost 的线程组

在我的项目中遇到错误后我尝试使用 C 在 Xcode 4 2 上运行一个小型测试程序 include
如何使用宏在 foreach 内生成多个 Makefile 目标/规则？神秘的行为

我正在使用 GNU make 3 81 这是一个演示该问题的测试 makefile define BOZO a 1 b c touch a 1 endef foreach i 1 2 3 call BOZO i 这里的想法是使用宏模板 BO
为什么使用 Xcode 4.2 的 iPad 3 上的 [[UIScale mainScreen] 比例] 为 1？

在我的 iPad 3 上测试时 UIScreen mainScreen scale 1 0 我的理解是这应该是2 0 我在 Snow Leopard 上使用 iOS 5 1 SDK 和 Xcode 4 2 据我所知这不是官方支持的配置
当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））

打乱数据的 Spark sql 聚合操作即spark sql shuffle partitions 200 默认情况下当 shuffle 分区大于 200 时性能会发生什么变化当分区数量大于 2000 时 Spark 使用不同的数据
如何访问yaml文件中另一个变量中的变量？

我有一个 Variables yaml 文件如下所示 userId 12 URL xyz com user userId 上面的问题是变量没有被替换在运行时我的 URL 如下所示 xyz com user userId 在 YAML
如何在sqlite中使用外键？

我在 sqlite 中有两个表它们通过 id 连接使用此表的应用程序在 Android 操作系统上运行表格1 id entry 1 entry2 1 aaaaaa aaaaa 2 bbbbbb bbbbb Table 2 id ent
Azure AD（工作）帐户可以与 Azure B2C 一起使用吗？这是一个坏主意吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要使用 Azure AD B2C 支持工作帐户或学校帐户我已经拥有 Facebook 和 Google 的现有客户群但是当
在Python中结合reduce和map的最简洁的方法

我正在做一些深度学习我想获取所有隐藏层的值所以我最终编写了这样的函数 def forward pass x ws bs activations u x for w b in zip ws bs u np maximum 0 u dot
无法在 VS Code 中更改 Jupyter 内核

I want to work on my Jupyter Notebook side the VS Code for the first time When I load the file and run the first cell I
在 DirectX 中创建和使用纹理

我正在尝试使用代码创建纹理将其转换为着色器资源视图然后将其应用到平面但是我得到的只是一个黑色方块我尝试使用 msdn 上的示例代码无济于事还尝试使用 unsigned char 和 float float 如下所示因为这就是我需
如何压缩不同长度的列表？

我怎么能够zip两个列表例如 Line1 Line2 Line3 Line4 Line5 不丢弃第一个列表中的其余元素如果可以的话我想用空列表压缩额外的元素 zipWithPadding a gt b gt a gt b gt a b
如何使窗口移动命令忽略某个窗口？

所以我通常在 Emacs 中打开 3 个缓冲区我正在编写的实际代码的一个缓冲区用于所述代码的单元测试的一个缓冲区 A third buffer that displays the results of the unit test Thi
是否有一种已知的用于电力塔模数管理所有情况的算法？

我想在 PARI GP 中实施用于计算 a 1 a 2 a n mod m 它管理所有情况特别是 phi 链中出现高权力的情况有谁知道这样的实现吗这里可以使用中国余数来确保模数是素数幂这简化了在 gcd x m 不为 1 的痛苦情
仅获取子文件夹的文件夹大小，而忽略任何其他内容？

我创建了下面的脚本它管理和维护 RootFolder 中分配的存储其中存储每日备份每个备份都存储在其自己的单独文件夹中并且如果 RootFolder 内容超过预设限制则最旧的备份文件夹将被删除到目前为止一切都很好我遇到的问题
React-markdown 不渲染 Markdown

我正在使用 React markdown 来呈现输入的值问题是归约没有得到应有的处理例如如果我使用这个表达式 hello world 文本应该在h1中显示为文本但它正常显示其他表达式也无法显示被执行 setDataForm comi
CSS 弹出菜单

我想在某些菜单项悬停时创建弹出菜单我的菜单如下所示项目1 项目2 项目3 当 item2 悬停时我想在 item2 下方显示弹出窗口箭头指向上方我确信使用 javascript 可以很容易地做到这一点尽管我还没有这样做过但这里
更改输入 onchange 的值？

我正在尝试创建一个简单的 JavaScript 函数当有人在一个数字中插入一个数字时input字段时另一个字段的值应更改为该值这是我现在所拥有的 function updateInput ish fieldname value ish
Amazon S3s 密钥背后的数据结构（过滤数据结构）

我想实现一个类似于 Amazon S3 的查找功能的数据结构就上下文而言 Amazon S3 将所有文件存储在平面命名空间中但允许您通过文件名中的公共前缀查找文件组从而复制目录树的功能但又不那么复杂问题是查找和过滤操作都是 O

Amazon S3s 密钥背后的数据结构（过滤数据结构）

Amazon S3s 密钥背后的数据结构（过滤数据结构） 的相关文章

随机推荐

热门标签

Amazon S3s 密钥背后的数据结构（过滤数据结构）的相关文章