.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？

2024-04-12

在某些库代码中，我有一个可以包含 50,000 个或更多项目的列表。

库的调用者可以调用导致将字符串添加到列表中的方法。如何有效地检查所添加字符串的唯一性？

目前，在添加字符串之前，我会扫描整个列表并将每个字符串与要添加的字符串进行比较。当超过 10,000 个项目时，就会出现规模问题。

我将对此进行基准测试，但对洞察力感兴趣。

如果我用 Dictionary 替换 List ，当列表增长到 10,000 个项目或更多时，ContainsKey() 会明显更快吗？
如果我将唯一性检查推迟到添加所有项目之后，会更快吗？那时我需要对照每个其他元素检查每个元素，仍然是 n^^2 操作。

EDIT

一些基本的基准测试结果。我创建了一个抽象类，它公开了 2 个方法：填充和扫描。 Fill 只是用 n 个项目填充集合（我使用了 50,000 个）。 Scan 扫描列表 m 次（我使用了 5000 次）以查看给定值是否存在。然后我为 List 构建了该类的实现，为 HashSet 构建了另一个类的实现。

使用的字符串长度统一为 11 个字符，并通过抽象类中的方法随机生成。

一个非常基本的微基准。

Hello from Cheeso.Tests.ListTester
filling 50000 items...
scanning 5000 items...
Time to fill: 00:00:00.4428266
Time to scan: 00:00:13.0291180

Hello from Cheeso.Tests.HashSetTester
filling 50000 items...
scanning 5000 items...
Time to fill: 00:00:00.3797751
Time to scan: 00:00:00.4364431

因此，对于该长度的字符串，在扫描唯一性时，HashSet 比 List 快大约 25 倍。此外，对于这种大小的集合，在向集合添加项目时，HashSet 比 List 的惩罚为零。

结果很有趣，但无效。为了获得有效的结果，我需要进行预热间隔、多次试验，并随机选择实现。但我相信这只会稍微改变标准。

感谢大家。

EDIT2

添加随机化和多次试验后，在这种情况下，HashSet 的性能始终优于 List，约 20 倍。

这些结果不一定适用于可变长度的字符串、更复杂的对象或不同的集合大小。

您应该使用HashSet<T> http://msdn.microsoft.com/en-us/library/bb359438.aspx类，它是专门为您正在做的事情而设计的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

NET

list

Collections

HashSet

.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？的相关文章

我如何知道 C 程序的可执行文件是在前台还是后台运行？

在我的 C 程序中我想知道我的可执行文件是否像这样在前台运行 a out 或者像这样 a out 如果你是前台工作 getpgrp tcgetpgrp STDOUT FILENO or STDIN FILENO or STDERR FIL
XPATH 查询、HtmlAgilityPack 和提取文本

我一直在尝试从名为 tim new 的类中提取链接我也得到了解决方案给出了解决方案片段和必要的信息here https stackoverflow com questions 2982862 extracting a table ro
MFC CList 支持复制分配吗？

我在 MSVC 中查找了 CList 定义afxtempl h http www cppdoc com example mfc classdoc MFC AFXTEMPL H html并记录在MSDN http msdn microsoft
如何以编程方式播放 16 位 pcm 数组 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个包含 16 位 pcm 值的短数组我希望能够在不添加任何标题也不将任何文件保存到内存的情况下播放它我知道我可能需要一个提供
将下拉列表与字典绑定

我将字典绑定到下拉列表举例来说我的字典中有以下项目 Test1 123 Test2 321 我希望下拉文本采用以下格式 Test1 Count 123 Test2 Count 321 我沿着以下路径走但没有运气 MyDropDown
将日期时间转换为指定格式

我有这个日期格式yy MM dd HH mm ss ex 12 02 21 10 56 09 问题是当我尝试使用以下代码将其转换为不同格式时 CDate 12 02 21 10 56 09 ToString MMM dd yyyy HH
你好，我最近正在开发我的新游戏，我遇到了*无限跳跃*的问题

所以基本上当我按跳跃空格键时我会跳跃但是如果我连续按空格键它只是跳啊跳啊跳等等我不想要我只想它跳一次 code if Input GetKeyDown space isGrounded velocity y Mathf Sqrt ju
子目录中的头文件（例如 gtk/gtk.h 与 gtk-2.0/gtk/gtk.h）

我正在尝试使用 GTK 构建一个 hello world 其中包括以下行 include
Xamarin - SignalR 挂在连接上

我正在尝试将我的 Xamarin 应用程序连接到托管在 Azure 上的 SignalR 后端我遇到的问题是每次我在 HubConnection 上调用 StartAsync 时它都会挂起客户端并且请求永远不会完成我尝试通过应用程序进
为什么不能调用带有 auto& 参数的 const mutable lambda？

include
无法为 wsdl 文件创建服务引用

I have wsdl文件和xsd我本地机器上的文件我想在项目中添加服务引用我没有网络服务我只有wsdl file 我收到以下错误 The document was understood but it could not be pro
使用多线程进行矩阵乘法？

我应该使用线程将两个矩阵相乘有两件事当我运行程序时我不断得到 0 我还收到消息错误对于每个错误它在粗体行上显示警告从不兼容的指针类型传递 printMatrix 的参数1 我尝试打印输出还要注意第一个粗体块这是我解决问题
ALTER TABLE ... ADD CONSTRAINT 失败时将事务回滚到保存点

有没有办法在事务中添加检查约束and如果失败回滚到以前的保存点而不是回滚整个事务就我而言当 ALTER TABLE ADD CONSTRAINT 命令失败时事务无法回滚到保存点尝试这样做会引发 InvalidOperationEx
C# 中的 C/C++ 代码编译器

在 C 中我可以使用下面的代码编译 VB 和 C 代码但无法编译 C C 代码有什么办法可以做到这一点吗 C 编译器 public void Compile string ToCompile string Result null st
为什么 f(i = -1, i = -1) 是未定义的行为？

我正在读关于违反评估顺序 http en cppreference com w cpp language eval order 他们举了一个令我困惑的例子 1 如果标量对象上的副作用相对于同一标量对象上的另一个副作用是无序的则行为未定义
浮点字节序？

我正在为实时海上模拟器编写客户端和服务器并且由于我必须通过套接字发送大量数据因此我使用二进制数据来最大化可以发送的数据量我已经了解整数字节顺序以及如何使用htonl and ntohl为了规避字节顺序问题但我的应用程序与几乎所有模拟
Autoconf 问题：“错误：C 编译器无法创建可执行文件”

我正在尝试使用 GNU 自动工具构建一个用 C 编写的程序但显然我设置错误因为当configure运行它吐出 configure error C compiler cannot create executables 如果我看进去con
Xamarin.Forms UWP 项目中标题栏和选项卡之间令人恼火的空白

我几乎是新手Xamarin Forms我正在开发一个相当简单的跨平台应用程序该应用程序在 Android 中显示得足够好但在 UWP 中却出现了一个愚蠢的空白该项目由一个 TabbedPage 组成其中包含 4 个 Navigati
有没有办法直接在函数参数中格式化字符串而不是使用临时字符串？

我有一个接受字符串字符数组作为参数的函数 void enterString char my string 当使用这个函数时我经常发现自己想要输入格式化的字符串我使用 sprintf 来做到这一点然而我每次都必须创建一个临时字符串
如何提高环复杂度？

对于具有大量决策语句包括 if while for 语句的方法循环复杂度会很高那么我们该如何改进呢我正在处理一个大项目我应该减少 CC gt 10 的方法的 CC 并且有很多方法都存在这个问题下面我将列出一些例如我遇到的问题的

随机推荐

jQuery .val() 与 .attr("value")

我本来以为这两个是一样的但看起来不是我一般都用过 obj attr value 使用表单字段但在我当前正在构建的页面上 obj attr value 不返回我在字段中输入的文本然而 obj val does 在我构建的另一个页面上
自定义验证错误的自动响应

在 asp net core 2 1 中当发生验证错误时 ApiController 将自动响应 400 BadRequest 如何更改修改发送回客户端的响应 json body 有某种中间件吗我正在使用 FluentValidati
使用 Celery（RabbitMQ、Django）检索队列长度

我在 django 项目中使用 Celery 我的代理是 RabbitMQ 我想检索队列的长度我浏览了 Celery 的代码但没有找到执行此操作的工具我在 stackoverflow 上发现了这个问题从客户端检查 RabbitMQ
在 go 中使用来自网络的原始字节

抱歉问题很长我最近一直在尝试使用 Go 而不是 C 来开发一个游戏服务器模拟器我正在将其作为一个业余项目进行开发并质疑我是否以合理的 Go 术语来实现它正如您所料服务器通过发送符合特定协议规范的原始数据包 TCP 与一个或多个游
Xcode UI 测试 - 使用存储的凭据登录/注销

我想在我的 iOS 应用程序 Xcode 7 2 1 中运行登录过程的功能 UI 测试该应用程序的行为是成功登录后将存储用户凭据以便在下次启动时自动登录不显示登录屏幕因此我在登录屏幕中设置了一系列 UI 事件以使应用程序首次
如何避免 TYPO3 中的日期时间问题？

我创建了一个小扩展它使用日期时间来查看一些特定事件事件日期和事件时间但如果我尝试从数据库获取正确的日期时间到前端我总是会遇到麻烦我可以通过 TYPO3 后端设置每个事件的日期时间但是如果我尝试在前端获取这个值例如
从多个自左连接中删除重复项

我正在动态生成如下所示的查询该查询通过对其自身进行左连接任意次数来创建不同的规则组合并避免使用某些相同属性作为连接条件的一部分的规则例如 SELECT count FROM rules AS t1 LEFT JOIN rules
Bool.hashValue 转换为 Int 有效吗？

在某些情况下和一些代码我看到hashValue用于转换Bool to Int 然而代码 let someValue true let someOtherValue false print someValue hashValue print
具有属性的 jasmine.createSpyObj

在我的 Angular 测试中模拟依赖项时我通常使用以下命令创建一个间谍对象jasmine createSpyObj const serviceSpy jasmine createSpyObj MyService method 然后将其提
Oracle Apex 22.21 - 图表页面 - 条形图类型 - 日期选择器

我有一张桌子ORDERS其中包含列ORDER DATE 我创建了一个Chart as a Bar type 我希望图表显示给定日期或范围内的订单量我正在关注这个Youtube教程 https www youtube com watch v
为什么在数据包输入时 skb_buffer 需要跳过 20 个字节才能读取传输缓冲区？

我正在 Linux 中编写一个网络模块我发现只有在从 skb 缓冲区跳过 20 个字节后才能提取 tcp 标头即使 API 是 skb transport header 其背后的原因是什么有人可以详细解释一下吗传出数据包不需要同样的
无法使用 Jasper 报告库生成 Excel 工作表报告

我尝试使用以下代码生成 Excel 报告 import java util import net sf jasperreports engine import net sf jasperreports engine export JRXls
使用 System.Web.Mail 发送电子邮件

我想用asp发送电子邮件我用这个代码 using System Web Mail MailMessage msg new MailMessage msg To email protected cdn cgi l email protect
dbms_output 语句中的单引号？

我需要在 dbms output 语句中包含单引号我试过这个 dbms output put line first name 这里的名字是variable 我需要在单引号内显示它你可以通过加倍逃脱 dbms output put li
Webpack 模块联合应用程序之间的热重载

我开始尝试使用 webpack 模块联合的微前端这是为了一个非常特殊的目的因为在我们公司我们开发大型软件例如在基于角色的访问控制中做出反应的仪表板我希望每个部分或几乎都是一个单独的应用程序所以我设法实现了一切只是我注意到当
将自身引用为模板模板参数的模板类？

这段代码 template
将向量声明为类成员

我在头文件中有简单的类 a hh ifndef a hh define a hh class a public int i a i 0 endif 然后我有一个文件 b cc include
是否可以使用 Groovy XMLSlurper 解析子树

有谁知道是否可以以某种方式使用 XMLSlurper 这意味着可以从非常大的 XML 文档中提取各个子树并单独进行处理想象一下您有一个巨大的 XML 提要其中包含一个根元素该根元素具有数千个可以单独处理的直接子元素显然将整个文档
对于 Emacs，如何将 view-lossage 收集的内容存储到外部文件中？

对于 Emacs 我如何存储内容view lossage收集到外部文件中理想情况下我希望将这些击键数据自动增量地存储到外部日志文件中这意味着在 Emacs 启动时默认情况下会这样做至少在 Emacs 24 中我现在无法检查之前的版
.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？

在某些库代码中我有一个可以包含 50 000 个或更多项目的列表库的调用者可以调用导致将字符串添加到列表中的方法如何有效地检查所添加字符串的唯一性目前在添加字符串之前我会扫描整个列表并将每个字符串与要添加的字符串进行比较当超过

.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？

.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？ 的相关文章

随机推荐

热门标签

.NET：如何有效地检查 50,000 个项目的 List 中的唯一性？的相关文章