计算未排序数据中唯一对和非唯一对实例的数量

2024-02-24

我有以下形式的数据：

ID   ATTR
3    10
1    20
1    20
4    30
...  ...

其中 ID 和 Attr 未排序并且可能包含重复项。 ID的范围是1-20,000左右，ATTR是unsigned int。我可能需要一次处理 100,000 到 500,000 对之间的任何地方。

我在寻找：

唯一对的数量。
非唯一对弹出的次数。

所以在上面的数据中，我想知道 (1,20) 出现了两次并且有 3 个唯一的对。

我目前正在以我的幼稚方法使用哈希表。我保留一个唯一对的计数器，如果我插入的项目已经存在，则减少计数器。我还保留了非唯一对的 ID 数组。（都是初次见面）

性能和尺寸同样值得关注。考虑到性能和尺寸问题，我实际上可以接受相对较高的误报率（比如 0.5%）。（我还使用光谱绽放实现了这一点）

我没那么聪明，所以我确信有更好的解决方案，并且我想听听您最喜欢的哈希表实现/任何其他想法。 :)

具有如下键的哈希表<id>=<attr>是这个问题的一个很好的解决方案。我想，如果你能容忍错误，你可以通过绽放变得更小/更快。但你真的需要这样做吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Algorithm

计算未排序数据中唯一对和非唯一对实例的数量的相关文章

为什么在 C# 中成员初始值设定项中不允许这样做，但在 VB.Net Me 中允许

我正在将 VB Net 应用程序转换为 C 并注意到在 VB Net 代码中有一个私有成员变量它是使用Me像这样 Private m ClassA As New MyCollection Of ClassA Me 当我将其转换为 C 代
中间件 API 的最佳实践是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我们正在开发一个中间件 SDK 采用 C 和 Java 语言供游戏开发人员动画软件开发人员阿凡达开
C++ 中的单例和抽象基类

最近我遇到了关于实现 Singleton 但涉及抽象基类的问题假设我们有这样的类层次结构 class IFoo it s ABC class Foo public IFoo 我们的单例类定义如下 template
避免集合已修改错误

Issue 我有以下代码 foreach var ItemA in GenericListInstanceB ItemA MethodThatCouldRemoveAnyItemInGenericListInstanceB 显然我得到一个错
基于 MS Bot Framework 中的响应分支对话框/表单

我们正在尝试使用 MS Bot Framework 但尚未完全弄清楚如何实现此场景我们有一个 LUIS 对话框类型它工作正常并且经过适当的培训以常见的三明治为例 LUIS 意图寻找的基本内容是用户询问订单状态如果问题中提供了订单号
Entity Framework 4.1 RC：Code First EntityTypeConfiguration 继承问题

我尝试使用通用的 EntityTypeConfiguration 类来配置所有实体的主键以便每个派生的配置类不会重复自身我的所有实体都实现一个公共接口 IEntity 它表示每个实体必须有一个 int 类型的 Id 属性我的配置基类如
'goto *foo' 其中 foo 不是指针。这是什么？

我正在玩标签作为值 https gcc gnu org onlinedocs gcc Labels as Values html并最终得到这段代码 int foo 0 goto foo 我的 C C 经验告诉我 foo means dere
获取给定EntityType的导航属性

我在用VS2010 EF4 0 需要如下功能 private string GetNaviProps Type entityType eg typeof Employee NorthwindEntities en new Northwind
套接字：监听积压并接受

listen sock backlog 在我看来参数backlog限制连接数量这是我的测试代码 server initialize the sockaddr of server server sin family AF INET ser
Create CFrameWnd 给出了第一次机会异常——为什么？

我正在尝试使用基于 CFrameWnd 的代码编写一个简单的 MFC 应用程序该应用程序在可滚动窗口中绘制下面的代码改编自 Prosise Programming Windows with MFC 第 2 版第 89ff 页当我在调
在 ncurses 中使用退格键

我设置了一个简单的 ncurses 程序它使用 getch 一次读取一个字符并将它们复制到缓冲区中我遇到的问题是检测到按下退格键这是相关代码 while buffer i c getch EOF i if c n break else
在不使用 Thread.Sleep c# 的情况下延迟发送电子邮件

我有一个 for 循环它循环并每个循环发送一封电子邮件现在我正在使用 thread sleep 但我希望用户仍然能够与程序交互只需取消该循环即可是否可以在不使用 thread sleep 的情况下做到这一点您是否在 UI 线程上运
为什么C++变量是指针时不需要正确定义？

我对 C 语言完全陌生特别是指针经验主要是 PHP 并且希望对以下内容进行一些解释我已经尝试寻找答案这两行代码如何能够在我的程序中完成完全相同的工作第二行似乎违背了我迄今为止所学到和理解的关于指针的一切 char disk 3 D
std::string 在 Visual Studio 上的具体行为？

我有一个项目需要读取写入大文件我决定使用 ifstream read 将这些文件一次性放入内存中放入 std string 中这似乎是在 C 中执行此操作的最快方法 http insanecoding blogspot com 20
删除队列中的最后一个元素

我需要删除队列的最后一个元素我唯一可以使用的操作是 Peek 获取第一个元素而不删除它 Enqueue element 向队列末尾插入一个元素 Dequeue 删除第一个元素 IsEmpty true 或 false 队列是否为空而且我
需要使用 openssl 加密和解密文件的示例 C 代码

我正在用 Linux C 编写代码我需要使用以下命令来加密和解密文件 openssl 目前我使用系统命令 des3 e nosalt k 0123456789012345 in inp file out out file 进行加密使用
在 try catch 块中返回到 catch 内是否不好？这是很好的做法

在 try catch 块中从 C 中的 catch 块返回值是不好的做法吗 try Some code return 1 catch return 0 哪种使用 try catch 的方法是好的做法不需要只要返回的值是你想要的你可以
在代码中而不是 XAML 中呈现 UserControl

我想用RenderTargetBitmap将 UserControl 呈现为位图而无需为其编写 XAML 当我这样做时我得到一张空白图像我是否错过了关键的一步 ValTool Controls VideoFisheyeOverlayC
FakeItEasy 代理方法调用实际实现

我正在尝试将对假对象的调用代理到实际的实现这样做的原因是我希望能够使用 Machine Specifications 的 WasToldTo 和 WhenToldTo 它们仅适用于接口类型的伪造因此我正在执行以下操作来代理对我的真实对
什么时候使用静态库需要头文件？

如果我在 Linux 中用 C 创建一个静态库并生成 a 文件我或其他人如何使用该库例如我的库定义了一个类我认为仅仅提供 a 文件是不够的还需要提供头文件我如何知道 a 文件必须提供哪些头文件例如我是否需要提供我的库代码

随机推荐

熊猫数据框隐藏索引功能？

显示 pandas DataFrame 时是否可以隐藏索引以便只有列名出现在表的顶部这需要适用于 ipython 笔记本中的 html 表示和to latex 函数我正在使用它nbconvert 正如 waitingkuo 所指出的
WPF 控件的条件加载

Given
Python os.walk 支持 Unicode/UTF-8？

我研究过这个问题似乎Python 2 7默认使用的是ASCII 由于库的原因我无法切换到python 3 默认Unicode coding utf 8 print u 似乎打印得很好没有u but print list os walk
在 SQL Server 中将时间转换为 24 小时时间

我正在使用 Microsoft SQL Server 2000 需要将时间列转换为 24 小时时间而不仅仅是上午 9 30 中午 12 30 等我正在尝试对此列进行排序但我相信它不起作用因为它只是用数字而不是时间来看待事物我认为我
Linux 内核模块驱动程序中 THIS_MODULE 的意义是什么？

在Linux设备驱动程序开发中 file operations结构用途struct module owner 当我们总是用以下命令初始化它时这个结构有什么用 THIS MODULE 什么时候可以设置这个字段NULL 该字段告诉谁是所有者s
Instagram ruby gem - 无法到达回调 URL

断断续续地尝试过 instagram ruby gem 一些天无论我做什么当尝试创建实时订阅我得到https api instagram com v1 subscriptions json https api instagram
Jenkins git 插件，轮询某些路径

我有一个 jenkins 工作负责一个具有以下结构的 Maven 多模块项目 Module A Module B 桌面应用程序 common 我想仅当更改被推送到特定路径时才执行部署桌面应用程序的作业使用 git 插件应该可以做到这一
使用 DateTime.strptime 时不考虑 Rails 夏令时

我一直致力于解析字符串并且有一个测试用例给我带来了问题使用 strptime 解析日期时间字符串时不考虑夏令时据我所知这是一个错误我找不到有关此错误的任何文档这是 Rails 控制台中的一个测试用例这是 ruby 1 9
将带名称和不带名称的命名空间添加到 XElement

我需要生成如下 XML
使用多处理来查找网络路径

我目前正在使用 networkx 函数 all simple paths 来查找网络 G 中给定的一组源节点和目标节点的所有路径在更大更密集的网络上这个过程非常密集我想知道是否可以使用多处理来解决这个问题以及是否有人对如何通过创建
嵌入式领域“软复位”和“硬复位”有什么区别？

在我看来软复位从复位向量启动硬重置拉cpu的电平硬复位当然意味着整个CPU芯片及其所有外设都被复位造成这种情况的原因可能有很多复位引脚被外部拉动时钟故障片上低电压检测看门狗非法指令陷阱等软复位可能意味着返回复位向量的
只要父文件夹中尚不存在任何文件，就将所有文件从“旧”文件夹移至父文件夹中

只要父文件夹中尚不存在文件我的代码就应将所有文件从旧文件夹移至父文件夹中 Folder 1 old somefiles 2 old somefiles 3 old somefiles Folder 1 somefiles old 2
在elasticsearch中创建TransportClient时限制ThreadPool中的线程数

我正在 elasticsearch 中创建一个 TransportClient 实例下面是相同的代码问题是我试图减少 TransportClient 启动的线程池生成的线程数但无论我使用什么设置我的elasticsearch总是用1
Delphi 按钮在 Aero 玻璃上显示白色边框

我一直在尝试在 Delphi 2010 中使用 Aero 来找到一个好看的设计人们看到的一个明显的用途是玻璃框架被扩展以包括屏幕底部的确定取消按钮我注意到这在 Delphi 2010 中看起来不太正确每个按钮周围都有一个白色边
将字符串转换为 TextView

String data tv 另外在我的 xml 文件中我有一个名为 tv1 的 TextView 我已经在 Activity 中投射了 textView TextView tv1 TextView findViewById R id
Windows 中的 msync 等效项

Windows 中的 rsync unix 系统调用相当于什么我正在寻找 C C 空间中的 MSDN api 有关 msync 的更多信息请访问http opengroup org onlinepubs 007908799 xsh m
如何在 Android 的 SQLite 查询中使用 LIMIT 参数

我正在尝试使用以下查询来获取按日期列出的最新结果 Cursor cursor mDb query DATABASE TABLE new String KEY DATE KEY REPS KEY WEIGHT null null null n
从 ZIP 字符串中提取文件

我有一个 BASE64 字符串的 zip 文件其中包含一个 XML 文件关于如何获取 XML 文件的内容而无需处理磁盘上的文件有什么想法吗我非常希望将整个过程保留在内存中因为 XML 只有 1 5k 必须编写 zip 提取 XML
查询优化——花费太长时间并停止服务器

我的查询生成一些有关超速上次时间和平均速度的报告这是我的查询 Select r1 r2 name r2 notes r2 serial From SELECT k idgps unit MIN k dt AS DT Start MIN
计算未排序数据中唯一对和非唯一对实例的数量

我有以下形式的数据 ID ATTR 3 10 1 20 1 20 4 30 其中 ID 和 Attr 未排序并且可能包含重复项 ID的范围是1 20 000左右 ATTR是unsigned int 我可能需要一次处理 100 000 到 5

计算未排序数据中唯一对和非唯一对实例的数量

计算未排序数据中唯一对和非唯一对实例的数量 的相关文章

随机推荐

热门标签

计算未排序数据中唯一对和非唯一对实例的数量的相关文章