请识别此算法：数据流中的概率前 k 个元素

2024-04-07

我记得几年前听说过以下算法，但在网上找不到任何参考。它仅使用 m 个计数器来识别 n 个元素的数据流中的前 k 个元素（或重量级元素）。这对于在使用最少内存的情况下查找热门搜索词、网络滥用者等特别有用。

算法：对于每个元素，

如果该元素还没有计数器且计数器 m，则为该元素创建一个计数器并初始化为 1。
否则，如果该元素确实有一个计数器，则增加它。
否则，如果元素没有计数器且计数器 > m，则递减现有计数器 c。如果c达到0，则将其对应的元素替换为当前元素。（c 是现有计数器列表的索引，其中 c 对于到达此步骤的每个元素以循环方式增加。）

我发现了许多其他类似的算法（在这篇关于的维基百科文章中列出了其中许多，尽管没有描述）流算法 http://en.wikipedia.org/wiki/Streaming_algorithm#Heavy_hitters），但不是这个。我特别喜欢它，因为它的实现和描述一样简单。

但我想更多地了解它的概率特征——如果我只对前 100 个项目感兴趣，那么使用 1,000 个计数器而不是 100 个计数器会有什么效果？

您正在谈论著名的 Misra-Gries 算法，而节省空间算法是 Misra-Gries 算法的更快版本。详情请查看本讲义流算法达特茅斯 http://www.cs.dartmouth.edu/~ac/Teach/CS49-Fall11/Notes/lecnotes.pdf第 1.2 节。

我想指出的一件事是，如果只使用 k 个计数器，该算法不会给出 top-k 元素，而是给出频率 > m / k 的所有元素，其中 m 是数据流的总长度。

详细分析可以参见我所附的讲义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

Stream

请识别此算法：数据流中的概率前 k 个元素的相关文章

编程 Pearls - 随机选择算法

Programming Pearls 第一版第 120 页介绍了从 N 个整数总体中选择 M 个等概率随机元素的算法 InitToEmpty Size 0 While Size lt M do T RandInt 1 N if not Me
使用C标准数学库精确计算标准正态分布的CDF

标准 C 数学库不提供计算标准正态分布 CDF 的函数 normcdf 然而它确实提供了密切相关的函数误差函数 erf 和互补误差函数 erfc 计算 CDF 的最快方法通常是通过误差函数使用预定义常量 M SQRT1 2 来表示 d
如何高效地在屏幕上精确绘制N个点？

这听起来是一个简单的问题但我发现要获得良好的性能是非常棘手的我提出的第一个算法是随机绘制点从一组中检查是否已绘制否则绘制如果我们只绘制几个点那么这种方法效果很好但当我们接近填满屏幕时速度会灾难性地减慢我想出的最好的方法是构
使用主方法求解 T(n) = 2T(n/2) + n/log n 和 T(n) = 4T(n/2) + n/log n 之间的差异

我最近偶然发现了一个资源其中 2T n 2 n log ntypeMM 宣布复发无法解决我接受它作为一个引理直到今天另一种资源被证明是矛盾的在某种意义上根据资源下面的链接其中的 Q7 和 Q18 是建议分别在问题中的1和2
删除队列中的最后一个元素

我需要删除队列的最后一个元素我唯一可以使用的操作是 Peek 获取第一个元素而不删除它 Enqueue element 向队列末尾插入一个元素 Dequeue 删除第一个元素 IsEmpty true 或 false 队列是否为空而且我
如何将无向图转换为 DAG？

The 维基页面 http en wikipedia org wiki Directed acyclic graph Relation to other kinds of graphs says 任何无向图都可以通过为其顶点选择总顺序并将每
寻找将集合映射到整数的双射函数

对于任意两个序列 a b 其中 a a1 a2 an 且 b b1 b2 bn 0a b具有相同的元素而不关心它们的顺序例如如果 a 1 1 2 3 b 2 1 3 1 c 3 2 1 3 则 f a f b f a f b 我知道有
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
异或交换可以扩展到两个以上的变量吗？

我一直在尝试将异或交换扩展到两个以上的变量例如n变量但我没有得到比这更好的地方3 n 1 对于两个整型变量x1 and x2你可以像这样交换它们 swap x1 x2 x1 x1 x2 x2 x1 x2 x1 x1 x2 所以假设你有
数学组合的完美最小哈希

首先定义两个整数N and K where N gt K 两者都在编译时已知例如 N 8 and K 3 接下来定义一组整数 0 N or 1 N 如果这使答案更简单并调用它S 例如 0 1 2 3 4 5 6 7 的子集数量S wi
找到一条穿过任意节点序列的最短路径？

In 这个先前的问题 https stackoverflow com questions 7314333 find shortest path from vertex u to v passing through a vertex wOP询
迭代任意大小的子集

我可以迭代大小为 1 的子集 for int a 0 a lt size a 或大小为 2 的子集 for int a1 0 a1 lt size a1 for int a2 a1 1 a2 lt size a2 or 3 for int
具有 2 个属性的背包算法。如何在 3d 数组中实现它？

当有超过 1 个属性时我无法理解背包问题当有 1 个属性时我必须编写一个使用具有 2 个属性的背包算法的程序老师告诉我们它必须在 3d 数组中完成错误的实现将导致 O 2 n 处理时间我无法想象这样的数组会是什么样子假设这是
从一种数字系统转换为另一种数字系统后会有多少位数字

主要问题有多少位数字让我解释我有一个二进制数 11000000 十进制数是192 转换为十进制后它有多少位以十进制表示在我的示例中它是 3 位数字但是这不是问题我在互联网上搜索并找到了一种用于整数部分的算法和一种用于小数
大数据使用什么数据结构

我有一个包含一百万行的 Excel 工作表每行有 100 列每行代表一个具有 100 个属性的类的实例列值是这些属性的值哪种数据结构最适合在这里使用来存储数百万个数据实例 Thanks 这实际上取决于您需要如何访问这些数据以及您想要
实施二分查找有哪些陷阱？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案二分查找比看起来更难实现虽然二分搜索的基本思想相对简单但细节可能出人意料地棘手 Donald Knuth 新的二分搜索实现中最有可
在java中使用BUBBLE SORT对二维字符串数组进行排序

类似的问题已经被问过但从来没有关于二维字符串数组因此在尝试了很长时间之后我找不到我想要的我正在尝试使用 BubbleSort 对 java 中的 2D 字符串数组进行排序作为输入我收到一个二维字符串数组一个表以及您应该排序的
如何对对象进行排序？（画家算法）

所以我有 4 个矩形形状我正在尝试应用排序算法画家算法 https en wikipedia org wiki Painter 27s algorithm 来知道我需要先绘制哪些形状在 3d 中然后绘制哪个形状 Note 相机位于右
平铺单纯形噪声？

我作为业余爱好者对伪随机噪声生成很感兴趣特别是 Perlin 和 Simplex 算法 Simplex 的优点是速度尤其是在更高的维度上但 Perlin 可以相对容易地平铺我想知道是否有人知道平铺单纯形算法固定维度就好泛型更
O(1) 算法确定节点是否是多路树中另一个节点的后代？

想象一下下面的树 A B C D E F 我正在寻找一种方法来查询 F 是否是 A 的后代注意 F 不需要是directA 的后代在这种特殊情况下这是正确的只需要针对更大的潜在后代节点池测试有限数量的潜在父节点当测试一个节点是否是潜

随机推荐

Microsoft.Owin.Cors 中间件与 ASP.NET Web Api 2.0 一起使用时会做什么？

我有一个带有令牌身份验证的 ASP NET Web Api 2 0 项目所有内容主要按照本文完成使用 ASP NET Web API 2 Owin 和 Identity 进行基于令牌的身份验证 http bitoftech net 20
ASP.NET MVC 性能

我发现一些疯狂的评论称 ASP NET MVC 比 ASP NET WebForms 快 30 倍真正的性能差异是什么是否经过测量以及性能优势是什么这是为了帮助我考虑从 ASP NET WebForms 迁移到 ASP NET MVC
将 Docker 容器限制为单个 cpu 核心

我正在尝试构建一个在一致条件下运行代码片段的系统我认为实现这一点的一种方法是在具有相同布局的 docker 容器中运行各种程序保留相同数量的内存等但是我似乎不知道如何保持 CPU 使用率一致我似乎能找到的最接近的是 cpu 共享
压缩过滤器+MVC+Yahoo YSlow

我一直在使用雅虎的 YSLOW 来尝试让我的页面运行得更快AgentX http www agentx co nz 我正在使用下面的压缩过滤器当我通过 Visual Studio 运行该网站时 YSLOW 说所有文件都已压缩当我查看实时
C#：从 XML 读取/写入日期时间

我需要知道写作阅读的最佳方式DateTime传入传出 XML 我应该直接写吗DateTime转换为 XML 或DateTime ToString 转换为 XML 第二个问题是如何从 XML 中读取日期元素铸造可以用于此目的吗例如 D
RxJS (5.0rc4)：暂停和恢复间隔计时器

我正在使用 Rx 来保持动画时钟每个动画帧都会将间隔刻度映射到该刻度的新值假设我想暂停动画最自然的方法是以某种方式暂停时钟接收然后在稍后恢复它取消订阅然后重新订阅并不是一个自然的选择因为这个动画时钟是一个冷可观察的对象我不想在
如何使用 QtMqtt 和 SSL 执行安全 MQTT？

我正在尝试使用 QtMQtt 示例项目 simpleclient 但我想执行安全的 MQTT 我该如何处理这个问题我读过这篇博客 https www qt io blog 2017 08 14 introducing qtmqtt pro
如何区分应用程序退出和系统关闭

Mac OS X 上的 Java 在 Swing GUI 应用程序中我想区分应用程序退出和系统关闭在应用程序退出时我想显示一个确认对话框但是当用户选择系统关闭时我只想退出应用程序因为系统已经出现了一个确认对话框这在其他平台
Python 中的意外列表行为

我想颠倒一个列表我成功地做到了但在工作的过程中我发现了一些奇怪的事情以下程序按预期工作但未注释行list reversed i list len list 1 i and 打印列表 i 评论最后一行当然导致了改变list 我没看
使用 setInterval() 后出现clearInterval() 未定义错误

我知道这不应该是内联的但 YUI 库的对话框迫使我这样做我的问题是每当我将鼠标悬停在该 div 上时左边缘滚动就会激活但当我将鼠标移出该 div 时它不会停止 JS 控制台报告未捕获的引用错误 timerID 未定义这是代码
如何从 MQTT 生产并在 ActiveMQ 中作为 MQTT 和 JMS 消费

我有一个设置其中消息作为 MQTT 生成到 ActiveMQ 我有两个消费者一个作为 JMS 另一个作为 MQTT 当我将消息作为 JMS 消息发布到主题 foo 时我在 JMS 和 MQTT 消费者处都收到消息但是当我在同一主题上
make_shared真的比new更高效吗？

我正在尝试shared ptr and make shared从 C 11 编写了一个小玩具示例来看看调用时实际发生了什么make shared 作为基础设施我使用 llvm clang 3 0 以及 XCode4 中的 llvm std
共享首选项和微调器不维护状态

我有一个像这样的旋转器 Spinner 1 final Spinner plan Spinner dialog findViewById R id spinner1 strings getResources getStringArray R
Android - 使用外部浏览器在 WebView 中打开目标 _blank 链接

我建立一个WebView显示一个网站该网站包含无链接的链接target blank 属性和一些带有它的我需要打开链接target在外部标准设备浏览器中定义的以及在 WebView 内部没有定义的我正在使用一个WebViewClient
dart 中整数的最大值是多少？

我到处都找过但找不到与该主题相关的任何信息另外 dart 中是否有类似 java 的 Long BigDecimal 数据类型 Dart 2 对于 dart2js 生成的 JavaScript Pixel Elephant 的答案仍然是
在 ruby 中处理大型 CSV 文件 (20G)

我正在解决一个小问题并会就如何解决它提供一些建议给定一个列数和行数未知的 csv 文件输出包含值的列列表以及每个值重复的次数不使用任何库如果文件很小这应该不是问题但是当它是几场演出时我得到 NoMemoryError 无法分
为什么静态方法需要包装到类中？

对于这个问题的无知性质我深表歉意如果有一个简单的答案只需一个解释链接就会让我非常高兴经过 6 个月的编程后我发现静态类对于存储适用于许多不同类的例程有点有用这是我如何使用静态类的一个简化示例它是一个用于将文本解析为各种内容的类
如何在 Lighttable 中创建基本的 ClojureScript Hello World 应用程序？

LightTable 中的文档似乎相当稀疏我想在 LightTable 中创建一个非常简单的 ClojureScript Web 应用程序作为构建的起点我让 Clojure 中的 Instarepl 工作正常然后创建一个名为 dumm
从计算机商店删除证书

我很难让 powershell 删除意外安装到我们所有 Windows 7 计算机上的计算机商店的证书作为示例我提供了证书安装位置的屏幕截图这不是实际的证书我们有几百台机器因此我们希望尽可能自动化地完成此操作如果有人可以提供一种
请识别此算法：数据流中的概率前 k 个元素

我记得几年前听说过以下算法但在网上找不到任何参考它仅使用 m 个计数器来识别 n 个元素的数据流中的前 k 个元素或重量级元素这对于在使用最少内存的情况下查找热门搜索词网络滥用者等特别有用算法对于每个元素如果该元素还没有计数

请识别此算法：数据流中的概率前 k 个元素

请识别此算法：数据流中的概率前 k 个元素 的相关文章

随机推荐

热门标签

请识别此算法：数据流中的概率前 k 个元素的相关文章