在内存无法容纳的大文件中查找“n”个最重复的单词/字符串

2024-04-27

我想验证我的伪代码，建议优化和更好的方法。

最重复的单词（按排名）：
（此处的排名定义了您要选择的排名，即前 X 个最重复的单词）

外部按字母顺序对所有文件进行排序。下列的这里提到的算法 http://www.tcs.fudan.edu.cn/rudolf/Courses/Algorithms/Alg_cs_06w/Resources/cache_sort.pdf.
复杂度：ø (n log n/m)
创建一个新文件“wordCount”，其中包含类似的条目

"word1" : 3- 即 word1 重复了 3 次
"word2" : 1- 即 word2 是唯一的。

for ( read each of the sorted file one by one ) { 
    for (read each "word" in the current file) { 
        int count =  checkIfDuplicateAndReturnCount(); 
        enter "word" and "count" in the "wordCount" file. 

        sanitizeFile(); 

        if  (wordCount file is > page size) { 
                write wordCount file to disk. 
                create a new wordCount file.
         } 

        move to next word ie currentword + count;
    } 
}

复杂度 O (n + p)，其中 n 是已排序页面的数量，p

checkIfDuplicateAndReturnCount()是一个简单的函数，它将将此元素与第一个和前一个等进行比较，并确定单词的频率。
sanitizeFile()当页面上充斥着相同的单词时使用。假设一个页面的大小为 4KB，并且假设在排序时包含单词“the”的页面数量大于（4KB / 单词大小）。那么我们可能需要创建一个新文件。但是清理文件将采取额外的步骤来合并文件中同一单词的两个条目。例子：
- : 500
- : 600
将合并为：
- : 1100

for  (reading the all the wordcount files one by one ) {
  for (each word in the wordcount) {
    Use a minimum heap / priority queue of size "rank" to keep track of the frequency.
    if (wordcount > heap.peek()) {
        heap.addAtPositionZero(word);
    }   
  }
}

复杂度为 O(p)

复杂度： ø ( n log n / m ) + O (n + p ) + O(p) 有效： ø ( n log n / m )

无需提前对文件进行排序。这样做只是一堆不必要的 I/O。

更直接的方法是：

Create an empty dictionary (hash map), keyed by word. The value is the count.
for each file
    while not end of file
        read word
        if word in dictionary
            update count
        else
            if dictionary full
                sort dictionary by word
                output dictionary to temporary file
                Clear dictionary
            Add word to dictionary, with count 1
    end
end
if dictionary not empty
    sort dictionary by word
    output dictionary to temporary file

您现在拥有一定数量的临时文件，每个文件均按单词排序，并且每行包含一个单词/计数对。喜欢：

aardvark,12
bozo,3
zebra,5

创建一个最小堆，用于保存 n 个最大的项目。叫它largest_items.

做一个标准n路合并 https://stackoverflow.com/questions/5055909/algorithm-for-n-way-merge这些临时文件。当您找到每个唯一的项目时（即合并多个文件中的所有“aardvark”条目），您可以执行以下操作：

if (largest_items.count < n)
    largest_items.add(word)
else if (word.count > largest_items.peek().count)
{
    // the count for this word is more than the smallest count
    // already on the heap. So remove the item with the
    // smallest count, and add this one.
    largest_items.remove_root()
    largest_items.add(word)
}

复杂：

构建字典的时间复杂度为 O(N)，其中N是文件中单个单词的总数。
对每个临时字典进行排序的时间复杂度为 O(k log k)，其中“k”是字典中的单词数。
编写每个临时字典的时间复杂度为 O(k)
合并的时间复杂度为 O(M log x)，其中M是所有临时文件的条目总数，并且x是临时文件的数量。
选择项目的时间复杂度为 O(m log n)，其中m是唯一单词的数量，并且n是您要选择的字数。

如果您考虑最坏情况的行为（即所有单词都是唯一的），则复杂性为（n是总字数）：

构建字典的时间复杂度为 O(n)
排序并写入临时文件是(n/m) * (m log m), where m是字典的大小。
合并是n log (n/m).
选择是 O(m + (k log k))，其中k是您要选择的单词数，m是唯一单词的数量。因为所有单词都是唯一的，所以它们具有相同的计数，所以你只会这样做k插入到堆中。这m当术语占主导地位时k远小于m（在这些情况下通常是这种情况）。所以选择的时间复杂度为 O(m)。

当您处理大于内存的数据集时，瓶颈通常是文件 I/O。我上面概述的算法尝试最小化 I/O。在最坏的情况下（所有单词都是唯一的），每个单词将被读取两次并写入一次。但在一般情况下，每个单词被读取一次，然后每个哈希页被写入一次并读取一次。另外，您的排序是在哈希页面而不是原始单词上进行的，并且临时文件的总大小将比原始文本小得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

在内存无法容纳的大文件中查找“n”个最重复的单词/字符串的相关文章

帮助我在 Python 中实现反向传播

EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
在 O(nloglogn) 最坏情况时间内对具有 O(logn) 个不同元素的 n 元素数组进行排序

目前的问题是标题本身的内容即给出一种算法该算法在 O log logn 最坏情况时间内对具有 O log n 个不同元素的 n 元素数组进行排序有任何想法吗此外您通常如何处理具有多个非不同元素的数组 O 日志日志 n 时间足以让
集合划分比差分获得更好的结果

分区问题 https en wikipedia org wiki Partition problem已知是 NP 困难的根据问题的特定实例我们可以尝试动态规划或一些启发式方法例如差分法也称为 Karmarkar Karp 算法后者
跨线反映点的算法

给定一个点 x1 y1 和一条直线的方程 y mx c 我需要一些伪代码来确定反映直线上第一个点的点 x2 y2 花了大约一个小时试图弄清楚但没有运气请参阅此处的可视化 http www analyzemath com Geometry
创建横幅交换算法来轮播广告

我正在构建广告横幅轮播脚本基于印象整个月均匀地显示广告每次请求显示广告时都会进行计算所以这将是即时完成的广告应显示为一个接一个轮流播放而不是仅显示一个广告 1000 次展示然后显示另一个广告 1000 次展示大多数情况下它应该
查找二维空间中圆内的所有点

我表示我的 2D 空间考虑一个窗口其中每个像素显示为 2D 数组中的一个单元格即 100x100 的窗口由相同维度的数组表示现在给定窗口中的一个点如果我画一个半径的圆r 我想找到该圆圈中的所有点我想我应该检查半径周围方形区域中的
使用动态编程理解正则表达式字符串匹配

我遇到了这个问题要求您实现一个支持的正则表达式匹配器和其中匹配任何单个字符匹配零个或多个前面的元素 isMatch aa a false isMatch aa aa true isMatch aaa aa false isMat
贪心算法的使用示例？

贪心算法有什么用一个真实的例子最小生成树 Prim http en wikipedia org wiki Prim s algorithm的算法和克鲁斯卡尔的 http en wikipedia org wiki Kruskal s a
如何在从左到右、从上到下排序的二维数组中搜索数字？

我最近收到了这个面试问题我很好奇有什么好的解决方案假设我有一个二维数组其中所有数组中的数字在增加从左到右从上到下的顺序底部搜索和搜索的最佳方式是什么判断目标号码是否在大批现在我的第一个倾向是使用二分搜索因为我的数据
硬币兑换的空间优化解决方案

给定一个值 N 如果我们想要找 N 分钱并且我们有无限供应每种 S S1 S2 Sm 价值的硬币我们可以有多少种找零方式硬币的顺序并不重要例如对于 N 4 且 S 1 2 3 有四种解 1 1 1 1 1 1 2 2 2 1 3
计算标签云中标签字体大小的公式是什么？

我有一个标签云我需要知道如何更改最常用标签的字体大小我需要设置最小字体大小和最大字体大小您可以使用线性或对数评估与某个标签相对于最大标签关联的项目数量将其乘以最小和最大字体大小之间的差值然后将其添加到最小字体大小例如伪代码中的
以与版本页面上相同的方式区分两个字符串的算法是什么？

我正在尝试按短语区分两个字符串类似于 StackOverflow 在版本编辑页面上区分两个字符串的方式执行此操作的算法是什么是否有 gems 或其他标准库可以实现此目的编辑我见过其他比较算法 Differ http github
如何选择部分密集数据集的均匀分布子集？

P是一个 n d 矩阵持有nd 维样本 P某些地区的密度是其他地区的几倍我想选择一个子集P其中任意样本对之间的距离大于d0 并且我需要将其传播到整个区域所有样本都具有相同的优先级无需优化任何内容例如覆盖面积或成对距离之和这是执行
算法：最大计数器

我有以下问题您有 N 个计数器最初设置为 0 并且您对它们有两种可能的操作 increase X 计数器 X 加 1 max counter 所有计数器都设置为任何计数器的最大值给出一个包含 M 个整数的非空零索引数组 A 该数组代表
C# 计算LRC（纵向冗余检查）

我一直在到处研究这个问题所有 LRC 实现似乎都没有给我正确的答案花了几天时间后我决定将我的代码放在这里看看其他人是否可以发现问题这是代码 C Input Data 31303030315E315E31303030325E315E
给定与总和匹配的长度的唯一 3 位数字 (-1,0,1) 序列的数量

假设您有一个长度为 n 即空格数的垂直游戏板你有一个三面骰子有以下选项前进一停留和后退如果您低于或高于棋盘游戏空间的数量则该游戏无效一旦到达棋盘末端唯一有效的动作就是停留给定确切的骰子投掷次数 t 是否可以通过算法计算
添加到数组连续数字

这是我向SO提出的第一个问题我希望能答对在 PHP 中如果你不会 Python 或伪语言也可以给定一个包含 n 个元素的数组 old array 1 2 3 5 7 8 9 20 21 23 29 我需要向新数组添加连续数字如果不
我想优化这个短循环

我想优化这个简单的循环 unsigned int i while j 0 j is an unsigned int with a start value of about N 36 000 000 float sub 0 i 1 unsig
如何设置K-means openCV c++的初始中心

我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ

随机推荐

无法解析类或包“h2”

我为我的网络应用程序开发后端应用程序在我的项目 SpringBoot Maven 中我想添加 h2 数据库根据网上的教程添加了以下几行应用程序属性 file server port 8088 spring h2 console en
当意图过滤器启动时调试应用程序

我通常通过按 Eclipse 中的小 bug 图标来调试我的应用程序但现在我在清单中插入了这样的意图过滤器
在 Rails 控制台中将大十进制转换为字符串

我试图让我的控制台打印出我所有地点价目表定价的总和我试图通过控制台完成此任务但得到一个 BigDecimal 作为结果纠结于如何将此结果转换为清晰的字符串或整数 Results Location pluck rate card sum
Firebase 支付网关？

我目前正在评估 Firebase 是否适合我正在制作的应用程序我发现的唯一潜在的症结是接受付款目前有哪些选项 Firebase 是一个实时数据存储专注于闪电般快速可扩展的解决方案用于同时在数百到数百万客户端之间共享数据它内部不提
如何更改 MSBuild 在 Team Foundation Build 下使用的构建目录？

尝试使用 Team Foundation Build 构建我的应用程序时出现以下错误 C WINDOWS Microsoft NET Framework v3 5 Microsoft Common targets 1682 9 错误 MSB
如何在aerospike中获取ttl为-1的记录集？

我在aerospike中有很多记录我想获取ttl为 1的记录请提供解决方案只是为了澄清设置TTL 为 1 https github com aerospike aerospike client go blob master docs
VB.NET 相当于 C# var 关键字 [重复]

这个问题在这里已经有答案了是否有与 C 等效的 VB NETvar关键词我想用它来检索 LINQ 查询的结果选项推断 http msdn microsoft com en us library bb384665 aspx必须是on为了
如何在matlab中显示图像上的点？

我有一些像素点比如 p1 1 1 和 p2 1 10 等等我想以任何颜色在图像上显示这些点这个怎么做 MATLAB plot http www mathworks com help techdoc ref plot html文档非常全
emacs24 语义补全

我正在尝试使用 emacs 24 及其附带的 cedet 版本来完成语义补全适用于我在自己的源文件中定义的类但补全不适用于标准库或 STL 内容这是我的 emacs 配置 require cedet require semantic r
NodeJS 如何在没有 WebSocket 的情况下处理持久连接？

我对 NodeJS 真的很陌生如果我对某些东西听起来很天真我很抱歉并且我一直在深入研究示例的源代码聊天应用 http github com ry node chat 但是我无法理解一件事我知道 WebSockets 有助于处理持久
如何在 Visual Studio Code 中查找并替换所有出现的位置（在所有文件中）？

我不知道如何使用 Visual Studio Code 1 0 版查找和替换不同文件中出现的所有单词我的印象是这应该是可能的因为执行 Ctrl Shift F 可以让我简单地搜索文件夹但我不知道如何从这里继续我查看了各种组合键htt
public open fun navigateUp() 的参数太多

我在 Kotlin 中创建了一个新的 Android 项目我还使用向导创建了一个新的导航抽屉活动一如既往没有任何东西是开箱即用的以下行显示编译错误 val navController findNavController R id n
如何在注册和结账过程中更改magento中的“送货信息”标签

我想将帐单信息标签文本更改为运输和帐单信息我尝试使用 Mage Checkout csv 但这没有帮助请提出解决方案谢谢你 Use the 翻译文件translate csv在你的主题中出于演示目的我将使用默认包 app d
asp.net mvc 在哪里设置默认文化？

用于多语言 asp net mvc 网站我应该在哪里将线程的文化设置为默认语言对于我的情况是 tr TR 此外如果它不存在我需要将其保存在 cookie 中在 Application Start 中还是其他我有多个站点域因此
在 Linux 上的 makefile 和 Makefile 之间进行选择

我想在一个目录中同时使用 Makefile 和 makefile 进行 make 默认情况下它将执行makefile 我可以选择执行 Makefile 吗提前致谢最简单的选择是使用 f make f Makefile From man
如何在 github 提交中设置用户名别名？

我刚刚在大学读完一个学期决定将我的所有项目从 bitbucket 我的课程所需导入到 github 我所有其他项目都在其中我成功导入了它们不幸的是当我从事这些项目时我在三台不同的计算机之间切换因此提交历史记录中有许多我自己所
在 Cygwin 中启用 Postgresql

我安装了Cygwin与 Perl 和Postgresql已启用软件包然后输入 usr bin cygserver config This will install the service 然后输入 net start cygserver
set()是如何实现的？

我见过有人这么说setpython 中的对象具有 O 1 成员资格检查他们如何在内部实施以实现这一点它使用什么类型的数据结构该实施还有哪些其他影响这里的每个答案都非常有启发性但我只能接受一个所以我将选择最接近我原来问题的答案谢
您能否推荐一个 JQuery 插件来组成一组可映射到 SQL 查询的条件？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我发现了http redquerybuilder appspot com http redquerybu
在内存无法容纳的大文件中查找“n”个最重复的单词/字符串

我想验证我的伪代码建议优化和更好的方法最重复的单词按排名此处的排名定义了您要选择的排名即前 X 个最重复的单词外部按字母顺序对所有文件进行排序下列的这里提到的算法 http www tcs fudan edu cn rudol

在内存无法容纳的大文件中查找“n”个最重复的单词/字符串

在内存无法容纳的大文件中查找“n”个最重复的单词/字符串 的相关文章

随机推荐

热门标签

在内存无法容纳的大文件中查找“n”个最重复的单词/字符串的相关文章