在内存无法容纳的大文件中查找“n”个最重复的单词/字符串

2024-04-27

我想验证我的伪代码,建议优化和更好的方法。

最重复的单词(按排名):
(此处的排名定义了您要选择的排名,即前 X 个最重复的单词)

  1. 外部按字母顺序对所有文件进行排序。下列的这里提到的算法 http://www.tcs.fudan.edu.cn/rudolf/Courses/Algorithms/Alg_cs_06w/Resources/cache_sort.pdf.
    复杂度:ø (n log n/m)

  2. 创建一个新文件“wordCount”,其中包含类似的条目

    "word1" : 3- 即 word1 重复了 3 次
    "word2" : 1- 即 word2 是唯一的。

  3.  

    for ( read each of the sorted file one by one ) { 
        for (read each "word" in the current file) { 
            int count =  checkIfDuplicateAndReturnCount(); 
            enter "word" and "count" in the "wordCount" file. 
    
            sanitizeFile(); 
    
            if  (wordCount file is > page size) { 
                    write wordCount file to disk. 
                    create a new wordCount file.
             } 
    
            move to next word ie currentword + count;
        } 
    }
    

    复杂度 O (n + p),其中 n 是已排序页面的数量,p

  4. checkIfDuplicateAndReturnCount()是一个简单的函数,它将将此元素与第一个和前一个等进行比较,并确定单词的频率。

  5. sanitizeFile()当页面上充斥着相同的单词时使用。假设一个页面的大小为 4KB,并且假设在排序时包含单词“the”的页面数量大于(4KB / 单词大小)。那么我们可能需要创建一个新文件。但是清理文件将采取额外的步骤来合并文件中同一单词的两个条目。例子:

    • : 500
    • : 600

    将合并为:

    • : 1100
  6.  

    for  (reading the all the wordcount files one by one ) {
      for (each word in the wordcount) {
        Use a minimum heap / priority queue of size "rank" to keep track of the frequency.
        if (wordcount > heap.peek()) {
            heap.addAtPositionZero(word);
        }   
      }
    }
    

    复杂度为 O(p)

  7. 复杂度: ø ( n log n / m ) + O (n + p ) + O(p) 有效: ø ( n log n / m )


无需提前对文件进行排序。这样做只是一堆不必要的 I/O。

更直接的方法是:

Create an empty dictionary (hash map), keyed by word. The value is the count.
for each file
    while not end of file
        read word
        if word in dictionary
            update count
        else
            if dictionary full
                sort dictionary by word
                output dictionary to temporary file
                Clear dictionary
            Add word to dictionary, with count 1
    end
end
if dictionary not empty
    sort dictionary by word
    output dictionary to temporary file

您现在拥有一定数量的临时文件,每个文件均按单词排序,并且每行包含一个单词/计数对。喜欢:

aardvark,12
bozo,3
zebra,5

创建一个最小堆,用于保存 n 个最大的项目。叫它largest_items.

做一个标准n路合并 https://stackoverflow.com/questions/5055909/algorithm-for-n-way-merge这些临时文件。当您找到每个唯一的项目时(即合并多个文件中的所有“aardvark”条目),您可以执行以下操作:

if (largest_items.count < n)
    largest_items.add(word)
else if (word.count > largest_items.peek().count)
{
    // the count for this word is more than the smallest count
    // already on the heap. So remove the item with the
    // smallest count, and add this one.
    largest_items.remove_root()
    largest_items.add(word)
}

复杂:

  • 构建字典的时间复杂度为 O(N),其中N是文件中单个单词的总数。
  • 对每个临时字典进行排序的时间复杂度为 O(k log k),其中“k”是字典中的单词数。
  • 编写每个临时字典的时间复杂度为 O(k)
  • 合并的时间复杂度为 O(M log x),其中M是所有临时文件的条目总数,并且x是临时文件的数量。
  • 选择项目的时间复杂度为 O(m log n),其中m是唯一单词的数量,并且n是您要选择的字数。

如果您考虑最坏情况的行为(即所有单词都是唯一的),则复杂性为(n是总字数):

  • 构建字典的时间复杂度为 O(n)
  • 排序并写入临时文件是(n/m) * (m log m), where m是字典的大小。
  • 合并是n log (n/m).
  • 选择是 O(m + (k log k)),其中k是您要选择的单词数,m是唯一单词的数量。因为所有单词都是唯一的,所以它们具有相同的计数,所以你只会这样做k插入到堆中。这m当术语占主导地位时k远小于m(在这些情况下通常是这种情况)。所以选择的时间复杂度为 O(m)。

当您处理大于内存的数据集时,瓶颈通常是文件 I/O。我上面概述的算法尝试最小化 I/O。在最坏的情况下(所有单词都是唯一的),每个单词将被读取两次并写入一次。但在一般情况下,每个单词被读取一次,然后每个哈希页被写入一次并读取一次。另外,您的排序是在哈希页面而不是原始单词上进行的,并且临时文件的总大小将比原始文本小得多。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在内存无法容纳的大文件中查找“n”个最重复的单词/字符串 的相关文章

  • 帮助我在 Python 中实现反向传播

    EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
  • 在 O(nloglogn) 最坏情况时间内对具有 O(logn) 个不同元素的 n 元素数组进行排序

    目前的问题是标题本身的内容 即给出一种算法 该算法在 O log logn 最坏情况时间内对具有 O log n 个不同元素的 n 元素数组进行排序 有任何想法吗 此外 您通常如何处理具有多个非不同元素的数组 O 日志 日志 n 时间足以让
  • 集合划分比差分获得更好的结果

    分区问题 https en wikipedia org wiki Partition problem已知是 NP 困难的 根据问题的特定实例 我们可以尝试动态规划或一些启发式方法 例如差分法 也称为 Karmarkar Karp 算法 后者
  • 跨线反映点的算法

    给定一个点 x1 y1 和一条直线的方程 y mx c 我需要一些伪代码来确定反映直线上第一个点的点 x2 y2 花了大约一个小时试图弄清楚但没有运气 请参阅此处的可视化 http www analyzemath com Geometry
  • 创建横幅交换算法来轮播广告

    我正在构建广告横幅轮播脚本基于印象整个月均匀地显示广告 每次请求显示广告时都会进行计算 所以这将是即时完成的 广告应显示为一个接一个轮流播放 而不是仅显示一个广告 1000 次展示 然后显示另一个广告 1000 次展示 大多数情况下 它应该
  • 查找二维空间中圆内的所有点

    我表示我的 2D 空间 考虑一个窗口 其中每个像素显示为 2D 数组中的一个单元格 即 100x100 的窗口由相同维度的数组表示 现在给定窗口中的一个点 如果我画一个半径的圆r 我想找到该圆圈中的所有点 我想我应该检查半径周围方形区域中的
  • 使用动态编程理解正则表达式字符串匹配

    我遇到了这个问题 要求您实现一个支持 的正则表达式匹配器 和 其中 匹配任何单个字符 匹配零个或多个前面的元素 isMatch aa a false isMatch aa aa true isMatch aaa aa false isMat
  • 贪心算法的使用示例?

    贪心算法有什么用 一个真实的例子 最小生成树 Prim http en wikipedia org wiki Prim s algorithm的算法和克鲁斯卡尔的 http en wikipedia org wiki Kruskal s a
  • 如何在从左到右、从上到下排序的二维数组中搜索数字?

    我最近收到了这个面试问题 我很好奇有什么好的解决方案 假设我有一个二维数组 其中所有 数组中的数字在增加 从左到右 从上到下的顺序 底部 搜索和搜索的最佳方式是什么 判断目标号码是否在 大批 现在 我的第一个倾向是使用二分搜索 因为我的数据
  • 硬币兑换的空间优化解决方案

    给定一个值 N 如果我们想要找 N 分钱 并且我们有无限供应每种 S S1 S2 Sm 价值的硬币 我们可以有多少种找零方式 硬币的顺序并不重要 例如 对于 N 4 且 S 1 2 3 有四种解 1 1 1 1 1 1 2 2 2 1 3
  • 计算标签云中标签字体大小的公式是什么?

    我有一个标签云 我需要知道如何更改最常用标签的字体大小 我需要设置最小字体大小和最大字体大小 您可以使用线性或对数评估与某个标签相对于最大标签关联的项目数量 将其乘以最小和最大字体大小之间的差值 然后将其添加到最小字体大小 例如 伪代码中的
  • 以与版本页面上相同的方式区分两个字符串的算法是什么?

    我正在尝试按短语区分两个字符串 类似于 StackOverflow 在版本编辑页面上区分两个字符串的方式 执行此操作的算法是什么 是否有 gems 或其他标准库可以实现此目的 编辑 我见过其他比较算法 Differ http github
  • 如何选择部分密集数据集的均匀分布子集?

    P是一个 n d 矩阵 持有nd 维样本 P某些地区的密度是其他地区的几倍 我想选择一个子集P其中任意样本对之间的距离大于d0 并且我需要将其传播到整个区域 所有样本都具有相同的优先级 无需优化任何内容 例如覆盖面积或成对距离之和 这是执行
  • 算法:最大计数器

    我有以下问题 您有 N 个计数器 最初设置为 0 并且您对它们有两种可能的操作 increase X 计数器 X 加 1 max counter 所有计数器都设置为任何计数器的最大值 给出一个包含 M 个整数的非空零索引数组 A 该数组代表
  • C# 计算LRC(纵向冗余检查)

    我一直在到处研究这个问题 所有 LRC 实现似乎都没有给我正确的答案 花了几天时间后 我决定将我的代码放在这里 看看其他人是否可以发现问题 这是代码 C Input Data 31303030315E315E31303030325E315E
  • 给定与总和匹配的长度的唯一 3 位数字 (-1,0,1) 序列的数量

    假设您有一个长度为 n 即空格数 的垂直游戏板 你有一个三面骰子 有以下选项 前进一 停留和后退 如果您低于或高于棋盘游戏空间的数量 则该游戏无效 一旦到达棋盘末端 唯一有效的动作就是 停留 给定确切的骰子投掷次数 t 是否可以通过算法计算
  • 添加到数组连续数字

    这是我向SO提出的第一个问题 我希望能答对 在 PHP 中 如果你不会 Python 或伪语言也可以 给定一个包含 n 个元素的数组 old array 1 2 3 5 7 8 9 20 21 23 29 我需要向新数组添加连续数字 如果不
  • 我想优化这个短循环

    我想优化这个简单的循环 unsigned int i while j 0 j is an unsigned int with a start value of about N 36 000 000 float sub 0 i 1 unsig
  • 如何设置K-means openCV c++的初始中心

    我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割 我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
  • 如何在Scala中实现尾递归快速排序

    我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ

随机推荐

  • 无法解析类或包“h2”

    我为我的网络应用程序开发后端应用程序 在我的项目 SpringBoot Maven 中 我想添加 h2 数据库 根据网上的教程 添加了以下几行应用程序属性 file server port 8088 spring h2 console en
  • 当意图过滤器启动时调试应用程序

    我通常通过按 Eclipse 中的小 bug 图标来调试我的应用程序 但现在我在清单中插入了这样的意图过滤器
  • 在 Rails 控制台中将大十进制转换为字符串

    我试图让我的控制台打印出我所有地点价目表定价的总和 我试图通过控制台完成此任务 但得到一个 BigDecimal 作为结果 纠结于如何将此结果转换为清晰的字符串或整数 Results Location pluck rate card sum
  • Firebase 支付网关?

    我目前正在评估 Firebase 是否适合我正在制作的应用程序 我发现的唯一潜在的症结是接受付款 目前有哪些选项 Firebase 是一个实时数据存储 专注于闪电般快速 可扩展的解决方案 用于同时在数百到数百万客户端之间共享数据 它内部不提
  • 如何更改 MSBuild 在 Team Foundation Build 下使用的构建目录?

    尝试使用 Team Foundation Build 构建我的应用程序时出现以下错误 C WINDOWS Microsoft NET Framework v3 5 Microsoft Common targets 1682 9 错误 MSB
  • 如何在aerospike中获取ttl为-1的记录集?

    我在aerospike中有很多记录 我想获取ttl为 1的记录 请提供解决方案 只是为了澄清 设置TTL 为 1 https github com aerospike aerospike client go blob master docs
  • VB.NET 相当于 C# var 关键字 [重复]

    这个问题在这里已经有答案了 是否有与 C 等效的 VB NETvar关键词 我想用它来检索 LINQ 查询的结果 选项推断 http msdn microsoft com en us library bb384665 aspx必须是on为了
  • 如何在matlab中显示图像上的点?

    我有一些像素点 比如 p1 1 1 和 p2 1 10 等等 我想以任何颜色在图像上显示这些点 这个怎么做 MATLAB plot http www mathworks com help techdoc ref plot html文档非常全
  • emacs24 语义补全

    我正在尝试使用 emacs 24 及其附带的 cedet 版本来完成语义 补全适用于我在自己的源文件中定义的类 但补全不适用于标准库或 STL 内容这是我的 emacs 配置 require cedet require semantic r
  • NodeJS 如何在没有 WebSocket 的情况下处理持久连接?

    我对 NodeJS 真的很陌生 如果我对某些东西听起来很天真 我很抱歉 并且我一直在深入研究示例的源代码聊天应用 http github com ry node chat 但是 我无法理解一件事 我知道 WebSockets 有助于处理持久
  • 如何在 Visual Studio Code 中查找并替换所有出现的位置(在所有文件中)?

    我不知道如何使用 Visual Studio Code 1 0 版查找和替换不同文件中出现的所有单词 我的印象是这应该是可能的 因为执行 Ctrl Shift F 可以让我简单地搜索文件夹 但我不知道如何从这里继续 我查看了各种组合键htt
  • public open fun navigateUp() 的参数太多

    我在 Kotlin 中创建了一个新的 Android 项目 我还使用向导创建了一个新的导航抽屉活动 一如既往 没有任何东西是开箱即用的 以下行显示编译错误 val navController findNavController R id n
  • 如何在注册和结账过程中更改magento中的“送货信息”标签

    我想将 帐单信息 标签文本更改为 运输和帐单信息 我尝试使用 Mage Checkout csv 但这没有帮助 请提出解决方案 谢谢你 Use the 翻译文件translate csv在你的主题中 出于演示目的 我将使用默认包 app d
  • asp.net mvc 在哪里设置默认文化?

    用于多语言 asp net mvc 网站 我应该在哪里将线程的文化设置为默认语言 对于我的情况是 tr TR 此外 如果它不存在 我需要将其保存在 cookie 中 在 Application Start 中还是其他 我有多个站点 域 因此
  • 在 Linux 上的 makefile 和 Makefile 之间进行选择

    我想在一个目录中同时使用 Makefile 和 makefile 进行 make 默认情况下 它将执行makefile 我可以选择执行 Makefile 吗 提前致谢 最简单的选择是使用 f make f Makefile From man
  • 如何在 github 提交中设置用户名别名?

    我刚刚在大学读完一个学期 决定将我的所有项目从 bitbucket 我的课程所需 导入到 github 我所有其他项目都在其中 我成功导入了它们 不幸的是 当我从事这些项目时 我在三台不同的计算机之间切换 因此 提交历史记录中有许多我自己所
  • 在 Cygwin 中启用 Postgresql

    我安装了Cygwin与 Perl 和Postgresql已启用软件包 然后输入 usr bin cygserver config This will install the service 然后输入 net start cygserver
  • set()是如何实现的?

    我见过有人这么说setpython 中的对象具有 O 1 成员资格检查 他们如何在内部实施以实现这一点 它使用什么类型的数据结构 该实施还有哪些其他影响 这里的每个答案都非常有启发性 但我只能接受一个 所以我将选择最接近我原来问题的答案 谢
  • 您能否推荐一个 JQuery 插件来组成一组可映射到 SQL 查询的条件? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我发现了http redquerybuilder appspot com http redquerybu
  • 在内存无法容纳的大文件中查找“n”个最重复的单词/字符串

    我想验证我的伪代码 建议优化和更好的方法 最重复的单词 按排名 此处的排名定义了您要选择的排名 即前 X 个最重复的单词 外部按字母顺序对所有文件进行排序 下列的这里提到的算法 http www tcs fudan edu cn rudol