大型文本文件中的词频

2024-03-11

我试图读取一个大文本文件并输出其中的不同单词及其计数。到目前为止，我已经尝试了几次，这是迄今为止我想出的最快的解决方案。

private static readonly char[] separators = { ' ' };

public IDictionary<string, int> Parse(string path)
{
    var wordCount = new Dictionary<string, int>();

    using (var fileStream = File.Open(path, FileMode.Open, FileAccess.Read))
    using (var streamReader = new StreamReader(fileStream))
    {
        string line;
        while ((line = streamReader.ReadLine()) != null)
        {
            var words = line.Split(separators, StringSplitOptions.RemoveEmptyEntries);

            foreach (var word in words)
            {
                if (wordCount.ContainsKey(word))
                {
                    wordCount[word] = wordCount[word] + 1;
                }
                else
                {
                    wordCount.Add(word, 1);
                }
            }
        }
    }

    return wordCount;
}

我如何衡量我的解决方案

我有一个 200MB 的文本，我知道它的总字数（通过文本编辑器）。我正在使用Stopwatch class计算字数以确保准确性并测量所花费的时间。到目前为止，大约需要 9 秒。

其他尝试

我尝试利用多线程通过 TPL 库。这涉及批处理多行，发送将批量行处理为单独的任务并锁定字典中的读/写操作。然而，这似乎并不为我提供任何性能改进。
大约花了30秒。我怀疑锁定读/写字典成本太高而无法获得任何性能。
我也看了ConcurrentDictionary类型，但是AddOrUpdate方法确实需要调用代码来处理据我了解，同步并没有带来任何性能益处。

我确信有更快的方法来实现这一目标！有没有更好的数据结构来解决这个问题？

欢迎对我的解决方案提出任何建议/批评 - 尝试在这里学习和改进！

Cheers.

更新：这是link https://www.dropbox.com/s/0k36gkqo1dxk3bg/test.txt?dl=0到我正在使用的测试文件。

我能给出的最好的简短答案是测量、测量、测量。Stopwatch很高兴能了解时间花在哪里，但最终你会用它来散布大量的代码，或者你将不得不为此目的找到一个更好的工具。我建议为此使用一个专用的分析器工具，有许多可用于 C# 和 .NET。

我通过三个步骤成功地减少了大约 43% 的总运行时间。

首先我测量了你的代码并得到了这个：

这似乎表明这里有两个我们可以尝试解决的热点：

字符串分割（SplitInternal）
字典维护（FindEntry、Insert、get_Item）

最后花费的时间是读取文件，我真的怀疑我们可以通过更改这部分代码来获得很多好处。这里的另一个答案提到使用特定的缓冲区大小，我尝试了这一点，但无法获得可测量的差异。

第一个，字符串分割，有点简单，但涉及重写一个非常简单的调用string.Split进入更多的代码。处理一行的循环我重写为：

while ((line = streamReader.ReadLine()) != null)
{
    int lastPos = 0;
    for (int index = 0; index <= line.Length; index++)
    {
        if (index == line.Length || line[index] == ' ')
        {
            if (lastPos < index)
            {
                string word = line.Substring(lastPos, index - lastPos);
                // process word here
            }
            lastPos = index + 1;
        }
    }
}

然后我将一个单词的处理重写为：

int currentCount;
wordCount.TryGetValue(word, out currentCount);
wordCount[word] = currentCount + 1;

这取决于以下事实：

TryGetValue比检查单词是否存在然后检索其当前计数便宜
If TryGetValue获取值失败（key不存在）则初始化currentCount此处的变量为其默认值，即 0。这意味着我们实际上不需要检查该单词是否确实存在。
我们可以通过索引器向字典添加新单词（它将覆盖现有值或向字典添加新的键+值）

最终的循环如下所示：

while ((line = streamReader.ReadLine()) != null)
{
    int lastPos = 0;
    for (int index = 0; index <= line.Length; index++)
    {
        if (index == line.Length || line[index] == ' ')
        {
            if (lastPos < index)
            {
                string word = line.Substring(lastPos, index - lastPos);
                int currentCount;
                wordCount.TryGetValue(word, out currentCount);
                wordCount[word] = currentCount + 1;
            }
            lastPos = index + 1;
        }
    }
}

新的测量表明：

Details:

我们从 6876 毫秒变为 5013 毫秒
我们失去了花在SplitInternal, FindEntry and get_Item
我们赢得了花在TryGetValue and Substring

以下是差异细节：

正如您所看到的，我们损失的时间比获得的新时间多，这导致了净改进。

然而，我们可以做得更好。我们在这里进行两次字典查找，其中涉及计算单词的哈希码，并将其与字典中的键进行比较。第一个查找是TryGetValue第二个是wordCount[word] = ....

我们可以通过在字典内创建更智能的数据结构来删除第二次字典查找，但代价是使用更多的堆内存。

我们可以使用 Xanatos 的技巧将计数存储在对象内，以便我们可以删除第二个字典查找：

public class WordCount
{
    public int Count;
}

...

var wordCount = new Dictionary<string, WordCount>();

...

string word = line.Substring(lastPos, index - lastPos);
WordCount currentCount;
if (!wordCount.TryGetValue(word, out currentCount))
    wordCount[word] = currentCount = new WordCount();
currentCount.Count++;

这只会从字典中检索计数，添加 1 次额外出现不涉及字典。该方法的结果也会更改为返回此WordCount键入作为字典的一部分而不仅仅是int.

最终结果：节省约 43%。

最后一段代码：

public class WordCount
{
    public int Count;
}

public static IDictionary<string, WordCount> Parse(string path)
{
    var wordCount = new Dictionary<string, WordCount>();

    using (var fileStream = new FileStream(path, FileMode.Open, FileAccess.Read, FileShare.None, 65536))
    using (var streamReader = new StreamReader(fileStream, Encoding.Default, false, 65536))
    {
        string line;
        while ((line = streamReader.ReadLine()) != null)
        {
            int lastPos = 0;
            for (int index = 0; index <= line.Length; index++)
            {
                if (index == line.Length || line[index] == ' ')
                {
                    if (lastPos < index)
                    {
                        string word = line.Substring(lastPos, index - lastPos);
                        WordCount currentCount;
                        if (!wordCount.TryGetValue(word, out currentCount))
                            wordCount[word] = currentCount = new WordCount();
                        currentCount.Count++;
                    }
                    lastPos = index + 1;
                }
            }
        }
    }

    return wordCount;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大型文本文件中的词频的相关文章

将多种类型存储为 C++ 字典中的值？

我想编写一个行为几乎等同于 Python 字典的 C 对象 C 的std map and std unordered map容纳了 Python 字典已有的一些功能但缺乏最重要的功能之一即能够添加任意对象和类型即使不可能您离实现 P
Mono C# 获取应用程序路径

我正在寻找我的应用程序的目录它似乎与常规 c 不同 As in Path GetDirectoryName Application ExecutablePath 不管用一种正确的跨平台解决方案是 Path GetDirectoryNam
将项目添加到字典中作为第一个项目c# [重复]

这个问题在这里已经有答案了我目前正在将项目添加到字典中如下所示 private Dictionary
如何用单反斜杠替换双反斜杠

我想用单反斜杠替换双反斜杠 Using string destinationFile System IO Path Combine msiDirectory fileName Replace gives C Hg temp LogFile
通过 Microsoft Graph 从 Azure AD 获取组中的用户

我正在通过 Microsoft Graph 从 AzureAD 请求用户列表我取回了 User 对象但它们的 MemberOf 属性始终为 null 我认为我可以使用 Expand 来专门请求该属性虽然它不会导致错误但它也不会填充该
调试器 StepInto 自动生成的代码和 JMC 问题

我正在使用 MDBG 示例制作托管 NET 调试器目前我正在努力解决 StepInto 行为而 StepOut 和 StepOver 似乎有效实现Just My Code迈步我在呼唤SetJMCStatus在模块加载时这工作得很好
如何在 Mac OS X 中获取 aio 信号处理程序的用户数据

我尝试在 Mac OS X 下使用 aio 函数进行异步文件 IO 但在将某种形式的用户数据输入信号处理程序时遇到问题这是设置操作的代码 class aio context public aio context int fildes bo
通过模板参数向类添加方法

我希望在类中拥有一个模板参数特定函数取消启用enable if 它的名称保持不变参数类型有所不同尽管这应该不相关因为只有一个被初始化 enum class MyCases CASE1 CASE2 template
将模型和订阅密钥传递给 LuisDialog，而不是通过属性

我正在编写一个可以说两种语言的机器人因此我需要使用两个单独的 LUIS 应用程序每种语言一个 Bot Framework 中的 LuisDialog 是这样初始化的来自 Microsoft 的示例 LuisModel c413b2e
WebProxy 错误：需要代理身份验证

我使用以下代码从互联网获取html数据 WebProxy p new WebProxy localproxyIP 8080 true p Credentials new NetworkCredential domain user passw
使用日期时间作为文件名并随后解析文件名？

我正在将文件写入硬盘文件名是这样构建的 String Format 0 yyyy MM dd hh mm ss txt DateTime Now 例如文件名是 2010 09 20 09 47 04 txt 现在我想在下拉列表中显示这些
对于相同的数据库对象，实体框架对象引用是否相同

如果我从不同位置查询逻辑上在数据库中相同的对象实体框架是否返回相同的对象引用例如我查询了名为 Joe Black 的客户并假设现在我知道数据库中只有一个 Joe Black Customer c select blabla w
在异步方法中显示错误消息的更好方法

事实上我们不能使用await关键字在catch块使得在 WinRT 中显示来自异步方法的错误消息变得非常尴尬因为MessageDialogAPI 是异步的理想情况下我希望能够这样写 private async Task DoSometh
按下按钮时更改几何绘图画笔的颜色

我创建了一个按钮模板有一个图像和一个标签图像的来源位于 ResourceDictionary Pictures 中图片的来源是具有白色画笔颜色的 DrawingImage
xaml.cs 文件上的 InitializeComponent() 出现错误

有时我会收到一个红色错误内容如下 InitializeComponent 在当前上下文中不存在以及我的其他变量 xaml受约束的x Name The x ClassXaml 文件中的名称空间和类名确实对应于我的xaml cs file
在 C++ 中的 Switch-Case 中执行 OR 运算

你会如何在 C 中做到这一点例如如果用户按 ESC 或 q 或 Q 我试图触发程序退出我尝试寻找它但在 C 中没有找到它的语法我知道如何使用 if else 来做到这一点但是可以使用 switch case 来做到这一点吗当然
迭代非增量枚举

在你问之前我已经looked https stackoverflow com questions 261963 c iterate through an enum and looked https stackoverflow com qu
C#无循环方式将字符串拆分为多维数组或锯齿状数组

如何在不循环的情况下将字符串拆分为多维数组或锯齿状数组我看到一个代码片段其中有人使用文件流执行此操作但我不知道如何使其适用于我的字符串我的字符串类似于1 2 3 1 4 1并可以分为ID Qty 这是我看到的代码 string li
编译Linux内核模块时出现错误：“CONFIG_X86_X32已启用，但没有binutils支持”和不需要的“n”字符

我想得到Rasta Ring0 调试器 http rr0d droids corp org 在我的 x86 64 Linux 中编译的 0 3 版本它是一个 Linux 内核模块我已将 32 位内联汇编替换为 64 位汇编如我的问题中
如何在 Ubuntu x64 中使用 ptrace 插入 int3？

我正在努力追随本指南 http eli thegreenplace net 2011 01 27 how debuggers work part 2 breakpoints 通过设置断点达到相同的结果唯一的区别是我在 x64 系统上所以

随机推荐

寻找 Wii 兼容的 Javascript Flash mp3 播放器

我正在寻找一款能够在 Wii 上基于 Opera 的浏览器中运行的 flash mp3 播放器播放器需要启用 javascript 支持播放停止等方法 mp3 曲目列表将使用与播放器相同的页面上的 ajax 动态构建因此当曲目完成播放
Android：在 Android 设备选择器中，同一设备会出现多次

我正在使用 Eclipse 为 Android 操作系统编程我使用真实设备来测试我的应用程序为了测试我的应用程序我单击运行然后单击我想要运行的目标项目然后弹出 Android 设备选择器我可以在其中选择要运行该应用程序的设备或
脚本标签中的文本属性 - 澄清？

在阅读 Angular 的指令代码时我看到this https github com angular angular js blob master src ng directive script js L43 var scriptDire
SVG 在视网膜屏幕上作为边框图像

请考虑我们有简单的 SVG 文件其中包含圆角半径等于 10 的圆角矩形的代码
Delphi通用约束问题

我正在尝试创建一个与 tiOPF delphi www tiopf com 的对象持久框架一起使用的通用列表类具体来说我试图采用现有的泛型类 TtiObjectList 并制作一个使用 TtiObject 后代的泛型版本我更改基类的
prolog中输入/输出参数的区别

Prolog谓词定义中的输入和输出参数有什么区别吗这与其他语言例如Scheme 和C 相比如何我希望我理解你的问题您应该研究一下 Prolog 中如何实现统一因为它会让事情变得更清晰反正简而言之没有内置方法可以将 Prolo
为什么我不能在类上下文中引用 DATA？

在 Ruby 中存储静态文本真的很方便 END 通过任意使用DATAIO对象 puts DATA read Prints This is the stuff END This is the stuff 然而当我尝试从新类的上下文中引用
JavaScript 可以捕获语法错误吗？

MDN 状态 https developer mozilla org en US docs Web JavaScript Reference Global Objects SyntaxError 当 JavaScript 引擎在解析代码时遇
如何在父级中绑定子用户控件数据上下文
在 R 的 JAGS 或 BUGS 中指定离散威布尔分布

我使用 R 中的 JAGS 将威布尔模型拟合到离散值将威布尔模型拟合到连续数据没有问题但当我切换到离散值时我遇到了麻烦以下是在 JAGS 中拟合威布尔模型的一些数据和代码 draw data from a weibull distr
C++ 变量声明语法

我最近遇到了这个结构整数米这似乎相当于整数米奇怪的是我以前从未见过这个特殊的成语有人可以给我指出一个参考资料我可以在其中阅读相关规范或者直接解释一下吗这也适用于直 C 吗谢谢困惑的开发者这不是一个习语它只是一对
使用数据注释进行模型验证的错误消息

给定以下课程 using System ComponentModel DataAnnotations public class Book public Contact PrimaryContact get set public Contac
React JS 不支持 Html“align”属性

我是 ReactJS 的新手在反应组件中我已经 var SaveOrganization React createClass render function return div align center a href addVenue
Nuxt 3 - 如何每n分钟刷新一次获取的数据

因此在我的数据库中数据每分钟都会刷新数据实际上更新我检查过然后我在页面上显示这些数据当我在页面之间切换以及手动刷新页面时数据会被获取但如果我坐在一个页面上例如 5 分钟即使数据库中的数据更新数据也不会在页面端刷新是否可
IE8 CSS 和 html 与 IE7 对比

请原谅这里的任何鲁莽我正无能为力地寻找答案我正在寻找从 IE7 更改为 IE8 的特定 html 和 css 标签的列表如果存在或一些资源指南具体来说我想看到类似此代码在 IE7 中有效但在 IE8 中无效这是损坏的标签相
Javascript document.getSelection

我正在尝试使用 document getSelection 来选择我在所见即所得编辑器的文本区域中输入的文本但只有当您选择文本区域之外的文本时它才有效不知道有没有办法让它选择文本区域内的文本下面是所见即所得文本编辑器的文本区域您需
从按分钟计算的原始数据中按小时聚合 MySQL 数据

我有一个表 table 1 其中包含每分钟的数据如下所示 date time value 2015 06 05 18 00 00 222 663 2015 06 05 18 01 00 222 749 2015 06 05 18 02 0
Mac系统上检测框架使用情况？

我想在 OSX 上开发示例框架并要求在任何时候该框架只能由单个客户端使用我不知道如何实现这一点他们有 API 来检测框架正在使用的天气吗我们可以为此使用一些与文件相关的 API 吗我看过一个 Windows 示例其中使用以下命令
在 jQuery 1.8 中的自定义过滤器选择器中获取“匹配”对象

作为参考这里有一篇文章使用 jQuery 创建自定义过滤器选择器 http answers oreilly com topic 1055 creating a custom filter selector with jquery 介绍对
大型文本文件中的词频

我试图读取一个大文本文件并输出其中的不同单词及其计数到目前为止我已经尝试了几次这是迄今为止我想出的最快的解决方案 private static readonly char separators public IDictionary

大型文本文件中的词频

大型文本文件中的词频 的相关文章

随机推荐

热门标签

大型文本文件中的词频的相关文章