处理巨大的文本文件

2024-03-17

Problem:我有一个巨大的原始文本文件（假设有 3gig），我需要遍历文件中的每个单词并找出某个单词在文件中出现了多少次。

我建议的解决方案：将大文件拆分为多个文件，每个拆分文件都会按排序方式包含单词。例如，所有以“开头的单词a“将被存储在”_a.dic“文件。所以，任何时候我们都不会超过26个文件。

这种方法的问题是，

我可以使用流来读取文件，但想使用线程来读取文件的某些部分。例如，使用单独的线程读取 0-1024 字节（根据框中存在的处理器数量，至少有 4-8 个线程）。这是可能的还是我在做梦？

还有更好的方法吗？

注意：它应该是纯 C++ 或基于 C 的解决方案。不允许使用数据库等。

你需要看看'编程实践 http://plan9.bell-labs.com/cm/cs/tpop/” 作者：Kernighan 和 Pike，特别是第 3 章。

在 C++ 中，使用基于字符串和计数的映射 (std::map<string,size_t>，IIRC）。读取文件（一次 - 它太大，无法多次读取），将其拆分为单词（对于“单词”的某些定义），并为您找到的每个单词增加映射条目中的计数。

在 C 语言中，您必须自己创建地图。（或者找到大卫·汉森的“C 接口和实现 http://www.cs.princeton.edu/software/cii/".)

或者您可以使用 Perl、Python 或 Awk（它们都具有关联数组，相当于映射）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Multithreading

textfiles

处理巨大的文本文件的相关文章

在 C# 中按元素相乘数组具有意想不到的性能

我想找到按元素相乘两个数组的最佳方法这是更广泛项目的一部分其中性能而不是唯一的考虑因素我今天开始用 C Linqpad 编写一些函数因此它还没有以任何方式进行优化下面代码的输出如下 Environment ProcessorCou
我如何理解这个 C 类型声明？

double bar int double double double double 在查看讲座幻灯片时我发现了留给学生的练习用简单的英语来说什么是类型bar在这个 C 声明中 Please帮助我解决这个问题我什至不知道从哪里开始
为什么在创建矩阵类时使用向量不好？

对于我的矩阵类我做了 template
如何在 C# / .NET 中创建内存泄漏[重复]

这个问题在这里已经有答案了可能的重复托管代码中是否可能存在内存泄漏特别是 C 3 0 https stackoverflow com questions 6436620 is it possible to have a memory
在 Xamarin 中隐藏软键盘

如何隐藏软键盘以便在聚焦时显示Entry在 Xamarin forms 便携式表单项目中我假设我们必须为此编写特定于平台的渲染器但以下内容不起作用我创建自己的条目子类 public class MyExtendedEntry Entr
我如何在 C# .NET（win7 手机）中使用“DataContractJsonSerializer”读入“嵌套”Json 文件？

我有一个问题如果我的 json 文件看起来像这样 Numbers 45387 Words 空间桶我可以很好地阅读它但是如果它看起来像这样 Main Numbers 45387 Words 空间桶某事数字 12345 单词克兰斯基
防止 boost::asio::io_context 在空轮询调用时停止

此代码调用发布的句柄 boost asio io context ioc boost asio post ioc std cout lt lt lol lt lt std endl ioc poll 而这并没有 boost asio io
根据 N 个值中最小的一个返回不同的结果

不确定如何使标题更具描述性所以我只是从一个例子开始我使用下面的代码位它从枚举中选择一个方向具体取决于四个轴中哪一个与给定方向相比形成最小角度 static Direction VectorToDirection Vector2 di
如何在 QTabWidget Qt 中展开选项卡

我有一个QTabWidget像这个但我想展开选项卡以填充整个小部件宽度如下所示我怎样才能做到这一点我在用Qt 5 3 2 and Qt 创建者 3 2 1 Update 我尝试使用setExpanding功能 ui gt myT
Android 为什么这不会抛出错误的线程异常？

我的印象是视图只能从主线程操作但是为什么这不会崩溃 public class MainActivity extends Activity TextView tv Override protected void onCreate Bund
Visual Studio Code：如何配置 includePath 以获得更好的 IntelliSense 结果

我是使用 Visual Studio Code 的完全初学者我不知道我在做什么我已经四处搜索也许还不够但我找不到像我这样的人如何配置的简单解释c cpp properties json每当我单击带有绿色波浪线下划线的行旁边的黄色灯泡
给出 5 个参数，但在终端中只得到 3 个参数

我想将一个文件传递给一个c 程序如果我在 IDE 中执行此操作 test string string lt test txt return argc 5 但在终端上我刚刚得到argc 3 看来这是因为什么是 lt 意思是我正在使用
将标量添加到特征矩阵（向量）

我刚刚开始使用 Eigen 库无法理解如何向所有矩阵成员添加标量值假设我有一个矩阵 Eigen Matrix3Xf mtx Eigen Matrix3Xf Ones 3 4 mtx mtx 1 main cxx 104 13 error
ASP.NET MailMessage.BodyEncoding 和 MailMessage.SubjectEncoding 默认值

很简单的问题但我在 MSDN 上找不到答案查找 ASP NET 将用于的默认值 MailMessage BodyEncoding and MailMessage SubjectEncoding 如果你不在代码中设置它们 Thanks F
在 EnvDTE 中调试时捕获 VS 局部变量

是否可以使用 EnvDTE 进行 vsix Visual Studio 扩展来捕获本地和调试窗口使用的调试数据或者可以通过其他方法吗我想创建一个自定义的本地窗口我们可以修改它以根据需要显示一些较重的内容而无需为高级用户牺牲原始的本地
.NET Core 中的跨平台文件名处理

如何处理文件名System IO以跨平台方式运行类以使其在 Windows 和 Linux 上运行例如我编写的代码在 Windows 上完美运行但它不会在 Ubuntu Linux 上创建文件 var tempFilename Dat
我可以让 ungetc 取消阻止阻塞的 fgetc 调用吗？

我想在收到 SIGUSR1 后使用 ungetc 将 A 字符重新填充到标准输入中想象一下我有充分的理由这样做调用 foo 时 stdin 中的阻塞读取不会被收到信号时的 ungetc 调用中断虽然我没想到它会按原样工作但我想知道是
IEnumerable.Except 不起作用，那么我该怎么办？

我有一个 linq to sql 数据库非常简单我们有 3 个表项目和用户有一个名为 User Projects 的连接表将它们连接在一起我已经有了一个获得的工作方法IEnumberable
终结器线程的范围是什么 - 每个应用程序域或每个进程？

根据我的所有阅读应该有一个 GC 线程来调用所有终结器现在的问题是这个一个线程的范围是什么每个进程或每个应用程序域因为域的整体目的是在一个进程空间中分离并创建独立的不同应用程序 I read here http dn cod
使用taskkill停止Windows服务

我需要帮助来使用 C 终止 Windows 服务现在要终止该服务请使用以下选项从命令 sc queryex ServiceName 发现后PID服务的 taskkill pid 1234 exemple f 为了便于阅读但如果您明白

随机推荐

Sum(Case when) 导致选择的多行

我有一张巨大的客户订单表我想运行一个查询来按 user id 按月列出过去 13 个月的订单我现在所拥有的如下可以工作但不是只为每个 user id 列出一行而是为 user id 的每个订单列出一行例如一个用户一生中总共有
如何重启Android模拟器并保留系统数据

Android模拟器关机时是否可以保留系统数据不是SD卡数据我的具体问题是我正在尝试将新的根证书导入 system etc security cacerts bks文件但这需要重新启动当我重新启动模拟器时文件将恢复到原始状态该文
如何解决Java错误“pool-1-thread-xxxx”java.lang.OutOfMemory

我搜索了有关此问题的帖子但没有看到像我这样的情况我的 java 控制台显示错误消息 pool 1 thread xxxx java lang OutOfMemory如下图红线 CPU 使用率绿线内存使用情况我增加了内存6G to
如何在access中搜索2个日期和时间？

我的访问字段中有MyDate and myTime 我的日期格式 16 09 2010 00 00 00 我的时间格式 16 09 2010 04 27 00 我需要在之间搜索date 01 01 2010 and time 12 50 0
自定义命名空间事件将不起作用

我正在尝试让自定义命名空间事件按此处所述工作 http docs jquery com Namespaced Events http docs jquery com Namespaced Events 但我一定错过了一些东西因为除非命名空
UISlider 在 iOS7 中没有动画

当我从 iOS 6 切换到 iOS 7 设计时我注意到使用该方法setValue animated 不再为滑动过程设置动画有其他人遇到过这个问题并找到解决方案吗我将添加一些代码来表明我没有做任何复杂的事情 Variable decla
C++ 代码中“&”运算符的意义

我看到一些这样的代码 void testCase2 int variant if variant 0x1 return 什么是 if语句中的运算符意思是为什么要使用是按位与运算符给定两个整数操作数它对每个位位置执行 AND 运算即
让 WAMP 在 Windows 启动时自动启动（无需登录或任何 UAC 干扰）

我希望在打开计算机时启动 WAMP 理想情况下它甚至无需用户登录即可启动我已将 WAMP 添加到注册表中的启动项中但用户需要登录而 UAC 仍在发挥其烦人的作用有没有一种方法可以在不登录或UAC干扰的情况下完成此任务 Thanks
如何在iphone sdk中制作跑分动画

我希望在 xcode 中为我的 iPhone 应用程序做一个运行分数动画这样每当我将分数增加一个整数 ScoreAdded 时分数就会运行到新分数而不是更新到新分数我尝试了一些带有 sleep 的 for 循环但没有可用所以我想
VS 2015 ASP.NET Web API (EF6) 和 Xamarin 启用迁移失败

我正在开发一个项目该项目将使用 ASP NET Web API 作为数据服务并使用 Xamarin 便携式应用程序作为客户端我尝试在 Web 应用程序中启用迁移但收到以下错误 Enable Migrations enableauto
JAVA：为什么带负号的字节的二进制文字被视为整数类型？

我无法理解以下行为我试图使用二进制文字声明字节掩码 byte mask 0b1111 1111 但这是不可能的因为我收到以下错误消息类型不匹配无法从 int 转换为 byte 最有趣的是当我尝试直接以十进制表示形式声明掩码时 by
如何知道哪个 git 分支触发了 jenkins 作业

我有一个管道 Jenkins 作业它按预期工作并使用选项进行配置 GITScm 轮询的 GitHub 挂钩触发器用于在任何推送到 git 存储库时自动构建我已将这个 Jenkins URL 挂接到多个 git repo 的说repo
Python对二维列表中具有相同第一个值的元素求和

我正在尝试找到一种有效的方法来执行以下操作我有这个样本 sample no 2 6 ja 5 7 no 4 9 ja 10 11 ap 7 12 并且需要 res no 6 15 ja 15 18 ap 7 12 即对第一个元素相同的子列
当使用浮点数和双精度数时，c 中的 -0.0000 是多少？

include
如何从 Win32 进程调用 .NET DLL？

在 Win32 进程中使用 NET DLL 时有哪些选项我基本上需要使用 Win32 进程中的 C DLL 我现在有一个可能的解决方案需要将 C DLL 添加到 GAC 使用 RegAsm exe 然后通过 COM 包装调用来调用 C
Google 地图 JavaScript API 不会显示从“我的地图”导出的 KML 标记

我在 Google 我的地图上有一张地图我想使用 Google Maps JavaScript API 显示该地图这样我就可以轻松地将多个地图合并为一个并创建路径标记而无需以编程方式执行此操作这是我正在使用的测试图这是一个粗糙的
在 SQL Server 中仅使用一个选择来获取倒数第二行？

我试图使用 SQL Server 选择倒数第二行所以我写了一个这样的查询 SELECT TOP 1 From Cinema WHERE CinemaID SELECT TOP 1 CinemaID FROM Cinema ORDER BY
Dapper：是否可以自定义特定类型的特定字段的类型映射？

假设我有这个User class public class User public int ID get set public string FirstName get set public string LastName get set
检查给定的 PHAsset 是 iCloud 资产吗？

我正在尝试获取 PhAsset 对象我想隔离 iCloud 资产这是我的代码 PHFetchResult cloudAlbums PHAssetCollection fetchAssetCollectionsWithType PHAss
处理巨大的文本文件

Problem 我有一个巨大的原始文本文件假设有 3gig 我需要遍历文件中的每个单词并找出某个单词在文件中出现了多少次我建议的解决方案将大文件拆分为多个文件每个拆分文件都会按排序方式包含单词例如所有以开头的单词a 将被存储

处理巨大的文本文件

处理巨大的文本文件 的相关文章

随机推荐

热门标签

处理巨大的文本文件的相关文章