使用 C++ 删除文本文件中重复行的内存有效方法

2024-04-18

使用 C++ 删除大型文本文件中的重复行的最有效内存方法是什么？

让我澄清一下，我不是要求代码，只是最好的方法。不保证重复的行是相邻的。我意识到针对最小内存使用进行优化的方法会导致速度变慢，但这是我的限制，因为文件太大。

我会对每一行进行散列，然后返回具有非唯一散列的行并单独比较它们（或以缓冲方式）。这对于重复发生率相对较低的文件来说效果很好。

当您使用哈希时，您可以将使用的内存设置为恒定量（即，您可以有一个只有 256 个槽或更大槽位的小型哈希表。在任何情况下，内存量都可以限制为任何恒定量。）表中的值是具有该散列的行的偏移量。所以你只需要 line_count*sizeof(int) 加上一个常量来维护哈希表。

更简单（但慢得多）的是扫描整个文件的每一行。但我更喜欢第一个选择。这是最有效的内存选择。您只需要存储 2 个偏移量和 2 个字节即可进行比较。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

file

fileio

IO

使用 C++ 删除文本文件中重复行的内存有效方法的相关文章

为什么在 C# 中成员初始值设定项中不允许这样做，但在 VB.Net Me 中允许

我正在将 VB Net 应用程序转换为 C 并注意到在 VB Net 代码中有一个私有成员变量它是使用Me像这样 Private m ClassA As New MyCollection Of ClassA Me 当我将其转换为 C 代
同步执行异步函数

我对此主题进行了大量搜索并且阅读了本网站上有关此主题的大部分帖子但是我仍然感到困惑我需要一个直接的答案这是我的情况我有一个已建立的 Winform 应用程序但无法使其全部异步我现在被迫使用一个全部编写为异步函数的外部库在我
C++ 模板中的名称查找

我有一些 C 代码如果没有 fpermissive 选项就无法再编译这是我无法分享的专有代码但我认为我已经能够提取一个简单的测试用例来演示该问题这是 g 的输出 template eg cpp In instantiation o
避免集合已修改错误

Issue 我有以下代码 foreach var ItemA in GenericListInstanceB ItemA MethodThatCouldRemoveAnyItemInGenericListInstanceB 显然我得到一个错
如何从 List 中的字符串中删除数字/数字？

我有一个字符串列表 List
异步方法中的异常未被捕获

下面的代码没有捕获我的OperationCancelEException 它是通过调用抛出的ct ThrowIfCancellationRequested public partial class TitleWindow Window IA
C++ 私有静态成员变量

此 C 代码在编译时产生链接器错误 A h class A public static void f private static std vector
'goto *foo' 其中 foo 不是指针。这是什么？

我正在玩标签作为值 https gcc gnu org onlinedocs gcc Labels as Values html并最终得到这段代码 int foo 0 goto foo 我的 C C 经验告诉我 foo means dere
正则表达式删除某些字符周围不需要的空格

我正在尝试从 JavaScript 文件中删除一些不需要的空格并在将文件发送到客户端之前使用 C 和 Regex 组合文件我有一个JavascriptHandler处理 js 文件效果很好这是我用来打包 JavaScript 的函
Haskell 中的 print 是纯函数吗？

Is print在 Haskell 中是纯函数为什么或者为什么不我认为不是因为它并不总是返回与纯函数应返回的值相同的值类型的值IO Int并不是真正的Int 它更像是一张纸上面写着嘿 Haskell 运行时请生成一个Int如此
C++ 中的 Java ArrayList [重复]

这个问题在这里已经有答案了在Java中我可以做 List
以标准用户身份打开默认浏览器 (C++)

我目前正在使用 ShellExecute 打开在用户浏览器中打开 URL 但在 Win7 和 Vista 中遇到了一些麻烦因为该程序作为服务运行提升当 ShellExecute 打开浏览器时它似乎读取本地管理员配置文件而不是用户
std::string 在 Visual Studio 上的具体行为？

我有一个项目需要读取写入大文件我决定使用 ifstream read 将这些文件一次性放入内存中放入 std string 中这似乎是在 C 中执行此操作的最快方法 http insanecoding blogspot com 20
C# 的空条件委托调用线程安全吗？ [复制]

这个问题在这里已经有答案了这就是我一直以来编写事件引发者的方式例如属性更改 public event PropertyChangedEventHandler PropertyChanged private void RaisePrope
使用互斥锁来阻止临界区外部的执行

我不确定我的术语是否正确但这里是我有一个由多个线程使用的函数来写入数据在注释中使用伪代码来说明我想要的内容 these are initiated in the constructor int data std atomic
如何从代码隐藏中向我的 div 添加点击事件？

如何从代码隐藏中向我的 div 添加点击事件当我点击 div 时会出现一个消息框其中显示您想删除它吗并在框中显示是或否全部来自后面的代码 while reader Read System Web UI HtmlContro
C 中什么函数可以替换字符串中的子字符串？

给定一个 char 字符串我想查找所有出现的子字符串并将其替换为备用字符串我没有看到任何简单的函数可以实现这一点
在 try catch 块中返回到 catch 内是否不好？这是很好的做法

在 try catch 块中从 C 中的 catch 块返回值是不好的做法吗 try Some code return 1 catch return 0 哪种使用 try catch 的方法是好的做法不需要只要返回的值是你想要的你可以
如何将 Metro 应用部署到桌面？

我正在尝试将我的 C 应用程序部署到我的 Windows 8 Metro 桌面我可以在 bin 文件夹中看到部署的文件但是当我尝试打开它们时出现以下错误该应用程序只能在 AppContainer 的上下文中运行我检查了属性上下文菜
具有多种类型的 C# 泛型类型推断

我有以下通用方法用于将一种类型的输入对象序列化为超类型如下所示 public string SerialiseAs

随机推荐

Android Facebook 集成与无效密钥哈希

在我的一个应用程序中我需要从 Facebook 获取数据我正在这样做我创造了app ID 它登录成功但是注销后我登录然后它给我我做错了什么我正在使用脸书软件开发工具包我已经在手机上安装了 Facebook 它在模拟器中运行
如何使用 re.sub 搜索和替换精确的字符和数字？

我正在尝试在 python 中使用正则表达式来搜索 p1 in p1 p2 p3 p10 p11 p12 并将其替换为 hi 下面是我的Python代码 import re x p1 p2 p3 p10 p11 p12 data p1 y
如何使用 MassTransit 测试工具通过构造函数依赖注入来测试 Consumer？

我有一些消息使用者通过构造函数获取依赖项我想在单元测试中涵盖它们 MassTransit 的测试工具是否提供了一种使用构造函数参数注册消费者的方法创建消费者测试工具时您可以指定工厂方法或消费者工厂 harness Consumer
单击的单选按钮值显示为未定义

对于被单击的单选按钮的值结果显示为未定义 document ready function input radio change function checkResult this function checkResult el var c
寻找 AES-CTR 加密的输入

由于 CTR 模式下的 AES 非常适合随机访问假设我有一个使用CipherOutputStream在 AES CTR 模式下下面的图书馆不是我的使用RandomAccessFile允许查找文件中的特定字节偏移量我最初的想法是使用
Spring boot：如何为静态资源添加拦截器？

我有几个文件夹 static img 我需要向其中一些添加拦截器来检查用户权限我之前使用过拦截器并以这种方式添加它们 SpringBootApplication EnableTransactionManagement public cla
从字符串中删除所有“不可见”字符？

我正在编写一个小类来从文件中读取键值对列表并写入Dictionary
RISC-V 规范引用了“hart”一词 - “hart”是什么意思？

我找到了参考文献hart在第 35 页RISC V 2 1 规范 https content riscv org wp content uploads 2016 06 riscv spec v2 1 pdf 但是我找不到它的定义hart在
PHPickerViewController 点击搜索时出现错误...“无法加载照片”

我正在尝试实现一个PHPickerViewController使用 SwiftUI 和可组合架构并不是说我认为这特别相关但它可以解释为什么我的一些代码是这样的示例项目我一直在尝试解决这个问题我在 GitHub 上创建了一个小示例项
在 XSLT 中使用正则表达式

我需要解析 Visual Studio 自动生成的 XML 文档来创建报告我决定使用 XSLT 但我对它很陌生并且需要帮助常见的模板是
如何制作一个中心为白色的纯CSS三角形

我想用 css 创建一个向上和向下的箭头如下所示 http apps eky hk css triangle generator http apps eky hk css triangle generator 然而我想将其设置为内部为白
如何将广告添加到 Android 应用程序而不与我的内容重叠

我正在向我的应用程序添加广告这是我第一次但它总是与我的内容重叠即它显示在我的内容上方我的 XML 是
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
GEF + EMF：为什么当调用refreshChildren() 时，我的编辑器不删除已删除对象的图形？

我已经为类似图形的 EMF 模型实现了 GEF 编辑器并为图形中的某种类型的节点提供了删除命令我想我已经完成了所有必要的步骤以使此设置正常工作 vainolo https stackoverflow com users 817399 v
如何将两个数组合并为第三个数组？ [复制]

这个问题在这里已经有答案了我有两个数组 array1 and array2 array1 a b c array2 1 2 3 我如何制作第三个数组 array3 array3 a b c 1 2 3 这个问题不同于在 for 循环的开头
使用 openssl 生成自签名证书时如何设置密钥规范或 KEYEXCHANGE 属性

我在 windows 2012R2 上使用 open ssl 来生成自签名证书使用下面的命令我生成了证书 openssl genrsa des3 out ab key openssl req new x509 key ab key out
bcrypt 的 .net 实现

有谁知道 bcrypt 的良好实现吗我知道这个问题之前已经被问过但得到的回应很少我有点不确定是否要选择谷歌中出现的实现并且我认为在 System Security Cryptography 命名空间中使用 sha256 可能会更好
C++ 中的异步线程安全日志记录

我正在寻找一种在我的 C 项目中进行异步和线程安全日志记录的方法如果可能的话到一个文件我目前正在使用cerr and clog对于任务但由于它们是同步的因此每次记录某些内容时执行都会短暂暂停这是一个图形相对较多的应用程序所以这
美汤元素如何添加元素

如果我有这样的 bs4 元素它被称为tab window uls 1 ul li b Cut b Sits low on the waist li li b Fit b Skinny through the leg li li b Leg
使用 C++ 删除文本文件中重复行的内存有效方法

使用 C 删除大型文本文件中的重复行的最有效内存方法是什么让我澄清一下我不是要求代码只是最好的方法不保证重复的行是相邻的我意识到针对最小内存使用进行优化的方法会导致速度变慢但这是我的限制因为文件太大我会对每一行进行散列然后

使用 C++ 删除文本文件中重复行的内存有效方法

使用 C++ 删除文本文件中重复行的内存有效方法 的相关文章

随机推荐

热门标签

使用 C++ 删除文本文件中重复行的内存有效方法的相关文章