改进C++逐行读取文件的能力？

2024-05-22

我正在解析大约 500GB 的日志文件，我的 C++ 版本需要 3.5 分钟，我的 Go 版本需要 1.2 分钟。

我正在使用 C++ 的流来流式传输文件的每一行以进行解析。

#include <fstream>
#include <string>
#include <iostream>

int main( int argc , char** argv ) {
   int linecount = 0 ;
   std::string line ;
   std::ifstream infile( argv[ 1 ] ) ;
   if ( infile ) {
      while ( getline( infile , line ) ) {
          linecount++ ;
      }
      std::cout << linecount << ": " << line << '\n' ;
   }
   infile.close( ) ;
   return 0 ;
}

首先，为什么使用这段代码这么慢？其次，我该如何改进它以使其更快？

C++ 标准库iostreams众所周知，速度很慢，标准库的所有不同实现都是如此。为什么？因为该标准对实施提出了很多要求，从而抑制了最佳性能。标准库的这一部分是大约 20 年前设计的，在高性能基准测试上并没有真正的竞争力。

你怎样才能避免它呢？使用其他库来实现高性能异步 I/O，例如 boost asio 或操作系统提供的本机函数。

如果你想保持在标准范围内，函数std::basic_istream::read()可以满足您的性能需求。但在这种情况下，您必须自己进行缓冲和行计数。下面是如何做到这一点。

#include <algorithm>
#include <fstream>
#include <iostream>
#include <vector>

int main( int, char** argv ) {
   int linecount = 1 ;
   std::vector<char> buffer;
   buffer.resize(1000000); // buffer of 1MB size
   std::ifstream infile( argv[ 1 ] ) ;
   while (infile)
   {
       infile.read( buffer.data(), buffer.size() );
       linecount += std::count( buffer.begin(), 
                                buffer.begin() + infile.gcount(), '\n' );
   }
   std::cout << "linecount: " << linecount << '\n' ;
   return 0 ;
}

如果更快的话请告诉我！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

performance

fileio

改进C++逐行读取文件的能力？的相关文章

c# - 显示小数点到小数点后 6 位 [重复]

这个问题在这里已经有答案了可能的重复具有 N 个小数位的 Double ToString https stackoverflow com questions 3059759 double tostring with n number o
C# 并行与并行线程代码性能

我一直在测试 System Threading Parallel 与线程的性能我很惊讶地发现并行比线程花费更长的时间来完成任务我确信这是由于我对并行的了解有限我刚刚开始阅读我想我会分享一些片段如果有人可以向我指出并行代码比线程代码
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
当 f & g 修改同一个全局变量时，表达式 f() > g() 的值是否未定义或未指定？

UPDATE 由用户标记ecatmur 它是重复的在 C99 中 f g 是未定义还是只是未指定 https stackoverflow com questions 3951017 in c99 is fg undefined or mer
WPF Dispatchertimer 延迟反应/冻结

在我的 WPF 应用程序中我使用 3 个不同的 DispatcherTimers 一种是用于显示当前时间一种是每 5 秒运行一次数据库查询第三个每 1 秒刷新一次自定义按钮的值当我的程序运行时有很多延迟冻结例如时间开始正确计
将 void *user_data 转换为对象

我该如何投射void something到标准 C 中的对象具体来说我想投void userdata to std map
函数指针上的未知类型 F TYPE

include
如何在Azure功能中添加razor视图文件？

我正在创建一个应用程序它是 azure 函数项目我想在该项目中使用 Razor 视图我应该在 azure 函数中使用任何模板引擎吗得益于一些方面的进步剃刀之光项目 https github com toddams RazorLigh
ASP.NET中如何访问除wwwroot以外的位置

我可以使用访问服务器的物理位置Server MapPath 这给了我内部的物理路径wwwroot文件夹我想将一些数据保存到同一服务器的另一个驱动器中D 驾驶我想我无法获取以下位置的物理位置D 驾驶使用Server MapPath因为它位
C 中的链表数组：初始化和插入？

我需要创建一个链表数组如图所示这就是我到目前为止所做的 typedef struct Node int data struct Node next Node int main void Node link 5 for int q 0 q
从视图模型调用方法的命令

好吧我倾向于避免使用命令因为它们总是让我感到困惑但我正在进行一个新项目并且正在尝试正确构建它并且在我看来没有任何代码隐藏基本上我现在想做的就是连接一个按钮来触发一个命令在我的视图模型上执行一些操作但不知何故如此简单的事情仍
我可以对（非成员）函数使用部分模板特化吗？

我试图在非成员函数上使用部分模板专业化但我在语法上遇到了问题我在 StackOverflow 中搜索了其他部分模板专业化问题但这些问题涉及类或成员函数模板的部分专业化作为起点我有 struct RGBA RGBA uint8
为什么必须通过 this 指针访问模板基类成员？

如果下面的类不是模板我可以简单地拥有x in the derived班级但是通过下面的代码我have to use this gt x Why template
如何替换被测模块的文件访问引用

pyfakefs https code google com p pyfakefs 听起来非常有用它最初是作为核心 Python 模块的一个适度的假实现来开发的以支持中等复杂的文件系统交互并于 2006 年 9 月在 Google
使用非字符串作为字符串（而不是自动使用 ToString）时如何显示错误？

建议的重复确实是一个类似的问题然而答案只涵盖一种选择禁用 ToString 本身还有其他可能的解决方案例如让 Visual Studio 警告我或者不调用 ToString 仔细阅读那里的答案他认为is调用只是解释说没有办法
Gridview 错误：对 Bind 的调用格式不正确

我有以下 gridview 代码
在Framework 4.6项目中使用.net core DLL

我已经在 net core 2 0 中构建了一个 DLL 现在我想在使用 net 4 6 1 框架的 WinForms 项目中使用它我可以引用该 dll 但收到 System IO FileLoadException 表示找不到 Syst
char[length]初始化并处理

我定义了一个字符数组 char d 6 如果我在以下方面有误请纠正我此时没有为变量分配内存d 现在我要初始化它 d aaaaa 这种初始化之后就不需要释放内存了它将自动完成我怎么知道是否char 被初始化了吗我正在寻找类似的模式
如何使用 Ioc Unity 注入依赖属性

我有以下课程 public interface IServiceA string MethodA1 public interface IServiceB string MethodB1 public class ServiceA IServ
C#：如何处理乱序 TCP 数据包？

请有人解释一下如何处理乱序数据包我使用原始套接字来捕获数据包并在数据包到来时解析它们但其中一些数据包的顺序错误例如 ID 标志 16390 PSH ACK 16535 PSH ACK 16638 确认 16640 PSH ACK 1

随机推荐

用 C# 编写的带有点击移动的 WPF 游戏

我试图将标签网格移动到鼠标的位置就像冒险游戏中的移动一样理想情况下我会在途中删除并重新绘制它们但是现在我只想弄清楚如何将 int 转换为厚度或 pointtoscreen 到目前为止我有 player XMove int Mous
获取数据集 R 包中所有对象名称的列表？

如何获取对象中对象的确切名称列表datasets https stat ethz ch R manual R devel library datasets html 00Index html包裹我在这里找到了很多 data package
当我尝试计算 mysqli 结果时，为什么会收到警告？

下面的代码会导致此警告警告 count 参数必须是数组或实现 Countable 的对象为什么要这样做如何防止出现警告 if isset GET edit sonum GET edit update true result mysql
Django ImageField 默认值

模型 py class UserProfile models Model photo models ImageField upload to get upload file name storage OverwriteStorage def
C# ToString("MM/dd/yy") 删除前导 0 [重复]

这个问题在这里已经有答案了可能的重复格式化 NET DateTime Day 不带前导零 https stackoverflow com questions 988353 format net datetime day with no
插入四个空格而不是制表符

我试图在按下 Tab 键时插入四个空格我正在使用以下代码请参阅spaces t 但是当我将其切换到spaces 当我按 Tab 时只插入一个空格我还尝试了 function textarea keydown function e va
React Native / Laravel - 向 API 发送请求

我正在实现一个移动应用程序它使用 Laravel 作为 API 与数据库进行通信我想将用户名和密码从我的 React Native 应用程序发送到 Laravel 我正在使用以下代码来执行此操作 fetch mysite com api
Firebase CLI 部署错误：“现在在 Firebase CLI 中禁用部署到 Node.js 10 以下的运行时。”

我有一个使用 Cloud Functions for Firebase 的项目在将 Firebase CLI 更新到版本 9 0 0 后我收到一条错误消息错误函数目录中的 package json 有一个引擎字段不受支持有效的选
如何使用Python3.4在tornado中进行异步mysql操作？

我现在使用Python3 4 我想在Tornado中使用异步mysql客户端我已经发现torndb https github com bdarnell torndb但在阅读其源代码后我认为它无法进行异步mysql操作因为它只是封装了M
通过 MSBuild 调用 cl.exe 时无限期挂起

我正在尝试在我的主要是 C 项目上运行 MSBuild 想象一下一个非常庞大的代码库 Visual Studio 2015 是有问题的工具集 Windows 7 SP1 和 VS 2015 更新 2 即使使用 m 1 从而迫使它仅使用一个
与 System.in.read() 一起使用的文件结尾/流键盘组合是什么

如果这个小问题已经得到解答我深表歉意我无法在SO找到它使用以下 Java 简单代码从 IDE 控制台读取行 Windows 7 和 Eclipse Kepler int v try while v System in read 1 S
如何在postgresql中编写有关最大行数的约束？

我认为这是一个很常见的问题我有一张桌子user id INT 和一张桌子photo id BIGINT owner INT 所有者是一个参考user id 我想向表照片添加一个约束以防止每个用户将超过 10 张照片输入数据库写这个的最
实际 VS2017 Enterprise 中的 VS Code 小地图？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 VS2017 在我的例子中是企业版是否有 Visual Studio Code 今年添加的迷你地图功能
如何在 Visual Studio 中调用“组织导入”TypeScript 功能？

TypeScript 2 8 中有一个新功能可以让您组织进口 https devblogs microsoft com typescript announcing typescript 2 8 2 organize imports ht
便携式终端

有没有办法根据所使用的操作系统自动使用正确的 EOL 字符我在想类似的事情std eol 我知道使用预处理器指令非常容易但很好奇它是否已经可用我感兴趣的是我的应用程序中通常有一些消息稍后我会将这些消息组合成一个字符串并且我希望将
如何覆盖 Django 中的默认用户模型字段？

问题是默认的用户模型没有为字段提供一些非常有用的选项例如唯一真实到电子邮件字段我读过这个问题覆盖默认的用户模型方法 https stackoverflow com questions 1817244 django override
API 24 AccessibilityService.dispatchGesture() 方法如何工作？

通过 API 24 我们有了一种向设备发送手势的方法但是目前还没有可靠的文档或示例我正在尝试让它工作但目前手势每次都会点击 onCancelled 回调这是我调用该方法的代码 TargetApi 24 private void pr
为什么我不能在扩展 List 的类中调用 OrderBy？

我有一堂课 Deck 其中包含一个名为的方法Shuffle 我正在致力于重构Deck延长List
使用 CSS 屏蔽图像

我做了这样的设计如何用CSS遮盖背景我试过这样的代码 img poster display block max width 100 webkit mask image url https cdn pbrd co images GYiCo
改进C++逐行读取文件的能力？

我正在解析大约 500GB 的日志文件我的 C 版本需要 3 5 分钟我的 Go 版本需要 1 2 分钟我正在使用 C 的流来流式传输文件的每一行以进行解析 include

改进C++逐行读取文件的能力？

改进C++逐行读取文件的能力？ 的相关文章

随机推荐

热门标签

改进C++逐行读取文件的能力？的相关文章