从标准输入 C++ 读取数百万个整数的最快方法？

2024-01-08

我正在开发一个排序项目，现在主要瓶颈是读取数据。我的程序需要大约 20 秒才能对从 stdin 读取的 100,000,000 个整数进行排序cin and std::ios::sync_with_stdio(false);但事实证明，其中 10 秒用于读取数据进行排序。我们确实知道我们将读入多少个整数（计数位于我们需要排序的文件的顶部）。

我怎样才能让它更快？我知道这是可能的，因为上学期的一个学生能够在 3 秒多一点的时间内完成计数排序（这基本上是纯粹的阅读时间）。

该程序只是输入文件的内容，其中的整数由换行符分隔，例如$ ./program < numstosort.txt

Thanks

这是相关代码：

    std::ios::sync_with_stdio(false);
    int max;
    cin >> max;
    short num;
    short* a = new short[max];
    int n = 0;
    while(cin >> num) { 
        a[n] = num;
        n++;
    }

假设 Linux/POSIX 在商用硬件上运行，这将尽可能快地将数据存入内存。请注意，由于您显然不允许使用编译器优化，因此 C++ IO 不会是读取数据的最快方法。正如其他人所指出的，如果不进行优化，C++ 代码的运行速度将无法达到应有的速度。

鉴于重定向的文件已经打开为stdin/STDIN_FILENO，使用低级系统调用/C 风格 IO。那不会need进行优化，因为它将尽可能快地运行：

struct stat sb;
int rc = ::fstat( STDIN_FILENO, &sb );

// use C-style calloc() to get memory that's been
// set to zero as calloc() is often optimized to be
// faster than a new followed by a memset().
char *data = (char *)::calloc( 1, sb.st_size + 1 );
size_t totalRead = 0UL;
while ( totalRead  < sb.st_size )
{
    ssize_t bytesRead = ::read( STDIN_FILENO,
        data + totalRead, sb.st_size - totalRead );
    if ( bytesRead <= 0 )
    {
        break;
    }
    totalRead += bytesRead;
}

// data is now in memory - start processing it

该代码会将您的数据作为一个长 C 样式字符串读入内存。缺乏编译器优化并不重要，因为它几乎都是裸机系统调用。

Using fstat()获取文件大小允许一次分配所有需要的内存 - 否realloc()或者复制数据是必要的。

您需要添加一些错误检查，并且更强大的代码版本将检查以确保从fstat()实际上是一个具有实际大小的常规文件，而不是“无用的 cat”，例如cat filename | YourProgram，因为在这种情况下fstat()调用不会返回有用的文件大小。您需要检查sb.st_mode的领域struct stat打电话后看看有什么stdin流确实是：

::fstat( STDIN_FILENO, &sb );
...
if ( S_ISREG( sb.st_mode ) )
{
    // regular file...
}

（对于真正的高性能系统，确保将数据读入的内存页实际上映射到进程地址空间中非常重要。如果数据到达的速度快于内核内存管理系统创建的速度，性能可能会真正停滞数据转储到的页面的虚拟到物理映射。）

为了尽可能快地处理大文件，您需要采用多线程，即一个线程读取数据并向一个或多个数据处理线程提供数据，以便您可以在读完数据之前开始处理数据。

编辑：解析数据。

同样，阻止编译器优化可能会使 C++ 操作的开销比 C 样式处理慢。基于这个假设，有一些东西simple可能会跑得更快。

假设数据位于按上述方式读取的 C 样式字符串中，这在未优化的二进制文件中可能会运行得更快：

char *next;
long count = ::strtol( data, &next, 0 );
long *values = new long[ count ];

for ( long ii = 0; ii < count; ii++ )
{
    values[ ii ] = ::strtol( next, &next, 0 );
}

那也是very脆弱的。它依赖于strtol()跳过前导空格 http://man7.org/linux/man-pages/man3/strtol.3.html，这意味着如果数值之间有除空格之外的任何内容，它将失败。它还依赖于值的初始计数是否正确。再说一次 - 如果这不是真的，那么代码将会失败。并且因为它可以替代的值next在检查错误之前，如果由于数据错误而偏离轨道，它将无可救药地丢失。

但它应该在不允许编译器优化的情况下尽可能快。

这就是不允许编译器优化的疯狂之处。您可以编写简单、健壮的 C++ 代码来完成所有处理，利用良好的优化编译器，并且可能几乎与我发布的代码一样快地运行 - 它没有错误检查，并且如果喂入，将以意想不到的和未定义的方式严重失败意外的数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从标准输入 C++ 读取数百万个整数的最快方法？的相关文章

如何检查图像对象与资源中的图像对象是否相同？

所以我试图创建一个简单的程序只需在单击图片框中更改图片即可我目前只使用两张图片所以我的图片框单击事件函数的代码看起来像这样 private void pictureBox1 Click object sender EventArgs
如何使 Windows 窗体的关闭按钮不关闭窗体但使其不可见？

该表单有一个 NotifyIcon 对象当用户单击关闭按钮时我希望表单不关闭而是变得不可见然后如果用户想再次查看该表单可以双击系统托盘中的图标如果用户想关闭表单可以右键单击该图标并选择关闭有人可以告诉我如何使关闭按钮不
将数组向左或向右旋转一定数量的位置，复杂度为 o(n)

我想编写一个程序根据用户的输入正 gt 负 include
pthread_cond_timedwait() 和 pthread_cond_broadcast() 解释

因此我在堆栈溢出和其他资源上进行了大量搜索但我无法理解有关上述函数的一些内容具体来说 1 当pthread cond timedwait 因为定时器值用完而返回时它如何自动重新获取互斥锁互斥锁可能被锁定在其他地方例如在生产者
如何避免情绪低落？

我有一个实现状态模式每个状态处理从事件队列获取的事件根据State因此类有一个纯虚方法void handleEvent const Event 事件继承基础Event类但每个事件都包含其可以是不同类型的数据例如 int string
使闭包捕获的变量变得易失性

闭包捕获的变量如何与不同线程交互在下面的示例代码中我想将totalEvents 声明为易失性的但C 不允许这样做是的我知道这是错误的代码这只是一个例子 private void WaitFor10Events volatile
指针问题（仅在发布版本中）

不确定如何描述这一点但我在这里由于某种原因当尝试创建我的游戏的发布版本进行测试时它的敌人创建方面不起作用 Enemies e level1 3 e level1 0 Enemies sdlLib 500 2 3 128 250 32
如何将图像和 POST 数据上传到 Azure 移动服务 ApiController 终结点？

我正在尝试上传图片and POST表单数据尽管理想情况下我希望它是json 到我的端点Azure 移动服务应用我有ApiController method HttpPost Route api upload databaseId sea
Json.NET - 反序列化接口属性引发错误“类型是接口或抽象类，无法实例化”

我有一个类其属性是接口 public class Foo public int Number get set public ISomething Thing get set 尝试反序列化Foo使用 Json NET 的类给我一条错误消息
如果使用 SingleOrDefault() 并在数字列表中搜索不在列表中的数字，如何返回 null？

使用查询正数列表时SingleOrDefault 当在列表中找不到数字时如何返回 null 或像 1 这样的自定义值而不是类型的默认值在本例中为 0 你可以使用 var first theIntegers Cast
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
使用 System.Text.Json 即时格式化 JSON 流

我有一个未缩进的 Json 字符串例如 hash 123 id 456 我想缩进字符串并将其序列化为 JSON 文件天真地我可以使用缩进字符串Newtonsoft如下 using Newtonsoft Json Linq JToken
vector 超出范围后不清除内存

我遇到了以下问题我不确定我是否错了或者它是一个非常奇怪的错误我填充了一个巨大的字符串数组并希望在某个点将其清除这是一个最小的例子 include
Discord.net 无法在 Linux 上运行

我正在尝试让在 Linux VPS 上运行的 Discord net 中编码的不和谐机器人我通过单声道运行但我不断收到此错误 Unhandled Exception System Exception Connection lost at
32 位到 64 位内联汇编移植

我有一段 C 代码在 GNU Linux 环境下用 g 编译它加载一个函数指针它如何执行并不重要使用一些内联汇编将一些参数推送到堆栈上然后调用该函数代码如下 unsigned long stack 1 23 33 43 save
const、span 和迭代器的问题

我尝试编写一个按索引迭代容器的迭代器 AIt and a const It两者都允许更改容器的内容 AConst it and a const Const it两者都禁止更改容器的内容之后我尝试写一个span
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
ASP.NET MVC 6 (ASP.NET 5) 中的 Application_PreSendRequestHeaders 和 Application_BeginRequest

如何在 ASP NET 5 MVC6 中使用这些方法在 MVC5 中我在 Global asax 中使用了它现在呢也许是入门班 protected void Application PreSendRequestHeaders obj
如何在不声明新数据的情况下更改类型（String，Int）元组的 Ord 实例？

我正在尝试对类型列表进行排序 String Int 默认情况下它按字符串排序然后按整数排序如果字符串相等我希望它是相反的首先比较整数然后如果相等则比较字符串另外我不想切换到 Int String 我找到了一种通过定义实例来实
防止索引超出范围错误

我想编写对某些条件的检查而不必使用 try catch 并且我想避免出现 Index Out of Range 错误的可能性 if array Element 0 Object Length gt 0 array Element 1 Ob

随机推荐

业力 - 找不到插件

我正在尝试使用 karma 运行 js 测试用例但总是出现插件未找到错误有趣的是同一个配置文件对我的其他同事来说工作得很好这是日志 karma start karma conf js 04 10 2016 17 51 24 755
IsUnique=Yes 时唯一键和索引有什么区别？

我有一个带有主键的表但我希望约束另外两列以便保证两者的组合始终是唯一的一个愚蠢的例子在 BOOKS 表中 IBAN 列是主键但 Title 和 Author 列的组合也应该始终是唯一的在 SQL Server Managemen
从 ClientModelValidationContext 访问完整的 html 字段属性

我有一个自定义验证属性我正在将其从 asp net 转移到 asn net core 这是一个简单的 requiredif 属性实现了 IClientModelValidator public class RequiredIfAttri
为什么 std::string 没有隐式转换为 bool

在 C 中是否有原因std string不是隐式转换为bool 例如 std string s if s s in not empty 与其他语言一样例如 python 我认为使用它很乏味empty method 这大概could现在需要
如何使用数组公式引用先前的匹配记录？

我有一个项目电子表格项目经理在每个月有一些活动的情况下输入每个项目的当前进度状态因此 A B 和 C 列已填充我需要能够使用 arrayformula 计算出 D 列请注意 2019 年 6 月没有项目 1 的活动记录我想我首
Scala - 如何将路径列表解析为 JSON 格式的目录结构

我正在尝试创建一个嵌套目录结构 json 给定 scala 中的文件路径列表例如如果我有这样的路径列表 val a List a b c d e f runid1 a b c d e f runid2 a b c d e g runid
Linux 容器上的 Azure Function 的 Docker 问题 - 函数缺失导致函数运行时出现 404

这个问题是这个问题的延续在 Linux 容器上触发 Azure 函数 HTTP 函数不起作用 404 https stackoverflow com questions 61567697 azure function http trigg
SQL/VBA：如何按从每月第一天以外的一天开始的会计年度进行分组

我正在尝试使用 MS Access 按会计年度对一些数据进行分组该会计年度可能与日历年度不同如果每个会计年度总是从给定月份的第一天开始那么解决方案很简单可以简单地使用如下 if 语句 FY IIf Month orderdate
使用 Handlebars 重复查找

给定一个对象数组我想使用嵌套对象的一个属性来查找 Handlebars 中关联对象的各种属性在此示例中我想显示每所大学的学生列表以及每个学生所属院系的信息我的代码有效但嵌套查找非常重复 lookup lookup majors
检测脚本的位置而不是调用它的页面

我想知道是否可以以某种方式找到脚本的位置而不是调用它的页面例如如果页面是http xxx yyy com a htm http xxx yyy com a htm 然后我写了 location href 我得到了那个位置而不是http a
从 C++ 访问 QML 对象

以下是将 QML 文档加载到 C 中的代码 QmlDocument qml QmlDocument create asset main qml parent this Create root object for the UI Abstra
SelectionStart 和 SelectionEnd 对于文本区域意味着什么？

我遇到了以下代码片段将 Enter 插入到按下 ctrl Enter 的文本区域中的文本中 txtChatMessage keydown MessageTextOnKeyEnter function MessageTextOnKeyEnt
Swift 中的懒惰

Why is lazy这里用的 extension SequenceType func mapSome u transform Generator Element gt U gt U var result U for case let x
在haskell中剖析java类文件

我今年早些时候刚刚开始学习 Haskell 语言并且正在开发一个项目该项目输入一个 java 类文件即 FileName1 class 并剖析该文件以打印出以下内容类文件定义的类名类的方法数量它们的名称和类型我做了一些研究发
C# 数据库应用程序并发

我曾经用 C 编写过一个多用户应用程序使用 SQL Server 2005 Express 作为后端我有一个订单集合为了使用此类您需要实例化它并调用 Load CustomerCode 方法以便使用指定客户的订单填充集合我的问题
Vb.Net 属性语法

我问过我的同事甚至试图在互联网上查找这个问题但我一直无法得到答案有什么区别 Public Property Name As String and Public Property Name As String 在属性名称后面添加有什么
如何使这个简单的 OpenGL 代码（在“宽松”的 3.3 和 4.2 配置文件中工作）在严格的 3.2 和 4.2 核心配置文件中工作？

我有一些 3D 代码我注意到它们不会在严格的核心配置文件中呈现但在正常未明确请求仅作为核心配置文件上下文中正常为了隔离这个问题我编写了最简单的 OpenGL 程序仅绘制一个三角形和一个矩形我已经发布了OpenGL程序作为这
ASP.NET MVC - 简单面包屑（站点地图）

我开发了一个 ASP NET MVC 2 应用程序我想在每个页面中放置一个简单的面包屑站点地图如下所示首页 gt 电影 gt 详情它等于 URL http localhost home movies details http lo
带有页眉、页脚和正文的简单 div

我需要一个简单的div with header footer and body content The header and footer需要是fixed和heightdiv 的应该是250px or max 500px和它的width i
从标准输入 C++ 读取数百万个整数的最快方法？

我正在开发一个排序项目现在主要瓶颈是读取数据我的程序需要大约 20 秒才能对从 stdin 读取的 100 000 000 个整数进行排序cin and std ios sync with stdio false 但事实证明其中 10

从标准输入 C++ 读取数百万个整数的最快方法？

从标准输入 C++ 读取数百万个整数的最快方法？ 的相关文章

随机推荐

热门标签

从标准输入 C++ 读取数百万个整数的最快方法？的相关文章