如何正确并行化严重依赖 I/O 的作业

2024-06-28

我正在构建一个必须处理大量数据的控制台应用程序。

基本上，应用程序从数据库获取引用。对于每个引用，解析文件的内容并进行一些更改。这些文件是 HTML 文件，该过程正在使用 RegEx 替换进行繁重的工作（查找引用并将其转换为链接）。然后结果存储在文件系统上并发送到外部系统。

如果我按顺序恢复该过程：

var refs = GetReferencesFromDB(); // ~5000 Datarow returned
foreach(var ref in refs)
{
    var filePath = GetFilePath(ref); // This method looks up in a previously loaded file list
    var html = File.ReadAllText(filePath); // Read html locally, or from a network drive
    var convertedHtml = ParseHtml(html);
    File.WriteAllText(destinationFilePath); // Copy the result locally, or a network drive
    SendToWs(ref, convertedHtml);
}

我的程序运行正常，但速度很慢。这就是为什么我想并行化这个过程。

到目前为止，我做了一个简单的并行化，添加了 AsParallel ：

var refs = GetReferencesFromDB().AsParallel(); 
refs.ForAll(ref=>
{
    var filePath = GetFilePath(ref); 
    var html = File.ReadAllText(filePath); 
    var convertedHtml = ParseHtml(html);
    File.WriteAllText(destinationFilePath); 
    SendToWs(ref, convertedHtml);
});

这个简单的改变减少了过程的持续时间（减少了 25% 的时间）。然而，我对并行化的理解是，如果对依赖 I/O 的资源进行并行化，则不会有太多好处（或更糟糕的是，好处更少），因为 I/O 不会神奇地加倍。

这就是为什么我认为我应该改变我的方法，而不是并行化整个过程，而是创建依赖的链式排队任务。

即，我应该创建一个类似的流程：

队列读取文件。完成后，队列 ParseHtml。完成后，Queue 既发送到 WS，又写入本地。完成后，记录结果。

然而，我不知道如何实现这样的想法。

我觉得它会以一组消费者/生产者队列结束，但我没有找到正确的样本。

而且，我不确定是否会有好处。

谢谢你的建议

[Edit]事实上，我是使用 c# 4.5 的完美人选……只要它是 rtm 就好了:)

[Edit 2]另一件让我认为并行化不正确的事情是，在资源监视器中，我看到 CPU、网络 I/O 和磁盘 I/O 的图表不稳定。当一个为高时，其他为低到中等

您没有在任何代码中利用任何异步 I/O API。你所做的一切都受 CPU 限制，所有 I/O 操作都会阻塞地浪费 CPU 资源。AsParallel适用于计算密集型任务，如果您想利用异步 I/O，则需要在 BeginXXX/EndXXX您正在使用的基于 I/O 的类上的方法，并在可用时利用这些方法。

初学者请阅读这篇文章：TPL TaskFactory.FromAsync 与具有阻塞方法的任务 https://stackoverflow.com/questions/5018897/tpl-taskfactory-fromasync-vs-tasks-with-blocking-methods/5073816#5073816

接下来，你不想使用AsParallel无论如何在这种情况下。AsParallel启用流式传输，这将导致立即为每个项目安排一个新任务，但您在这里不需要/不希望这样做。通过使用分区工作，您会得到更好的服务Parallel::ForEach.

让我们看看如何利用这些知识在您的特定情况下实现最大并发性：

var refs = GetReferencesFromDB();

// Using Parallel::ForEach here will partition and process your data on separate worker threads
Parallel.ForEach(
    refs,
    ref =>
{ 
    string filePath = GetFilePath(ref);

    byte[] fileDataBuffer = new byte[1048576];

    // Need to use FileStream API directly so we can enable async I/O
    FileStream sourceFileStream = new FileStream(
                                      filePath, 
                                      FileMode.Open,
                                      FileAccess.Read,
                                      FileShare.Read,
                                      8192,
                                      true);

    // Use FromAsync to read the data from the file
    Task<int> readSourceFileStreamTask = Task.Factory.FromAsync(
                                             sourceFileStream.BeginRead
                                             sourceFileStream.EndRead
                                             fileDataBuffer,
                                             fileDataBuffer.Length,
                                             null);

    // Add a continuation that will fire when the async read is completed
    readSourceFileStreamTask.ContinueWith(readSourceFileStreamAntecedent =>
    {
        int soureFileStreamBytesRead;

        try
        {
            // Determine exactly how many bytes were read 
            // NOTE: this will propagate any potential exception that may have occurred in EndRead
            sourceFileStreamBytesRead = readSourceFileStreamAntecedent.Result;
        }
        finally
        {
            // Always clean up the source stream
            sourceFileStream.Close();
            sourceFileStream = null;
        }

        // This is here to make sure you don't end up trying to read files larger than this sample code can handle
        if(sourceFileStreamBytesRead == fileDataBuffer.Length)
        {
            throw new NotSupportedException("You need to implement reading files larger than 1MB. :P");
        }

        // Convert the file data to a string
        string html = Encoding.UTF8.GetString(fileDataBuffer, 0, sourceFileStreamBytesRead);

        // Parse the HTML
        string convertedHtml = ParseHtml(html);

        // This is here to make sure you don't end up trying to write files larger than this sample code can handle
        if(Encoding.UTF8.GetByteCount > fileDataBuffer.Length)
        {
            throw new NotSupportedException("You need to implement writing files larger than 1MB. :P");
        }

        // Convert the file data back to bytes for writing
        Encoding.UTF8.GetBytes(convertedHtml, 0, convertedHtml.Length, fileDataBuffer, 0);

        // Need to use FileStream API directly so we can enable async I/O
        FileStream destinationFileStream = new FileStream(
                                               destinationFilePath,
                                               FileMode.OpenOrCreate,
                                               FileAccess.Write,
                                               FileShare.None,
                                               8192,
                                               true);

        // Use FromAsync to read the data from the file
        Task destinationFileStreamWriteTask = Task.Factory.FromAsync(
                                                  destinationFileStream.BeginWrite,
                                                  destinationFileStream.EndWrite,
                                                  fileDataBuffer,
                                                  0,
                                                  fileDataBuffer.Length,
                                                  null);

        // Add a continuation that will fire when the async write is completed
        destinationFileStreamWriteTask.ContinueWith(destinationFileStreamWriteAntecedent =>
        {
            try
            {
                // NOTE: we call wait here to observe any potential exceptions that might have occurred in EndWrite
                destinationFileStreamWriteAntecedent.Wait();
            }
            finally
            {
                // Always close the destination file stream
                destinationFileStream.Close();
                destinationFileStream = null;
            }
        },
        TaskContinuationOptions.AttachedToParent);

        // Send to external system **concurrent** to writing to destination file system above
        SendToWs(ref, convertedHtml);
    },
    TaskContinuationOptions.AttachedToParent);
});

现在，这里有一些注意事项：

这是示例代码，因此我使用 1MB 缓冲区来读/写文件。这对于 HTML 文件来说是过多的并且浪费系统资源。您可以降低它以满足您的最大需求，也可以将链式读/写实现到 StringBuilder 中，这是我留给您的练习，因为我要编写大约 500 行以上的代码来执行异步链式读/写。：P
您会注意到，在读/写任务的延续中，我有TaskContinuationOptions.AttachedToParent。这非常重要，因为它将阻止工作线程Parallel::ForEach从完成开始工作，直到所有底层异步调用完成。如果不是这样，您将同时启动所有 5000 个项目的工作，这将导致数千个计划任务污染 TPL 子系统，并且根本无法正常扩展。
我在这里调用 SendToWs 并发将文件写入文件共享。我不知道 SendToWs 实现的基础是什么，但它听起来也像是进行异步的一个很好的候选者。现在假设它是纯粹的计算工作，因此在执行时会消耗 CPU 线程。我将其作为练习留给您，以了解如何最好地利用我向您展示的内容来提高吞吐量。
这都是自由输入的形式，我的大脑是这里唯一的编译器，SO 的语法高亮是我用来确保语法良好的全部。所以，请原谅任何语法错误，如果我搞砸了任何事情，以至于你无法理解它，请告诉我，我会跟进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何正确并行化严重依赖 I/O 的作业的相关文章

反序列化 GUID 数组时出现 JSON.NET 异常

我正在使用 JSON NET 反序列化从浏览器发送的 AJAX HTTP 请求并且在使用 Guid 作为参数的 Web 服务调用时遇到问题当我使用内置的 NET 序列化器时这工作得很好首先流中的原始字节如下所示 System Te
原子/易失性/同步之间有什么区别？

原子易失性同步内部如何工作下面的代码块有什么区别 Code 1 private int counter public int getNextUniqueIndex return counter Code 2 private Atomi
使用 xmlns 属性（命名空间）查询 XDocument

我尝试从 Visual Studio csproj 文件查询元素我创建了一个简短的示例来说明该问题 Working string xml1
pop() 期间提升 Fibonacci 堆访问冲突

Context 我目前正在实现某种形式的 A 算法我决定使用 boost 的斐波那契堆作为底层优先级队列我的图表是在算法运行时构建的作为我使用的顶点对象 class Vertex public Vertex double double
如何使用 lstat() 确定是否为硬链接

我的操作系统是linux 我用 C 编程我知道我可以使用 lstat 来识别软链接即使用 S ISLNK st st mode 但我如何识别该链接是硬链接呢如果链接是硬链接它将被视为常规文件但是我还想区分常规文件和硬链接有什么
如何在 Multiline 属性设置为 true 的文本框中将空格替换为换行符？

假设我有这个字符串 string str The quick brown fox jumps over the lazy dog 如何替换或忽略字符串中的空格并在多行文本框中输入每个单词预期输出 The quick brown fox j
使用 C# 将文件列表从 ftp 下载到本地文件夹？ [复制]

这个问题在这里已经有答案了我希望将 ftp 中的所有文件下载到本地文件夹下载到本地驱动器后所有文件都应在 ftp 中删除从下面的代码我只能从 ftp 下载一个我不期望的文件我需要将所有文件放在一个文件夹中但不放在本地文件名的名
即使指定了标头，g++ 也找不到标头

所以基本上我有一些非常简单的代码其中包括
为什么要在 C 和 C++ 项目中创建 include/ 目录？

当我处理我的个人 C 和 C 项目时我通常把file h and file cpp在同一目录中然后file cpp可以参考file h with a include file h 指示然而通常会发现库和其他类型的项目如 linux
无符号长十六进制表示

include
在 UserControl C# .NET 中添加/停靠控件

我正在编写一个 UserControl 它以编程方式添加子控件目前我正在添加新的控件如下所示 this Controls Add new Control Height 16 Dock DockStyle Top 我遇到的问题是新控件添加
如何为 IAsyncOperation 指定回调方法

是否可以指定一个方法完成后调用async手术平台 C Windows Phone 8 我需要实现非阻塞方法来异步发送UDP数据包他们有我的方法 onWriteComplete int errorCode 操作完成时回调这是我尝试过的
为什么 VS 2008 在 Intellisense 中不显示 String 类的扩展方法

由于 String 实现了IEnumerable
在 Silverlight 中调用 WCF 服务时使用 Observable.FromEvent

我正在尝试使用 NET Reactive Framework 来简化对我正在编写的 Silverlight 3 应用程序使用的 WCF 服务的一些异步调用问题是我很难找到一种有效的方式来构建我的代码毫无疑问部分问题是了解 Reacti
如何使用 SonarQube 的 C# 插件设置 FxCop 安装路径

我正在尝试使用 SonarQube C 插件分析 NET C 项目从C Plugin 3 0开始即使sonar project properties中的 sonar fxcop mode skip FxCop也会自动执行所以我将FxC
Doxygen 支持 C++11 模板别名（“using”语法）吗？

我正在使用 doxygen 1 7 1 为一些 C 11 代码生成文档它似乎忽略了我的模板别名为了清楚起见下面是模板别名的示例 template
如何在 JSON 输出上强制采用 ISO 格式“YYYY-MM-DDThh:mm:ss.sss”？

我有一个 ASP NET WebApi2 api 它返回一些 JSON 格式的时间戳时间戳具有毫秒分辨率通常我会得到这种格式的时间戳这很好 YYYY MM DDThh mm ss sss 不幸的是如果时间戳恰好用整秒对日期进行编码
如何隐藏鼠标光标？

我想问是否有人可以为我提供一个 C 代码在其中我可以在按下特定键时隐藏显示鼠标指针我发现一些只为 TURBO C 编写的代码它们都不能使用 dev c 甚至 Visual c 编译和运行我尝试运行在 Dev C 中找到的代码但我
在 Outlook 中检索当前电子邮件正文

在我的 Outlook 插件中我想在功能区上添加一个按钮因此当用户单击此按钮时我想检索当前选定的电子邮件的正文我有此代码但它只检索收件箱中的第一封电子邮件因为索引为 1 Microsoft Office Interop Outl
Xamarin - iOS 地图上的多个多边形

我目前正在关注this https developer xamarin com guides xamarin forms application fundamentals custom renderer map polygon map ov

随机推荐

核心数据：是否可以在分组中使用自定义函数

在 Objective C 中制作 NSFetchRequest 时是否可以按组使用自定义函数 strftime sql语句在sqlite中完全有效 select date count from note group by strftim
捕获 javax.net.debug 到文件

我需要将创建的 javax net debug all 输出保存到文件中我正在使用 log4j 并尝试创建一个日志代理如下面的代码示例所示但是它没有获取信息我不确定 javax net debug 被打印到哪里我尝试以这种方式捕
docker-compose pull 结果为 x509：证书由未知机构签名

尝试从 dockerhub 提取 elastcisearch 图像时遇到以下错误 docker compose pull Pulling elasticsearch elasticsearch 2 2 0 Pulling repositor
如何正确解决“弱接收器在 ARC 模式下可能会意外地为空”的问题

我在 xcode 中打开了一个新标志并收到警告弱接收器在 ARC 模式下可能不可预测地为空这让我很困惑因为它当然可能为零我一周前问过这个问题但没有收到任何答复但格雷格帕克在邮件列表上回答了它所以我重新发布答案我们添加此警
我删除了 Xcode 中的本地化，然后无法添加任何本地化

我错误地从项目信息中删除了项目的本地化信息故事板和相关语言都被删除我从以前的文件中取回了故事板但是当我想添加新的本地化时会弹出一个窗口并要求我选择文件和参考语言来创建英语本地化并且根本没有资源文件如何添加回本地化内容添加回本
在 Excel VBA 中，如何保存/恢复用户定义的过滤器？

如何使用 VBA 保存并重新应用当前过滤器在 Excel 2007 VBA 中我试图保存用户在当前工作表上拥有的任何过滤器清除过滤器做东西重新应用保存的过滤器看一下捕获自动筛选状态 http www mrexcel com f
wikidata 获取带有项目标签和值的所有属性

我的问题是如何从 wikidata 最好是通过 SPARQL 提取在网页上呈现的所有属性及其各自的标签以Google https www wikidata org wiki Q95维基数据上的条目对于属性 P414 证券交易所或 P1
将 VB 转换为 C# - My.Application.Info.DirectoryPath

以下 VB VB NET VisualBasic 语句的最佳 C csharp 等效项是什么 My Application Info DirectoryPath My Computer Clipboard My Computer Audio
使用图像映射生成器的一个好的替代方案是什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一张大图像我想让图像的某些部分可单击我还想指定可点击区域的形状方形圆形自定义在不依赖 Javascript 的情况下如何
Android 上原始文件夹和 SD 卡之间的 MediaPlayer 问题

我正在制作一个用于使用搜索栏播放歌曲的应用程序如果我从原始文件夹播放它可以工作但如果我从 SD 卡播放歌曲它会显示空指针异常 private MediaPlayer mediaPlayer mediaPlayer MediaPlay
为什么要为 RESTful API 创建单独的应用程序？

Yii 2 的指南中说虽然不是必需的但建议您开发 RESTful API 作为一个单独的应用程序与您的 Web 前端不同后端更方便维护 Source RESTful Web 服务快速入门 http www yiiframework
执行源代码时忽略导入错误

我有一个应用程序它读取 python 中的测试脚本并将其通过网络发送以在远程 python 实例上执行由于控制程序不需要运行这些脚本我不想将测试脚本使用的所有模块安装在控制器的 python 环境中然而控制器确实需要来自测试脚本的
C# 中带有复选框的 TreeView

我在 C 中有一个带有复选框的树视图我希望当用户检查一个节点时自动检查以下级别上的所有节点有谁知道如何做到这一点而无需在每次用户检查某个节点时在所有树上运行递归功能 Thanks 该函数返回树视图 public TreeView G
SQL 用逗号替换点

我有以下代码 SELECT cast Listenpreis 1 19 as decimal 29 2 as Listenpreis FROM SL M03KNE dbo ARKALK 我得到这个值 5 59 我尝试将点替换为 komma
Qt QPushButton 样式表悬停

我有以下按钮样式表 QPushButton hover background qlineargradient x1 0 y1 0 x2 0 y2 1 stop 0 0 ffd9aa stop 0 5 ffbb6e stop 0 55 fea
在 PHP 中你使用复数还是单数来命名你的数组？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案当我命名数组类型变量时我经常遇到一个困境我使用复数还是单数命名我的数组例如假设我有一个名称数组在 PHP 中我会说 names arr
Kubernetes 在 AWS-EBS 上创建 PersistentVolumeClaim 失败

我使用以下命令设置了一个包含四个 EC2 实例的 Kubernetes 集群kubeadm Kubernetes 集群工作正常但当我尝试创建PersistentVolumeClaim 首先我创建了一个StorageClass使用以下 YA
WPF 数据触发器和故事板

当视图模型演示模型繁忙时我试图触发进度动画我有一个 IsBusy 属性并将 ViewModel 设置为 UserControl 的 DataContext 当 IsBusy 属性为 true 时触发 progressAnimati
暂停 Web Audio API 声音播放

如何为我的音频创建暂停功能我的下面的脚本中已经有一个播放函数 http pastebin com uRUQsgbh http pastebin com uRUQsgbh function loadSound url var request
如何正确并行化严重依赖 I/O 的作业

我正在构建一个必须处理大量数据的控制台应用程序基本上应用程序从数据库获取引用对于每个引用解析文件的内容并进行一些更改这些文件是 HTML 文件该过程正在使用 RegEx 替换进行繁重的工作查找引用并将其转换为链接然后结果存储

如何正确并行化严重依赖 I/O 的作业

如何正确并行化严重依赖 I/O 的作业 的相关文章

随机推荐

热门标签

如何正确并行化严重依赖 I/O 的作业的相关文章