测量 OpenMP Fork/Join 延迟

2024-04-18

由于 MPI-3 具有共享内存并行功能，并且它似乎与我的应用程序完美匹配，因此我正在认真考虑将我的混合 OpemMP-MPI 代码重写为纯 MPI 实现。

为了给棺材里钉上最后一颗钉子，我决定运行一个小程序来测试 OpenMP fork/join 机制的延迟。这是代码（为英特尔编译器编写）：

void action1(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = std::sin(t2.data()[index]) * std::cos(t2.data()[index]);
    }
}

void action2(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = t2.data()[index] * std::sin(t2.data()[index]);
    }
}

void action3(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = t2.data()[index] * t2.data()[index];
    }
}

void action4(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = std::sqrt(t2.data()[index]);
    }
}

void action5(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = t2.data()[index] * 2.0;
    }
}

void all_actions(std::vector<double>& t1, std::vector<double>& t2)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = std::sin(t2.data()[index]) * std::cos(t2.data()[index]);
        t1.data()[index] = t2.data()[index] * std::sin(t2.data()[index]);
        t1.data()[index] = t2.data()[index] * t2.data()[index];
        t1.data()[index] = std::sqrt(t2.data()[index]);
        t1.data()[index] = t2.data()[index] * 2.0;
    }
}


int main()
{
    // decide the process parameters
    const auto n = std::size_t{8000000};
    const auto test_count = std::size_t{500};
    
    // garbage data...
    auto t1 = std::vector<double>(n);
    auto t2 = std::vector<double>(n);
    
    //+/////////////////
    // perform actions one after the other
    //+/////////////////
    
    const auto sp = timer::spot_timer();
    const auto dur1 = sp.duration_in_us();
    for (auto index = std::size_t{}; index < test_count; ++index)
    {
        #pragma noinline
        action1(t1, t2);
        #pragma noinline
        action2(t1, t2);
        #pragma noinline
        action3(t1, t2);
        #pragma noinline
        action4(t1, t2);
        #pragma noinline
        action5(t1, t2);
    }
    const auto dur2 = sp.duration_in_us();
    
    //+/////////////////
    // perform all actions at once
    //+/////////////////
    const auto dur3 = sp.duration_in_us();
    for (auto index = std::size_t{}; index < test_count; ++index)
    {
        #pragma noinline
        all_actions(t1, t2);
    }
    const auto dur4 = sp.duration_in_us();
    
    const auto a = dur2 - dur1;
    const auto b = dur4 - dur3;
    if (a < b)
    {
        throw std::logic_error("negative_latency_error");
    }
    const auto fork_join_latency = (a - b) / (test_count * 4);
    
    // report
    std::cout << "Ran the program with " << omp_get_max_threads() << ", the calculated fork/join latency is: " << fork_join_latency << " us" << std::endl;
    
    return 0;
}

正如您所看到的，其想法是单独执行一组操作（每个操作都在一个 OpenMP 循环内）并计算其平均持续时间，然后一起执行所有这些操作（在同一个 OpenMP 循环内）并计算的平均持续时间。然后我们有一个两个变量的线性方程组，其中之一是 fork/join 机制的延迟，可以求解该方程以获得该值。

问题:

我是否忽略了什么？
目前，我正在使用“-O0”来阻止 smarty-pants 编译器执行其有趣的操作。我应该使用哪种编译器优化，这些优化也会对延迟本身等产生影响吗？
在我的 6 核 Coffee Lake 处理器上，我测得延迟约为 850 us。这听起来正确吗？

Edit 3

）根据 @paleonix 的建议，我在一开始就加入了热身计算，
）为了简单起见，我减少了操作的数量，并且，
）我已切换到“omp_get_wtime”以使其易于理解。

我现在使用标志 -O3 运行以下代码：

void action1(std::vector<double>& t1)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = std::sin(t1.data()[index]);
    }
}

void action2(std::vector<double>& t1)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] =  std::cos(t1.data()[index]);
    }
}

void action3(std::vector<double>& t1)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        t1.data()[index] = std::atan(t1.data()[index]);
    }
}

void all_actions(std::vector<double>& t1, std::vector<double>& t2, std::vector<double>& t3)
{
    #pragma omp parallel for schedule(static) num_threads(std::thread::hardware_concurrency())
    for (auto index = std::size_t{}; index < t1.size(); ++index)
    {
        #pragma optimize("", off)
        t1.data()[index] = std::sin(t1.data()[index]);
        t2.data()[index] = std::cos(t2.data()[index]);
        t3.data()[index] = std::atan(t3.data()[index]);
        #pragma optimize("", on)
    }
}


int main()
{
    // decide the process parameters
    const auto n = std::size_t{1500000}; // 12 MB (way too big for any cache)
    const auto experiment_count = std::size_t{1000};
    
    // garbage data...
    auto t1 = std::vector<double>(n);
    auto t2 = std::vector<double>(n);
    auto t3 = std::vector<double>(n);
    auto t4 = std::vector<double>(n);
    auto t5 = std::vector<double>(n);
    auto t6 = std::vector<double>(n);
    auto t7 = std::vector<double>(n);
    auto t8 = std::vector<double>(n);
    auto t9 = std::vector<double>(n);
    
    //+/////////////////
    // warum-up, initialization of threads etc.
    //+/////////////////
    for (auto index = std::size_t{}; index < experiment_count / 10; ++index)
    {
        all_actions(t1, t2, t3);
    }
    
    //+/////////////////
    // perform actions (part A)
    //+/////////////////
    
    const auto dur1 = omp_get_wtime();
    for (auto index = std::size_t{}; index < experiment_count; ++index)
    {
        action1(t4);
        action2(t5);
        action3(t6);
    }
    const auto dur2 = omp_get_wtime();
    
    //+/////////////////
    // perform all actions at once (part B)
    //+/////////////////

    const auto dur3 = omp_get_wtime();
    #pragma nofusion
    for (auto index = std::size_t{}; index < experiment_count; ++index)
    {
        all_actions(t7, t8, t9);
    }
    const auto dur4 = omp_get_wtime();
    
    const auto a = dur2 - dur1;
    const auto b = dur4 - dur3;
    const auto fork_join_latency = (a - b) / (experiment_count * 2);
    
    // report
    std::cout << "Ran the program with " << omp_get_max_threads() << ", the calculated fork/join latency is: "
        << fork_join_latency * 1E+6 << " us" << std::endl;
    
    return 0;
}

这样，测得的延迟现在为 115 us。现在令我困惑的是这个值changes当动作改变时。根据我的逻辑，由于我在 A 部分和 B 部分中执行相同的操作，因此实际上应该没有任何变化。为什么会发生这种情况？

这是我测量 fork-join 开销的尝试：

#include <iostream>
#include <string>

#include <omp.h>

constexpr int n_warmup = 10'000;
constexpr int n_measurement = 100'000;
constexpr int n_spins = 1'000;

void spin() {
    volatile bool flag = false;
    for (int i = 0; i < n_spins; ++i) {
        if (flag) {
            break;
        }
    }
}

void bench_fork_join(int num_threads) {
    omp_set_num_threads(num_threads);

    // create threads, warmup
    for (int i = 0; i < n_warmup; ++i) {
        #pragma omp parallel
        spin();
    }

    double const start = omp_get_wtime();
    for (int i = 0; i < n_measurement; ++i) {
        #pragma omp parallel
        spin();
    }
    double const stop = omp_get_wtime();
    double const ptime = (stop - start) * 1e6 / n_measurement;

    // warmup
    for (int i = 0; i < n_warmup; ++i) {
        spin();
    }
    double const sstart = omp_get_wtime();
    for (int i = 0; i < n_measurement; ++i) {
        spin();
    }
    double const sstop = omp_get_wtime();
    double const stime = (sstop - sstart) * 1e6 / n_measurement;

    std::cout << ptime << " us\t- " << stime << " us\t= " << ptime - stime << " us\n";
}

int main(int argc, char **argv) {
    auto const params = argc - 1;
    std::cout << "parallel\t- sequential\t= overhead\n";

    for (int j = 0; j < params; ++j) {
        auto num_threads = std::stoi(argv[1 + j]);
        std::cout << "---------------- num_threads = " << num_threads << " ----------------\n";
        bench_fork_join(num_threads);
    }

    return 0;
}

您可以使用多个不同数量的线程来调用它，这些线程数量不应高于计算机上的核心数量才能给出合理的结果。在我的 6 核机器上并使用 gcc 11.2 编译时，我得到

$ g++ -fopenmp -O3 -DNDEBUG -o bench-omp-fork-join bench-omp-fork-join.cpp
$ ./bench-omp-fork-join 6 4 2 1
parallel        - sequential    = overhead
---------------- num_threads = 6 ----------------
1.51439 us      - 0.273195 us   = 1.24119 us
---------------- num_threads = 4 ----------------
1.24683 us      - 0.276122 us   = 0.970708 us
---------------- num_threads = 2 ----------------
1.10637 us      - 0.270865 us   = 0.835501 us
---------------- num_threads = 1 ----------------
0.708679 us     - 0.269508 us   = 0.439171 us

每行中的第一个数字是有线程的平均值（超过 100,000 次迭代），第二个数字是没有线程的平均值。最后一个数字是前两个数字之间的差值，并且应该是 fork-join 开销的上限。

确保每行中间列（无线程）中的数字大致相同，因为它们应该独立于线程数。如果不是，请确保计算机上没有运行任何其他内容和/或增加测量和/或预热运行的次数。

关于将 OpenMP 替换为 MPI，请记住 MPI 仍然是多处理而不是多线程。您可能会付出大量内存开销，因为进程往往比线程大得多。

EDIT:

修改了基准，使用在易失性标志上旋转而不是休眠（感谢@Jérôme Richard）。正如 Jérôme Richard 在他的回答中提到的，测量的开销随着n_spins。环境n_spins低于 1000 并没有显着改变我的测量结果，所以这就是我测量的位置。正如上面所看到的，测量的开销远低于基准测试的早期版本测量的开销。

睡眠的不准确是一个问题，特别是因为人们总是会测量睡眠时间最长的线程，因此会偏向更长的时间，即使睡眠时间本身会围绕输入时间对称分布。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

测量 OpenMP Fork/Join 延迟的相关文章

Web UI 中的 .Result 出现死锁

我正在阅读以下主题http blog stephencleary com 2012 07 dont block on async code html http blog stephencleary com 2012 07 dont bloc
有没有比这更快的方法来查找目录和所有子目录中的所有文件？

我正在编写一个程序需要在目录及其所有子目录中搜索具有特定扩展名的文件这将在本地驱动器和网络驱动器上使用因此性能是一个问题这是我现在使用的递归方法 private void GetFileList string fileSearchP
当我单击 GridView 项时返回 ImageView 实例

当我点击GridView项时如何返回ImageView实例我为 ItemClick 创建自定义绑定事件 public class ItemClickSquareBinding MvxBaseAndroidTargetBinding pri
Linq Where 本地计数器关闭在 VS watch 中的结果不同

我尝试删除前 3 个元素array与 LinQWhere扩展功能这是一个例子 var array new 1 2 3 4 5 6 7 8 9 var count 3 var deletedTest1 0 var test1 array W
阅读 Stack Overflow RSS 源

我正在尝试获取未回答问题的列表the feed https stackoverflow com feeds 但我在阅读时遇到困难 const string RECENT QUESTIONS https stackoverflow com f
Qt中正确的线程方式

我的图像加载非常耗时图像很大并且在加载时也完成了一些操作我不想阻止应用程序 GUI 我的想法是在另一个线程中加载图像发出图像已加载的信号然后用该图像重绘视图我的做法 void Window loadImage ImageLoad
防止复制构造和返回值引用的分配

如果我有一个函数返回对类实例的引用但我无法控制其源比如说list
推送 Lua 表

我已经创建了一个Lua表C 但我不知道如何将该表推入堆栈顶部以便我可以将其传递给 Lua 函数有谁知道如何做到这一点这是我当前的代码 lua createtable state libraries size 0 int table i
如何在不使用reinterpret_cast的情况下使用dlsym()加载函数？

我正在尝试使用 clang tidy 来强制执行 C 核心指南虽然它确实有很多有效点但有一件事我无法真正解决 dlsym 返回一个void 我需要以某种方式将其转换为正确的函数指针为此我使用reinterpret cast 由于指南
当格式字符串包含“{”时，String.Format 异常

我正在使用 VSTS 2008 C Net 2 0 执行以下语句时 String Format 语句抛出 FormatException 有什么想法是错误的吗这是获取我正在使用的 template html 的位置我想在 templat
标准 C 中的 sizeof 与 sizeof()？ [复制]

这个问题在这里已经有答案了我看到一些直接使用 sizeof 的代码想知道它是否是标准 C 令我惊讶的是它运行得很好这是一个例子 include
如何使用 Clang 查找内存泄漏

我在我的机器 ubuntu 中安装了 Clang 以便发现我的 C 代码中的内存泄漏我编写了一个示例代码来检查它的工作情况如下所示 File hello c for leak detection include
通过 MSBuild 调用 cl.exe 时无限期挂起

我正在尝试在我的主要是 C 项目上运行 MSBuild 想象一下一个非常庞大的代码库 Visual Studio 2015 是有问题的工具集 Windows 7 SP1 和 VS 2015 更新 2 即使使用 m 1 从而迫使它仅使用一个
为什么我不能在扩展 List 的类中调用 OrderBy？

我有一堂课 Deck 其中包含一个名为的方法Shuffle 我正在致力于重构Deck延长List
改进C++逐行读取文件的能力？

我正在解析大约 500GB 的日志文件我的 C 版本需要 3 5 分钟我的 Go 版本需要 1 2 分钟我正在使用 C 的流来流式传输文件的每一行以进行解析 include
C# - 为什么我需要初始化 [Out] 参数

我有几个从本机 dll 导入的方法使用以下语法 internal static class DllClass DllImport Example dll EntryPoint ExampleFunction public static e
如何仅更改 DateTime 的日期部分，同时保留时间部分？

我在代码中使用了很多 DateTime 我想将这些日期时间更改为我的特定日期并保留时间 1 2012 02 02 06 00 00 gt 2015 12 12 06 00 00 2 2013 02 02 12 00 00 gt 2015
Windows 上 libcurl 的静态库[重复]

这个问题在这里已经有答案了如何将此库 libcurl 静态链接到 exe 我努力了 disable share enable static 没有帮助我使用的是MingW32 有没有一种简单的方法来静态链接这个库这样我的应用程序就不再有
ASP.NET Core：会话 ID 始终变化

今天启动了一个全新的 ASP NET Core 网站按照说明添加会话我们在索引页上打印出会话 ID 它始终是唯一的我认为这可能是 cookie 合规性所以我在 Chrome 的高级设置和调试器中删除了所有 cookie 但横幅不会再
最后从同一类中的其他构造函数调用构造函数

我在这里读到可以调用另一个构造函数从同一类中的另一个构造函数调用构造函数 https stackoverflow com questions 829870 calling constructor from other constructor

随机推荐

更改my.ini后MySQL服务无法启动

我在 Windows 上运行 MySQL 8 0 我对 my ini 做了一些更改最终找到了它以更改字符集愚蠢的是我没有先备份它并且我使用了记事本它没有多重撤消功能现在我明白了 The MySQL Service could n
Kivy 中的 HTTPS 请求

我一直在处理与通过 AWS API Gateway 托管的 API 绑定的 Kivy 应用程序中的 HTTPS 请求首先我从Python3迁移到2 然后从requests库迁移到kivy的URLRequest 该应用程序在我的 Linu
prawnto 显示新页面时不会中断的表格

我有数量可变的表行数可变我想让它们一个接一个地显示但如果当前页面不适合表请将其放在下一页上然后继续我已将表格放入事务中这样如果高度适合当前页面我可以回滚然后打印它但如何获取表格高度我现在有这个代码 pdf transac
将 CSV 导入组织模式属性

我想将 CSV 导入组织模式其他人已经询问过如何将 CSV 导入组织模式表这不是我想做的我需要将 CSV 导入到组织模式属性例如像这样的 CSV Name Tel Mobile Fax John 11111 22222 33333
删除具有重复索引的 pandas 行

如何删除具有重复索引值的行在下面的天气数据框中有时科学家会返回并纠正观察结果不是通过编辑错误的行而是通过将重复的行附加到文件末尾我正在从网络上读取一些自动天气数据每 5 分钟进行一次观测并编译成每个气象站的每月文件解析文件后
使用 ffmpeg 将文件从一种格式转换为另一种格式

我是新来的ffmpeg我试图找出如何将音频或视频文件从一种格式转换为另一种格式我不想使用CLI 我只是想知道我是否可以使用ffmpeg作为库并调用函数将文件从一种格式转换为另一种格式我浏览了文档并找到了函数avcodec encode
如何仅在夹具级别执行“beforeEach”，而不是针对该夹具下的每个测试

我只想在固定装置级别运行 beforeEach 而不是在该固定装置下的每个测试中运行 fixture Fixture A for Use Case1 beforeEach login test A Test 1 async t gt awa
这是 Matlab 的错误吗？你有同样的问题吗？ [复制]

这个问题在这里已经有答案了我的Matlab版本是R2012a为什么在Matlab中1 1 0 2不等于0 9 这太糟糕了 gt gt 1 1 0 2 0 9 ans 0 这不是Matlab问题这是一个浮点问题在 C 或任何符合以下标准
使用 Google Drive API 从 Google Drive 直接下载

我的桌面应用程序是用 java 编写的尝试从 Google Drive 下载公共文件据我发现它可以通过使用文件来实现webContentLink 这是为了能够在未经用户授权的情况下下载公共文件因此下面的代码适用于小文件 Strin
如何将两个或多个不同 csv 文件组成的数据框中的两列合并为一个新列？

我有几个 csv 文件全部以日期命名对于所有文件我想在每个文件中创建一个新列其中包含来自其他两列放在一起的数据然后我想将它们组合成一个大数据框并仅选择其中两列来保留这是一个例子假设我有两个数据框 a b c a b c x
Rails 的 javascript_include_tag 可以忽略之前加载的脚本吗？

我正在使用这条线 javascript include tag all recursive gt true cache gt true 在 Rails 应用程序的页脚中执行以下操作递归加载public javascripts下的所有脚本
传递给子指令时父指令控制器未定义

我在这里问了一般性问题这个帖子 https stackoverflow com questions 42814530 pass argument between parent and child directives 我已经通过工作示例得到
将 RavenDB 与 ServiceStack 结合使用

I read this http www philliphaydon com 2012 06 using nhibernate with servicestack Phillip Haydon 发表的有关如何将 NHibernate Rav
ndk-build DUMP_APP_ABI 在 Windows 上返回 2 行

我无法在 Windows 上调试 android ndk 应用程序它seems https stackoverflow com questions 20047348 unknown application abi while debug
MySQLdb 使用列表作为输入执行许多？

我想在我的程序中使用executemany一次存储20条记录这就是文档中所说的 c executemany INSERT INTO breakfast name spam eggs sausage price VALUES s s s s
为什么实体框架在 SELECT 上生成 JOIN

我在 C 应用程序中使用实体框架并且使用延迟加载我们注意到一个查询对我们的 CPU 有着极高的影响它仅仅计算一个总和调试实体框架生成的查询时它会创建一个INNER JOIN SELECT 这不是高性能的当我手动将查询更改为正确的
magento 付款流程..一般如何运作

有一个问题我希望这是问的正确地方不太明白magento 中的付款方式客户去结账假设想要以客人身份付款因此提供地址等最后找到付款方式然后我希望客户通过信用卡付款已经为我选择的网关银行安装了模块那时我希望用户被重定向到第
Mysql 变量无法通过 php mysql 查询工作

我有这样的疑问 query SET points 1 SET num 0 SELECT id rank num if points rank num num 1 as point rank FROM said ORDER BY rank 1
调用静态方法时发生致命错误

所以这是我的情况我正在使用 CodeIgniter 我已经设置了一个助手 DK 文件夹下的 string helper 我已经在 dk string helper php 中设置了 dkString 类 static function
测量 OpenMP Fork/Join 延迟

由于 MPI 3 具有共享内存并行功能并且它似乎与我的应用程序完美匹配因此我正在认真考虑将我的混合 OpemMP MPI 代码重写为纯 MPI 实现为了给棺材里钉上最后一颗钉子我决定运行一个小程序来测试 OpenMP fork jo

测量 OpenMP Fork/Join 延迟

测量 OpenMP Fork/Join 延迟 的相关文章

随机推荐

热门标签

测量 OpenMP Fork/Join 延迟的相关文章