使用 MPI 和 openMP 并行运行代码时扩展性较差

2024-01-06

我有以下实现：

int main(int argc, char **argv)
{
    int n_runs = 100; // Number of runs
    int seed = 1; 
    int arraySize = 400;
    /////////////////////////////////////////////////////////////////////
   
    // initialise the random number generator using a fixed seed for reproducibility
    srand(seed); 

    MPI_Init(nullptr, nullptr);

    int rank, n_procs;
    MPI_Comm_size(MPI_COMM_WORLD, &n_procs);
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);

    // Initialise the probability step and results vectors.
    // We have 21 probabilities between 0 and 1 (inclusive).
    double prob_step = 0.05;
    std::vector<double> avg_steps_over_p(21,0);
    std::vector<double> trans_avg_steps_over_p(21,0);
    std::vector<int> min_steps_over_p(21,0);
    std::vector<int> trans_min_steps_over_p(21,0);
    std::vector<int> max_steps_over_p(21,0);
    std::vector<int> trans_max_steps_over_p(21,0);
    std::vector<double> prob_reached_end(21,0);
    std::vector<double> trans_prob_reached_end(21,0);

    // Loop over probabilities and compute the number of steps before the model burns out,
    // averaged over n_runs.
    for (int i = rank; i < 21; i+=n_procs)
    {
        double prob = i*prob_step;

        int min_steps = std::numeric_limits<int>::max();
        int max_steps = 0;

        for (int i_run = 0; i_run < n_runs; ++i_run)
        {
            Results result = forest_fire(arraySize, prob);
            
            avg_steps_over_p[i] += result.stepCount;

            if (result.fireReachedEnd) ++prob_reached_end[i];
            if (result.stepCount < min_steps) min_steps = result.stepCount;
            if (result.stepCount > max_steps) max_steps = result.stepCount;
        }

        avg_steps_over_p[i] /= n_runs;
        min_steps_over_p[i] = min_steps;
        max_steps_over_p[i] = max_steps;
        prob_reached_end[i] = 1.0*prob_reached_end[i] / n_runs;
    }

    // Worker processes communicate their results to the master process.
    if (rank > 0)
    {
        MPI_Send(&avg_steps_over_p[0], 21, MPI_DOUBLE, 0, rank, MPI_COMM_WORLD);
        MPI_Send(&min_steps_over_p[0], 21, MPI_INT, 0, rank, MPI_COMM_WORLD);
        MPI_Send(&max_steps_over_p[0], 21, MPI_INT, 0, rank, MPI_COMM_WORLD);
        MPI_Send(&prob_reached_end[0], 21, MPI_DOUBLE, 0, rank, MPI_COMM_WORLD);
    } else
    {
        for (int i = 1; i < n_procs; ++i)
        {
            MPI_Status status;
            MPI_Recv(&trans_avg_steps_over_p[0], 21, MPI_DOUBLE, i, i, MPI_COMM_WORLD, &status);
            for (int j = i; j < 21; j += n_procs) {
                 avg_steps_over_p[j] = trans_avg_steps_over_p[j];
            }
            MPI_Recv(&trans_min_steps_over_p[0], 21, MPI_INT, i, i, MPI_COMM_WORLD, &status);
            for (int j = i; j < 21; j += n_procs) {
                 min_steps_over_p[j] = trans_min_steps_over_p[j];
            }

            MPI_Recv(&trans_max_steps_over_p[0], 21, MPI_INT, i, i, MPI_COMM_WORLD, &status);
            for (int j = i; j < 21; j += n_procs) {
                 max_steps_over_p[j] = trans_max_steps_over_p[j];
            }

            MPI_Recv(&trans_prob_reached_end[0], 21, MPI_DOUBLE, i, i, MPI_COMM_WORLD, &status);
            for (int j = i; j < 21; j += n_procs) {
                 prob_reached_end[j] = trans_prob_reached_end[j];
            }
        }

        // Master process outputs the final result.
        std::cout << "Probability, Avg. Steps, Min. Steps, Max Steps" << std::endl;
        for (int i = 0; i < 21; ++i)
        {
            double prob = i * prob_step;
            std::cout << prob << "," << avg_steps_over_p[i]
                      << "," << min_steps_over_p[i] << "," 
                      << max_steps_over_p[i] << "," 
                      << prob_reached_end[i] << std::endl;
        }
    }

    MPI_Finalize();
    return 0;
}

我尝试过以下参数：尺度分析 https://i.stack.imgur.com/9UzU4.png

我对并行化和 HPC 很陌生，所以如果我错了，请原谅我，但当增加每个节点的任务和每个任务的 CPU 时，我预计加速比大于 3。我还没有尝试所有的可能性，但我相信这里的行为很奇怪，特别是当将每个任务的 CPU 数保持为 1 并将每个节点的任务从 2->3->4 增加时。我知道这并不像更高的核心使用率=更高的速度那么简单，但从我收集的数据来看，这些应该会加速。

我的代码是否可能效率低下导致这种情况，或者这是预期的行为？我的完整代码在这里，其中包括 openMP 并行化：https://www.codedump.xyz/cpp/Y5Rr68L8Mncmx1Sd https://www.codedump.xyz/cpp/Y5Rr68L8Mncmx1Sd.

非常感谢。

我不知道 Forest_fire 例程中有多少个操作，但最好是几万个，否则您没有足够的工作来克服并行化开销。
Rank 0 按顺序处理所有进程。您应该使用 MPI_Irecv。我想知道集体行动是否不是更好。
您正在使用 [i] 进行索引，这是一个跨步操作。正如我在您发布的另一个问题中指出的那样，这是浪费空间。每个进程应该只分配该进程所需的空间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 MPI 和 openMP 并行运行代码时扩展性较差的相关文章

Windows 10 Mobile (10.0.14393) 地理围栏后台任务 (LocationTrigger)

自从10 0 14393 周年纪念更新 LocationTrigger似乎不起作用我有 Windows Phone 8 1 应用程序也适用于 UWP 应用程序输出到的便携式库Windows Runtime Component图书馆 w
内联函数/方法

声明内联函数必须在调用之前定义这个说法正确吗 EDIT 该问题最初是德语内联功能穆森弗伊赫雷姆奥夫鲁夫定义 sein 也许它对任何人都有帮助是的它是正确的但只是部分正确它可能正确地重新构建如下内联函数必须在每个翻译单位
(const T v) 在 C 中从来都不是必需的，对吗？

例如 void func const int i 在这里 const是不必要的因为所有参数都是按值传递的包括指针真的吗 C 中的所有参数确实都是按值传递这意味着无论您是否包含该参数实际参数都不会改变const or not 然而
CultureInfo 的实例（来自相同的文化）根据操作系统而变化

我有一个网站上面写着这样的日期 CultureInfo cultureInfo CultureInfo GetCultures CultureTypes AllCultures FirstOrDefault c gt string Equ
在 C# Winforms 应用程序中嵌入 Windows XP 主题

我有一个旧版 C Windows 窗体应用程序其布局是根据 Windows XP 默认主题设计的由于需要将其作为 Citrix 应用程序进行分发该应用程序现在看起来像经典主题应用程序因为 Citrix 不鼓励使用主题系统服务所以
选择列表逻辑应位于 ASP.NET MVC、视图、模型或控制器中的什么位置？

我觉得我的问题与这个问题很接近但我想对这样的代码应该放在哪里进行更一般的讨论 Asp Net MVC SelectList 重构问题 https stackoverflow com questions 2149855 asp net mv
SFINAE 如何使用省略号？

过去当使用 SFINAE 选择构造函数重载时我通常使用以下内容 template
将带有 glut 的点击坐标添加到向量链接列表中

我想创建一个向量链接列表并在 GLUT 库的帮助下获取点击的位置并将它们附加到链接列表中这些是我写的结构 typedef struct vector int x int y Vector typedef struct VectorLis
两种类型的回发事件

1 我发现了两篇文章每篇文章对两种类型的回发事件的分类都略有不同一位资源说两种类型的回发事件是Changed事件其中控件实现 IPostbackDataHandler 当数据在回发之间更改时触发然后Raised事件其中控件实现 I
C# 委托责任链

为了我的理解目的我实现了责任链模式 Abstract Base Type public abstract class CustomerServiceDesk protected CustomerServiceDesk nextHandle
为什么具有相同名称但不同签名的多个继承函数不会被视为重载函数？

以下代码片段在编译期间产生对 foo 的调用不明确错误我想知道是否有任何方法可以解决此问题而不完全限定对 foo 的调用 include
C# 中的常量和只读？ [复制]

这个问题在这里已经有答案了可能的重复 const 和 readonly 之间有什么区别 https stackoverflow com questions 55984 what is the difference between cons
如何随着分辨率的变化自动调整大小和调整表单控件

我注意到某些应用程序会更改控件的位置以尽可能适应当前的分辨率例如如果窗口最大化则控件的设置方式应使整个 GUI 看起来平衡是否可以使用 C 在 Visual studio 2010 中制作或实现此功能 Use Dock http m
从 R 到 C 处理列表并访问它

我想使用从 R 获得的 C 列表我意识到这个问题与此非常相似使用 call 在 R 和 C 之间传递数据帧 https stackoverflow com questions 6658168 passing a data frame f
.NET 客户端中 Google 表格中的条件格式请求

我知道如何在 Google Sheets API 中对值和其他格式进行批量电子表格更新请求但条件格式似乎有所不同我已正确设置请求 AddConditionalFormatRuleRequest formatRequest new Add
ASP.NET JQuery AJAX POST 返回数据，但在 401 响应内

我的应用程序中有一个网页需要调用我设置的 Web 服务来返回对象列表这个调用是这样设置的 document ready function var response ajax type POST contentType applicati
C 中带有指针的结构的内存开销[重复]

这个问题在这里已经有答案了我意识到当我的结构包含指针时它们会产生内存开销这里有一个例子 typedef struct int num1 int num2 myStruct1 typedef struct int p int num2
在 C++17 中使用成员的链接错误

我在 Ubuntu 16 04 上使用 gcc 7 2 并且需要使用 C 17 中的新文件系统库尽管确实有一个名为experimental filesystem的库但我无法使用它的任何成员例如当我尝试编译此文件时 include
C语言声明数组没有初始大小

编写一个程序来操纵温度详细信息如下所示输入要计算的天数主功能输入摄氏度温度输入功能将温度从摄氏度转换为华氏度独立功能查找华氏度的平均温度我怎样才能在没有数组初始大小的情况下制作这个程序 include
C#中为线程指定特殊的cpu

我有 2 个线程我想告诉其中一个在第一个 cpu 上运行第二个在第二个 cpu 上运行例如在具有两个 cpu 的机器中我怎样才能做到这一点这是我的代码 UCI UCIMain new UCI Thread UCIThread ne

随机推荐

导出的 pdf 中缺少 Jupyter 笔记本 matplotlib 数字

在 jupyter 笔记本中生成 pdf 时一切都很好但我想将内联数字保留在 pdf 以及笔记本中这是我的代码 matplotlib notebook import matplotlib pyplot as plt import nu
Xcode 7.3 - 警告未显示且无法搜索项目

自从我升级到 Xcode 7 3 以来我注意到在搜索工作区时总是没有结果并且警告窗格中也没有显示任何警告有时它会工作几分钟然后再次死机重新启动我的电脑 Xcode 然后重新安装都没有帮助还有其他人遇到过这种情况或找到解决方案解
错误：预期声明说明符或“list_node”之前的“...”

我有一个 Catalog h 文件 typedef struct node list node struct node operationdesc op ptr list node next 和一个 parser h 与此 include
为什么我需要 DJANGO_SETTINGS_MODULE 设置？

每次通过 SSH 登录服务器时我都需要输入以下内容 export DJANGO SETTINGS MODULE settings 如果我不使用manage py模块就会失败我的manage py添加了以下代码 if notificati
在数据库上创建程序集时部署 SQL CLR 项目失败

我用来创建程序集的服务器上的文件夹中有一个包含 3 个 dll 文件的文件夹我首先尝试了以下代码并收到一个错误表示在服务器上找不到 system data datasetextensions dll 文件我将 dll 从我的计算机复
如何共享对 Firebase Analytics 数据的访问而不暴露 Firebase 的其余部分？

我知道如何向 Firebase 项目添加协作者并且可以为每个协作者分配特定的角色这些角色与某些权限相关联然而似乎没有一个角色符合我的要求我想与非技术营销人员共享 Firebase Analytics 的访问权限我必须避免将 Fi
IIS - 以编程方式重置 SSL 会话

我有一个 IIS 7 5 Web 应用程序客户端使用双向又称双向 SSL 连接到该应用程序客户端证书由智能卡提供我需要让网络应用程序超时当超时发生时我想销毁 SSL 会话假设在 IIS 上从而强制客户端重新进行身份验证如何
原型点击、鼠标悬停和鼠标移开不能一起工作？

我正在尝试做一个非常简单的按钮它根据鼠标悬停鼠标移出和改变颜色单击我正在原型中执行此操作奇怪的是如果我使用鼠标悬停和鼠标移出单击按钮后按钮不会变为白色似乎是因为鼠标移开这是我的代码 izzy observe mouseov
可以发出 cURL 请求并获取所采用的路由（类似于traceroute）

我有一个带有标头参数的 GET 请求我想检查我的应用程序正在使用哪个数据库实例有没有办法构建一个 cURL 请求来告诉我我的请求要去哪里我知道有一个traceroute显示所有服务器跃点的命令但是有没有类似于使用 cURL 的东西呢
垂直于给定点的线段

我想计算给定线上与给定点垂直的点我有一条线段AB 在线段外有一个点C 我想计算AB上的点D 使得CD垂直于AB 我必须找到D点它非常类似于this https stackoverflow com questions 1811549 pe
从 XIB 到故事板

我有一个带有故事板和一个 xib 窗口的应用程序从情节提要到 xib 我以这种方式移动 ShowDreamNIBController detailViewController ShowDreamNIBController alloc in
Java如何在jar环境而不是IDE中读取文件夹并列出该文件夹中的文件

我的问题是我在 src 下创建一个文件夹名称是 IconResources 在 IconResources 中有很多图片目录是这样的 ProjectName src 套餐1 套餐2 IconResources 这是目标文件夹我想列出所
ES6 之前的类中的静态函数

我的问题见下文是如何声明 STATIC 函数和常量pre ES6类所以它们可以被继承在问题之前我们已经对当前的 ES6 类和 ES6 之前的类进行了回顾因此我们都使用相同的约定在 ES6 之后我们可以在类中定义静态函数如下所示
实时显示中表格的垂直溢出应滚动内容

我正在使用一个Live https rich readthedocs io en stable live html显示内容Table https rich readthedocs io en stable tables html随着时间的推
在 C++ 中获取文本文件的第 n 行

我需要读取文本文件的第 n 行例如textfile findline 0 会找到加载的文本文件的第一行ifstream textfile 这可能吗我不需要将文件的内容放入数组向量中我只需将文本文件的特定行分配给变量特别是 int
NSDate/NSDateFormatter - 只存储时间，不存储日期？

我一直在环顾四周但没有看到任何可以解决这个问题的东西所以我希望有人可以帮助我解决这个问题我想做的是使用 NSDate 变量在核心数据中来存储时间而不是日期和时间而只是格式为 HH MM SS 的时间查看 NSDateForm
相对于旋转角度的矩形坐标

我正在尝试使用 Surfaceview 和画布绘图在 Android 中创建自定义组件这些组件可以通过触摸来调整大小和旋转考虑创建一个图像视图其顶部右侧底部和左侧边缘可通过触摸并拖动所需边缘进行缩放我在用RectF为了保持组件的
创建创建组的 django 数据迁移的正确方法？

我想创建创建权限和组的数据迁移以便我的其他开发人员可以运行迁移并完成所有设置我能够创建迁移并运行它们但现在运行测试时出现错误但如果我这样做 from django contrib auth models import Group d
C++ vtable 通过虚拟继承进行解析

我对 C 和虚拟继承很好奇特别是解决低音类和子类之间 vtable 冲突的方式我不会假装了解它们如何工作的具体细节但到目前为止我所看到的是由于该分辨率使用虚拟函数会导致一些小的延迟我的问题是基类是否为空即它的虚拟函数定义为 v
使用 MPI 和 openMP 并行运行代码时扩展性较差

我有以下实现 int main int argc char argv int n runs 100 Number of runs int seed 1 int arraySize 400 initialise the random numb

使用 MPI 和 openMP 并行运行代码时扩展性较差

使用 MPI 和 openMP 并行运行代码时扩展性较差 的相关文章

随机推荐

热门标签

使用 MPI 和 openMP 并行运行代码时扩展性较差的相关文章