C/C++ MPI 加速未达到预期

2024-01-07

我正在尝试编写一个 MPI 应用程序来通过计算机集群加速数学算法。但在此之前我正在做某种基准测试。但最初的结果并不像预期的那么好。

测试应用程序在 4 核时具有线性加速，但 5,6 核并未加速应用程序。我正在使用 Odroid N2 平台进行测试。它有 6 个核心。 Nproc 表示有 6 个核心可用。

我是否缺少某种配置？或者我的代码准备得不够充分（它基于 mpi 的基本示例之一）？

是否有需要考虑的响应时间或同步时间？

以下是我基于 MPI 的应用程序的一些措施。我测量了一个函数的总计算时间。

1核0.838052秒
2核0.438483秒
3核0.405501秒
4核0.416391秒
5核0.514472秒
6核0.435128秒
12 核（3 个 N2 板中的 4 个核）0.06867 秒
18 核（3 个 N2 板中的 6 个核）0.152759 秒

我用 4 核的树莓派 pi4 做了一个基准测试：

1 核 1.51 秒
2核0.75秒
3核0.69秒
4核0.67秒

这是我的基准应用程序：

int MyFun(int *array, int num_elements, int j)
{
  int result_overall = 0;

  for (int i = 0; i < num_elements; i++)
  {
    result_overall += array[i] / 1000;
  }
  return result_overall;
}

int compute_sum(int* sub_sums,int num_of_cpu)
{
  int sum = 0;
  for(int i = 0; i<num_of_cpu; i++)
  {
    sum += sub_sums[i];
  }
  return sum;
}

//measuring performance from main(): num_elements_per_proc is equal to 604800
  if (world_rank == 0)
  {
    startTime = std::chrono::high_resolution_clock::now();
  }
  // Compute the sum of your subset
  int sub_sum = 0;
  for(int j=0;j<1000;j++)
  {
    sub_sum += MyFun(sub_intArray, num_elements_per_proc, world_rank);
  }

  MPI_Allgather(&sub_sum, 1, MPI_INT, sub_sums, 1, MPI_INT, MPI_COMM_WORLD);

  int total_sum = compute_sum(sub_sums, num_of_cpu);
  if (world_rank == 0)
  {
    elapsedTime = std::chrono::high_resolution_clock::now() - startTime;
    timer = elapsedTime.count();
  }

我使用 -O3 优化级别构建它。

UPDATE:新措施：

60480个样本，MyFun调用100000次： 1.47 -> 0.74 -> 0.48 -> 0.36
6048个样本，MyFun调用1000000次： 1.43 -> 0.7 -> 0.47 -> 0.35
6048个样本，MyFun调用10000000次： 14.43 -> 7.08 -> 4.72 -> 3.59

UPDATE2: By the way when I list the CPU info in linux I got this:

这是正常的吗？四核 A73 核心不存在。它说有两个3-3芯的插座。

And here is the CPU utilization with sar: Seems like all of the cores are utilized.

I create some plots from speedup:

看起来 float 计算而不是 int 计算有一点帮助，但核心 5-6 没有多大帮助。我认为内存带宽还可以。在little.BIG架构中平等利用所有CPU时，这是正常行为吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

performance

MPI

raspberrypi4

odroid

C/C++ MPI 加速未达到预期的相关文章

健全性检查 SSH 公钥？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我已要求用户提供他们的公共 id rsa pub ssh 密钥然后将其放入 home theiraccount ssh authorized key
Azure Nvidia 中的 apt-update 出现公钥错误

我在 AZURE 上启动了 NVIDIA VM 并尝试使用进行更新sudo apt update但给出错误 Hit 2 http azure archive ubuntu com ubuntu focal InRelease Hit 3 h
查找系统日志最大消息长度

大多数 Unix 程序员都会习惯由syslog h 并且许多实现例如 glibc 对发送给它的 syslog 消息的大小没有真正的限制但通常对侦听的应用程序有限制 dev log 我想知道是否有人知道如何找到系统日志的最大消息大小或者
在 LINUX 上测量 TLB 未命中的命令

有人可以指导我使用一个命令来测量 LINUX 上的 TLB 未命中吗是否可以将轻微页面错误视为 TLB 未命中您可以使用perf去做这个前提是你的CPU支持 Use perf list了解可用的计数器当我拿到这个列表并查找 TLB
/etc/php5/conf.d 文件夹中的 .ini 文件有什么用？

我知道 ini 文件位于 etc php5 cli与 PHP 的 CLI 使用有关文件位于 etc php5 fpm是关于 PHP 的 FastCGI FPM 方面但是位于以下位置的 ini 文件又如何呢 etc php5 conf d
Ubuntu 上的 Docker 无法连接到本地主机，但可以连接到其 IP

我运行的是 Ubuntu 18 04 uname r 5 3 0 46 generic 我已经安装了docker docker version Docker version 19 03 8 build afacb8b7f0 我有一个简单的
在 Transact SQL 中何时使用 EXCEPT 而不是 NOT EXISTS？

我最近刚刚通过阅读同事编写的代码了解到 SQL Server 中存在新的 EXCEPT 子句有点晚了我知道真的让我很惊讶但是我对它的使用有一些疑问建议什么时候使用它使用它与使用 AND NOT EXISTS 的相关查询在性能方面
C# 字典循环增强

我有一本包含大约 100 万个条目的字典我不断地循环字典 public void DoAllJobs foreach KeyValuePair
无法使用Linux服务启动Archiva 2.1.0

我正在尝试在 Linux 上启动最近发布的 Apache Archiva v2 1 0 独立版出于测试目的该 zip 已解压缩在 opt archiva 2 0 文档说 http archiva apache org docs 2 1
在ubuntu 18.04上安装python 2.7

有没有办法在 Ubuntu 18 04 上安装 Python 2 7 我尝试了这个命令但它不起作用 sudo apt install python minimal 有没有办法手动安装我尝试使用 python 2 7 作为不支持 pyth
找出某个日期时间自unix纪元以来的时间？

我想找出 2009 年 10 月 1 日 9 00 BST 的 UNIX 时间即自 Unix 纪元以来的秒数我如何在 Linux 命令行上执行此操作我知道你可以使用date UNIXTIME someformat 但是unix时间是我
vm.dirty_ratio 和 vm.dirty_background_ratio 之间的区别？

我目前正在试验中找到的内核参数 proc sys vm 尤其dirty ratio and dirty background ratio 内核文档对两者都有以下解释脏背景比例包含以包含空闲页面的总可用内存的百分比表示和可回收页后台
有没有比使用 backtrace() 更便宜的方法来查找调用堆栈的深度？

我的日志记录代码使用的返回值回溯 http linux die net man 3 backtrace确定当前堆栈深度出于漂亮的打印目的但我可以从分析中看到这是一个相当昂贵的调用我不认为有更便宜的方法吗请注意我不关心帧地址只关心
在 Linux 中使用仅限 CLI 的工具生成磁盘使用情况图/图表

在这个问题中 https stackoverflow com questions 32230 tracking down where disk space has gone on linux有人询问如何在 Linux 中显示磁盘使用情况我
Amazon EC2 - Apache 服务器重启问题

当我运行这个命令时 sudo etc init d httpd restart 它给出以下错误停止 httpd 失败启动 httpd 98 地址已在使用中 make sock 无法绑定到地址 80 98 地址已在使用 make sock
在 UNIX 时间戳 Shell/Bash 中将日期与时区转换

我需要将日期从格式为 yyyy mm dd hh mm ss TZ 的字符串转换为 UNIX 时间 TZ 时区到目前为止我所做的是将没有时区的 yyyy mm dd hh mm ss 格式的日期转换为时间戳 dateYMD 2019 2
LockBits 性能关键代码

我有一个方法需要尽可能快它使用不安全的内存指针这是我第一次尝试这种类型的编码所以我知道它可能会更快
使用请求和多处理时的奇怪问题

请检查这个Python代码 usr bin env python import requests import multiprocessing from time import sleep time from requests import
如何使用 VBA 将符号/图标格式化为单元格而不使用条件格式

我使用 VBA 代码放置条件格式以覆盖大型表格中的值每个单元格使用 2 个公式来确定使用 3 个符号中的哪一个我需要根据列使用不同的单元格检查每个单元格的值因此据我了解我必须将条件格式规则单独放置在每个单元格上以确保每个单元格中的
如何检测文本文件中大于 n 的一系列“空洞”（孔、与模式不匹配的线）？

Case scenario cat Status txt 1 connected 2 connected 3 connected 4 connected 5 connected 6 connected 7 disconnected 8 di

随机推荐

Java 8 中多重继承的用法

Am I usingJava 8 的一个功能或misusing it 请参阅下面的代码和解释以了解为什么选择这样 public interface Drawable public void compileProgram public Pro
线程编程中的守护简单列表？

我正在阅读一本 POSIX 线程书籍进行一些练习并且我试图找出在一个简单的单链表中需要互斥锁的位置作为一个小练习问题例如如果我有一个节点结构列表 template
PHP - 使用 LOAD DATA INFILE 将 CSV 文件导入到 mysql 数据库

我有一个这样的 csv 文件数据 Date Name Call Type Number Duration Address PostalCode City State Country Latitude Longitude Sep 18 201
使用unicode字符u201c

我是 python 新手在理解 unicode 时遇到问题我在用着 Python 3 4 我花了一整天的时间试图通过阅读有关 unicode 的内容来解决这个问题包括http www fileformat info info unic
具有新 Firebase 的 Nodejs 应用程序不会检索数据库项目

我是 Nodejs 新手但已经有一个工作的 js 客户端程序 Firebase 版本 3 0 2 事实证明我需要一个服务器来完成一些在 js 客户端中不可能完成的简单事情当我在 Nodejs 中尝试这个基本的事情时没有任何反应数据
在 MATLAB 中查找变量的小数位数

给定变量 x 12 3442 我想知道变量的小数位数在这种情况下结果将是 4 如何在不反复试验的情况下做到这一点这是一个紧凑的方法 y x 10 1 20 find y round y 1 假设x是您的数字 20 是小数点后的最大位数
在java中将数组的字符串表示形式转换回int数组

刚刚开始使用 Java 编程如果我有一个存储在 txt 文件中的数组如下所示 10 22 30 55 10 20 19 如何将其转换回正常的 int 数组以在代码中使用我需要能够将其简单地存储在这样的 txt 文件中以便我可以手动对
如何在 Windows 上安装 python-levenshtein？

经过几天的搜索我准备放弃寻找 Python 2 7 Windows 64 位的预编译二进制文件Python Levenshtein 库 http pypi python org pypi python Levenshtein 所以不是我
Java 中的 getter/setter

我是 Java 新手但有一些使用 ActionScript 3 的 OOP 经验因此我尝试依靠我所知道的内容进行迁移在 ActionScript 3 中您可以使用 get 和 set 关键字创建 getter 和 setter 这意
相机控件在 iOS 7 上不可见

我使用图像选择器控制器来调用设备相机下面列出的代码在 iOS 7 下工作正常但是当我在 iOS 7 上使用相同的代码启动相机时我看不到使用和取消按钮 void getCameraPicture UIImagePickerCon
R - 使用“rep”创建重复序列

我想知道是否有更简单的方法来制作列表例如 10 4 20 6 和 30 3 然后手写 example lt c 4 4 4 4 与函数 rep 我知道我可以重复某个序列 n 次每次重复 n 次但我不知道如何用每个数字的不同数量来制作一
O(n) 算法的计算时间可以超过 O(n^2) 吗？

假设我有两种算法 for int i 0 i lt n i for int j 0 j lt n j do something in constant time 这自然是O n 2 假设我也有 for int i 0 i lt 100 i
渐进式 Web 应用程序中的重定向

我试图在通知单击时重定向到渐进式网络应用程序中的特定网址但它不会重定向情况 1 如果 Web 应用程序未添加到主屏幕则在收到通知后单击浏览器窗口将打开并重定向到所需的 URL 情况 2 如果 Web 应用程序添加到主屏幕则登陆页面是
PostgreSQL 9.1 时区

我正在使用 postgresql 在数据库中存储一些日期在我的应用程序中它完全了解时区是至关重要的我正在客户端服务器和数据库之间进行一些基本测试我从 GWT 中执行的浏览器应用程序发送日期并读取 postgresql 上的日期
iTunes Connect - 无法邀请预发行应用程序的“内部测试人员”

我的应用程序已获准通过新的 Apple TestFlight 应用程序进行分发我试图通过邀请内部测试员 iTunes Connect gt Prerelease gt Internal Testers但我看到的只是两个信息框要开始测试
Pycharm 不接受“list[Example]”作为项目列表的类型提示[重复]

这个问题在这里已经有答案了我在 PyCharm 中发现了一个奇怪的类型 Example是我自己的班级但我想这并不那么重要因为 IDE 正在抱怨list类型没有定义 getitem 这是不正确的方法我想知道这是一个错误还是我以错误的方
Magento - 对自定义报价总计字段应用税

我为 Magento 创建了一个附加费模块它在报价中添加了一个自定义总计字段附加费含税输入到 Magento 中我已成功获取将附加费添加到报价中的模块并且结帐页面上的总计是正确的当我尝试对附加费征税以便将其包含并显示在结账页面的
jQuery Ajax Post 与数据

当使用某些参数单击按钮时我尝试调用 PHP 文件它一直执行到 jsfile js 中的警报语句为止之后ajax部分没有被执行帮助我主要 html
当应用程序在后台运行时获取 GPS 位置更新

我有一个 Android 应用程序可以跟踪客户位置并每 10 秒发送一次位置但是在 android O 中位置更新每小时会获得几次正如有关 android O 中 GPS 位置更新限制的文档中所述无论如何为了克服这个问题我使
C/C++ MPI 加速未达到预期

我正在尝试编写一个 MPI 应用程序来通过计算机集群加速数学算法但在此之前我正在做某种基准测试但最初的结果并不像预期的那么好测试应用程序在 4 核时具有线性加速但 5 6 核并未加速应用程序我正在使用 Odroid N2 平台进行

C/C++ MPI 加速未达到预期

C/C++ MPI 加速未达到预期 的相关文章

随机推荐

热门标签

C/C++ MPI 加速未达到预期的相关文章