MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误

2024-01-04

我刚刚开始学习mpi，所以我买了3个vps来创建一个实验环境。我成功安装并配置了 ssh 和 mpich。这三个节点可以在没有密码的情况下相互连接（但不能连接自身）。并且 cpi 示例通过了，在本地计算机上没有任何问题。当我尝试在所有 3 个节点上运行它时，cpi 程序始终存在并出现错误Fatal error in PMPI_Reduce: Unknown error class, error stack:。这是我所做的以及错误所说的完整描述。

[root@fire examples]# mpiexec -f ~/mpi/machinefile  -n 6 ./cpi
Process 3 of 6 is on mpi0
Process 0 of 6 is on mpi0
Process 1 of 6 is on mpi1
Process 2 of 6 is on mpi2
Process 4 of 6 is on mpi1
Process 5 of 6 is on mpi2
Fatal error in PMPI_Reduce: Unknown error class, error stack:
PMPI_Reduce(1263)...............: MPI_Reduce(sbuf=0x7fff1c18c440, rbuf=0x7fff1c18c448, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed
MPIR_Reduce_impl(1075)..........:
MPIR_Reduce_intra(826)..........:
MPIR_Reduce_impl(1075)..........:
MPIR_Reduce_intra(881)..........:
MPIR_Reduce_binomial(188).......:
MPIDI_CH3U_Recvq_FDU_or_AEP(636): Communication error with rank 1
MPIR_Reduce_binomial(188).......:
MPIDI_CH3U_Recvq_FDU_or_AEP(636): Communication error with rank 2
MPIR_Reduce_intra(846)..........:
MPIR_Reduce_impl(1075)..........:
MPIR_Reduce_intra(881)..........:
MPIR_Reduce_binomial(250).......: Failure during collective

===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 1563 RUNNING AT mpi0
=   EXIT CODE: 1
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
[proxy:0:2@mpi2] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:885): assert (!closed) failed
[proxy:0:2@mpi2] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:2@mpi2] main (pm/pmiserv/pmip.c:206): demux engine error waiting for event
[proxy:0:1@mpi1] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:885): assert (!closed) failed
[proxy:0:1@mpi1] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:1@mpi1] main (pm/pmiserv/pmip.c:206): demux engine error waiting for event
[mpiexec@mpi0] HYDT_bscu_wait_for_completion (tools/bootstrap/utils/bscu_wait.c:76): one of the processes terminated badly; aborting
[mpiexec@mpi0] HYDT_bsci_wait_for_completion (tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion
[mpiexec@mpi0] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:218): launcher returned error waiting for completion
[mpiexec@mpi0] main (ui/mpich/mpiexec.c:344): process manager error waiting for completion

我只是不知道发生了什么，有一些见解吗？正如评论所暗示的，这里是 mpi cpi 代码。

#include "mpi.h"
#include <stdio.h>
#include <math.h>

double f(double);

double f(double a)
{
    return (4.0 / (1.0 + a*a));
}

int main(int argc,char *argv[])
{
    int    n, myid, numprocs, i;
    double PI25DT = 3.141592653589793238462643;
    double mypi, pi, h, sum, x;
    double startwtime = 0.0, endwtime;
    int    namelen;
    char   processor_name[MPI_MAX_PROCESSOR_NAME];

    MPI_Init(&argc,&argv);
    MPI_Comm_size(MPI_COMM_WORLD,&numprocs);
    MPI_Comm_rank(MPI_COMM_WORLD,&myid);
    MPI_Get_processor_name(processor_name,&namelen);

    fprintf(stdout,"Process %d of %d is on %s\n",
    myid, numprocs, processor_name);
    fflush(stdout);

    n = 10000;          /* default # of rectangles */
    if (myid == 0)
    startwtime = MPI_Wtime();

    MPI_Bcast(&n, 1, MPI_INT, 0, MPI_COMM_WORLD);

    h   = 1.0 / (double) n;
    sum = 0.0;
    /* A slightly better approach starts from large i and works back */
    for (i = myid + 1; i <= n; i += numprocs)
    {
        x = h * ((double)i - 0.5);
        sum += f(x);
    }
    mypi = h * sum;

    MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD);

    if (myid == 0) {
        endwtime = MPI_Wtime();
        printf("pi is approximately %.16f, Error is %.16f\n",
               pi, fabs(pi - PI25DT));
        printf("wall clock time = %f\n", endwtime-startwtime);         
        fflush(stdout);
    }

    MPI_Finalize();
    return 0;
}

可能为时已晚，无论如何我会提供我的答案，我遇到了同样的问题，经过一番研究后我找到了问题

如果您有一个包含主机名而不是 ip 地址的机器文件，并且机器在本地连接，那么您也应该有一个本地运行的名称服务器，否则将机器文件中的条目更改为 ip 地址而不是主机名。仅 /etc/hosts 并不能解决问题

这似乎是我的问题，一旦我将机器文件中的条目更改为 ip 地址，它就可以工作

问候戈皮

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MPI

MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误的相关文章

使用 MPI 分散不同大小的矩阵块

假设所有矩阵都按行优先顺序存储说明该问题的一个示例是将 10x10 矩阵分布在 3x3 网格上以便每个节点中的子矩阵的大小如下所示 3x3 3x3 3x4 3x3 3x3 3x4 4x3 4x3 4x4 我在 Stackoverflow
MSMPI 就地 MPI_Allreduce 不适用于 MinGW-w64 gfortran

我正在尝试使用就地MPI Allreduce结合MinGW w64 gfortran MSYS64提供的版本9 2 和Microsoft MPI 版本10 call MPI Allreduce MPI IN PLACE srcdst n M
MPI_Allgather 和 MPI_Allgatherv 之间的区别

有什么区别MPI Allgather and MPI Allgatherv 来自MPI标准 http www mpi forum org docs MPI GATHERV 扩展了功能 MPI GATHER 通过允许变化每个进程的数据计数
MPI sendbuf 和recvbuf 可以是同一个东西吗？

我将每个进程中的大量数组元素添加到一起 double rho 1024 Some operation to calculate rho for each process MPI Allreduce rho rho 1024 MPI DOUB
关于 MPI_Reduce

就一个问题如果我使用函数 MPI Reduce 当这是一个动态数组时只有根可以分配接收缓冲区例如 int r 10 int yloc y yloc calloc r sizeof int for all processes if I
居委会集体——减少运营

我需要 allreduce MPI Ineighbor allreduce 来进行 MPI 中的集体通信遗憾的是它尚未包含在内明显但效率不高的解决方案是使用 MPI Neighbor alltoall 以增加缓冲区大小为代价您有什么建
Python 初学者 - 没有名为“mpi4py”的模块

我是一名学生第一次使用Python 目前我在虚拟机上使用 Xubuntu 19 10 我检查了 python 和 mpi4py 安装我的并行编程教授给了我这个简单的 python 代码 from mpi4py import MPI
除了snow SOCK之外的集群并行计算

最近 R2 14 中添加的对并行计算的直接支持在我脑海中引发了一个问题在 R 中创建集群有很多选项我使用snow定期进行SOCK集群但我知道还有其他方式例如MPI 我用的是SOCKsnow集群因为我不需要安装任何额外的软件我使用
Visual Studio C++ 中的 msmpi.dll 错误消息

我正在研究 mpi 但我一直收到此错误消息程序无法启动因为您的计算机缺少 msmpi dll 尝试重新安装程序以解决此问题所以我的问题是卸载Visual Studio并重新安装可以解决这个问题吗或者我应该使用电脑修复工具包程序和
使用 Open MPI 运行并行程序时出现分段错误

在我之前的文章中我需要在 10 台计算机之间分发 pgm 文件的数据在 Jonathan Dursi 和 Shawn Chin 的帮助下我集成了代码我可以编译我的程序但出现分段错误我跑了但什么也没发生 mpirun np 10
在 C++ 程序上使用 mpicc 链接失败

我正在运行 Ubuntu 11 04 64 位我已经安装了 OpenMPI 我正在尝试构建以下代码这是 Gropp Lusk Skjellum 所著的 Using MPI 一书中测试问题的片段 include
MPI：MPICH2 在 Windows 局域网中安装和编程

我正在学习MPI 我遵循的第一个教程是here http curveto blogspot in search label Parallel 我在 Windows 7 上使用 MSVC 2010 成功运行的代码是 include mpi h
R 在 HPC MPIcluster 上运行 foreach dopar 循环

我可以访问带有 MPI 分区的 HPC 集群我的问题是无论我尝试什么我的代码在我的 PC 上运行良好都无法在 HPC 集群上运行代码如下所示图书馆 TM 图书馆 qdap 图书馆雪图书馆 doSNOW 库 foreach
MPI 是否提供预处理器宏？

MPI 标准是否提供了预处理器宏因此如果我的 C C 代码由支持 MPI 的编译器编译它可以分支吗就像是 OPENMPOpenMP 的宏根据MPI标准 http www mpi forum org docs mpi 3 0 mpi3
如何通过 mpi c++ 发送布尔数据类型？

我是 C 新手尝试通过 MPI 发送 bool 数据类型但 C 不支持此数据类型我试着做到了MPI BYTE and MPI INT但它什么也没打印 include
MPI_Type_create_subarray 和 MPI_Gather

我必须解决一些 mpi 问题我有 4 个从进程每个进程都想发送一个 2d 子数组 CHUNK ROWS X CHUNK COLUMNS 到 master 0 Master 0 收集 ddd ROWS COLUMNS 中的所有块并打印它
无法使用 conda 安装 mpi4py 并指定预安装的 mpicc 路径

我已经尝试安装mpi4py with env MPICC path to openmpi bin mpicc conda install c anaconda mpi4py 但我收到这样的消息 The following NEW packa
Boost MPI 在监听列表时不会释放资源？

这是一个后续问题如何释放 boost mpi request https stackoverflow com questions 44078901 how do i free a boostmpirequest 我在监听列表而不是单个项目时
GProf 输出中缺少函数

我正在尝试分析一些 C 代码但最直观地成本最高的函数之一并未出现在 GProf 输出中 int main initialise haloSwap for functions propagate functions void propaga
二维数组的 MPI 数据类型

我需要将一个整数数组的数组基本上是一个二维数组从根传递给所有处理器我在 C 程序中使用 MPI 如何声明二维数组的 MPI 数据类型以及如何发送消息我应该使用广播还是分散你需要使用播送 http www netlib org ut

随机推荐

“找不到资源...”尝试编译空白的跨平台 Xamarin 应用程序

我正在使用 VS Community 2015 更新 3 我通过 VS 安装程序安装了 Xamarin v4 2 然后通过 Xamarin 安装程序更新到 4 2 1 60 我创建了一个新的跨平台项目 Blank App Xamarins
使用循环求和

我的目标编写一个应用程序使用 while 循环从用户获取 20 个输入并显示所有这些数字的总和我知道如何执行 while 循环但我不知道如何获得所有这些数字的总和因为变量是相同的这是我到目前为止所拥有的 Scanner Numb
Android Studio：如何增加logcat文本的大小？

有人知道在哪里可以增加 logcat 文本的大小吗主设置里没有这个设置转到文件 gt 设置 gt 编辑器 gt 颜色和字体 gt 控制台字体 Though to change the saved settings you will ha
c89：将 int 转换为 void* 并返回

首先这不是一个骗局将 int 转换为 void 指针并再次返回 int 是否安全 https stackoverflow com questions 3568069 is it safe to cast an int to void p
我违背了我的诺言

所以我在学习如何 Promise 方面遇到了最困难的时期我在用着bluebird https github com petkaantonov bluebird https github com petkaantonov bluebird
DialogFragment 上的 Up ActionBar 操作

我有一个DialogFragment使用全屏样式setStyle STYLE NORMAL R style Theme App The DialogFragment显示良好但向上动作 homeAsUpActionBar 上的操作不起作用
学说中的 Dql 选择 vs sql 查询

与本机 sql 相比在学说中的 select 语句中使用 DQL 有什么好处 e g qb em gt getRepository repositoryname gt createQueryBuilder r qb gt someDqlC
构建步骤“Windows PowerShell”将构建标记为失败，为什么？

以下是 Jenkins 中运行的三个 PowerShell 命令以及构建结果为什么会失败哪个命令可能会失败我读过这篇文章执行 Shell 如何何时在 Jenkins 中将构建标记为失败 https stackoverflow co
在实例之间共享存储

我正在使用 Engine Yard AppCloud 服务如果我希望我的实例共享存储例如用于文件上传下载将 S3 集成构建到我的应用程序中是我唯一真正的选择吗目前应用程序期望使用 filsystem 但看起来多个实例无法挂载相同
如何在滚动后放置窗口的div中心[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 div 即使在滚动后它也应该位于窗口的中心如何实现 http www flickr com photos 4169535
EJB工厂类

我正在尝试创建一个 EJB 工厂类其工作方式如下您有一个方法该方法将 EJB 的类作为参数然后它检查 EJB 是否具有远程接口如果没有抛出异常以及是否有远程接口确实如此它返回相关的 EJB 下面的代码正是这样做的然而它返
参数错误：音频缓冲区并非到处都是有限的

在 Urban Sound Dataset 的声音文件之一上使用以下代码时 s r librosa load train filename 7543 tonnetz librosa feature tonnetz y librosa eff
锚元素的路径名在 Rhino 中使用 env.js 返回未定义

我遇到过an issue https github com guardian sbt jasmine plugin issues 17我相信这源于 Rhino 中锚标记的实现虽然我正在利用env js http www envjs com
使用 dplyr 通过多个函数传递列名

我编写了一个简单的函数来创建百分比表dplyr library dplyr df tibble Gender sample c Male Female 100 replace TRUE FavColour sample c Red Blue
如何设置 bootstrap col-lg-* 类的样式？

我是 Less 的初学者我想在任何地方写一个像 Column div 这样的字符串div with col lg 任意数字 or col md 任意数字 class 例如像这样的代码 col lg before content Colum
getSupportActionBar() NullPointerException

In onCreate 活动方法我有这个代码ToolBar toolbar Toolbar findViewById R id tool bar setSupportActionBar toolbar getSupportActionBar
JasperReports PdfServlet 将报告保存为 PDF - 如何设置浏览器的文件名以提示用户？

Stack JSF PrimeFaces on JBoss AS with 贾斯珀报告我一直在使用 JasperReports 以 PDF 格式导出的模式过程分为三个步骤 1 从以下路径获取编译好的Jasper报告war 2 放置碧玉印
休眠错误 - 当前事务被中止，命令被忽略直到事务块结束

我的代码有一些问题 private EntityManager entityManager public EntityManager getEntityManager if entityManager null entityManager
pandas：删除重复行，同时保留虚拟变量值

我有以下数据框示例 child id feature 1 feature 2 feature 3 feature 4 feature 5 10 1 0 0 0 0 10 0 0 1 0 0 10 0 1 0 0 0 10 0 0 0 1 0
MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误

我刚刚开始学习mpi 所以我买了3个vps来创建一个实验环境我成功安装并配置了 ssh 和 mpich 这三个节点可以在没有密码的情况下相互连接但不能连接自身并且 cpi 示例通过了在本地计算机上没有任何问题当我尝试在所有 3 个

MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误

MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误 的相关文章

随机推荐

热门标签

MPICH 示例 cpi 在多个新安装的 vps 上运行时会生成错误的相关文章