使用 CUDA 感知 MPI 的要求

2024-01-03

我想通过 CUDA 感知 MPI 在不同 CUDA 设备之间交换数据，如中所述本文 http://devblogs.nvidia.com/parallelforall/introduction-cuda-aware-mpi/。据我了解，以下代码应该可以完成这项工作：

#include <mpi.h>

int main( int argc, char *argv[] )
{
  int rank;
  float *ptr = NULL;
  const size_t elements = 32;
  MPI_Status status;

  MPI_Init( NULL, NULL );
  MPI_Comm_rank( MPI_COMM_WORLD, &rank );
  cudaMalloc( (void**)&ptr, elements * sizeof(float) );

  if( rank == 0 )
    MPI_Send( ptr, elements, MPI_FLOAT, 1, 0, MPI_COMM_WORLD );
  if( rank == 1 )
    MPI_Recv( ptr, elements, MPI_FLOAT, 0, 0, MPI_COMM_WORLD, &status );

  cudaFree( ptr );
  MPI_Finalize();

  return 0;
}

不幸的是，该程序在两个进程上执行时因段错误而崩溃，并给出以下消息：

*** Process received signal ***
Signal: Segmentation fault (11)
Signal code: Address not mapped (1)
Failing at address: 0x210000
[ 0] /lib64/libc.so.6[0x39d94326a0]
[ 1] /lib64/libc.so.6(memcpy+0xd2)[0x39d9489742]
[ 2] /usr/lib64/openmpi/lib/libopen-pal.so.6(opal_convertor_pack+0x18e)[0x2b750326cb1e]
[ 3] /usr/lib64/openmpi/lib/openmpi/mca_btl_smcuda.so(mca_btl_smcuda_sendi+0x3dc)[0x2b7507c2252c]
[ 4] /usr/lib64/openmpi/lib/openmpi/mca_pml_ob1.so(+0x890f)[0x2b75086ec90f]
[ 5] /usr/lib64/openmpi/lib/openmpi/mca_pml_ob1.so(mca_pml_ob1_send+0x499)[0x2b75086ed939]
[ 6] /usr/lib64/openmpi/lib/libmpi.so.1(PMPI_Send+0x1dd)[0x2b7502d3ef8d]
[ 7] prog(main+0x98)[0x400d51]
[ 8] /lib64/libc.so.6(__libc_start_main+0xfd)[0x39d941ed5d]
[ 9] prog[0x400be9]
*** End of error message ***

我使用 OpenMPI 1.8.2 和 nvcc 6.5；据我所知，这些版本应该支持这个功能。

所以，我的问题是：我做错了什么？我错过了一些要点吗？我非常感谢任何关于如何获得最小工作示例!

段错误几乎肯定是由于当 MPI 需要主机指针时将设备指针传递给 MPI 造成的。只有正确构建的 CUDA 感知 MPI 才能接受设备指针。仅仅拥有 OpenMPI 1.8.2 还不够。您必须拥有使用 CUDA 感知设置显式构建的 OpenMPI 版本。

对于 OpenMPI，

Start here http://www.open-mpi.org/faq/?category=building#build-cuda

摘录：

如何构建具有 CUDA 感知支持的 Open MPI？

CUDA 感知支持意味着 MPI 库可以直接发送和接收 GPU 缓冲区。 Open MPI 1.7 系列及更高版本中存在此功能。支持不断更新，因此不同版本中存在不同级别的支持。

配置开放 MPI 1.7、MPI 1.7.1 和 1.7.2

--with-cuda(=DIR)       Build cuda support, optionally adding DIR/include,
                      DIR/lib, and DIR/lib64


--with-cuda-libdir=DIR  Search for cuda libraries in DIR

以下是启用 CUDA 支持的配置命令的一些示例。

在默认位置搜索。在 /usr/local/cuda/include 中查找 cuda.h，在 /usr/lib64 中查找 libcuda.so。
```
./configure --with-cuda
```
在 /usr/local/cuda-v4.0/cuda/include 中搜索 cuda.h，在默认位置 /usr/lib64 中搜索 libcuda.so。
```
./configure --with-cuda=/usr/local/cuda-v4.0/cuda
```
在 /usr/local/cuda-v4.0/cuda/include 中搜索 cuda.h，在 /usr/lib64 中搜索 libcuda.so。（与上一篇相同）
```
./configure --with-cuda=/usr/local/cuda-v4.0/cuda --with-cuda-libdir=/usr/lib64
```

如果找不到 cuda.h 或 libcuda.so 文件，则配置将中止。

注意：Open MPI 1.7.2 中存在一个错误，如果您使用 --enable-static 配置库，则会收到错误消息。要解决此错误，请将以下内容添加到配置行并重新配置。这会禁用 PML BFO 的构建，无论如何，该 PML BFO 基本上都未使用。此错误在 Open MPI 1.7.3 中已修复。

--enable-mca-no-build=pml-bfo

配置 Open MPI 1.7.3 及更高版本

在 Open MPI 1.7.3 及更高版本中，libcuda.so 库是动态加载的，因此无需在配置时指定它的路径。因此，您所需要的只是 cuda.h 头文件的路径。

在默认位置搜索。在 /usr/local/cuda/include 中查找 cuda.h。
```
./configure --with-cuda
```
在 /usr/local/cuda-v5.0/cuda/include 中搜索 cuda.h。
```
./configure --with-cuda=/usr/local/cuda-v5.0/cuda
```

请注意，您不能配置--disable-dlopen因为这将破坏 Open MPI 库动态加载 libcuda.so 的能力。

See

此常见问题解答条目 http://www.open-mpi.org/faq/?category=running#mpi-cuda-support有关如何使用 CUDA 支持的详细信息。

请注意，这些说明假定您对构建 OpenMPI 有一定的了解。仅仅跑步是不够的./configure ...之后是 make 和 make install 步骤。但上述配置命令是 CUDA 感知的 OpenMPI 构建与普通构建的区别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 CUDA 感知 MPI 的要求的相关文章

Volatile.Read 和 Volatile.Write 背后的逻辑是什么？

来自 MSDN Volatile Read 读取字段的值在需要它的系统上插入一个阻止处理器重新排序内存的内存屏障操作如下如果在该方法之后出现读或写代码处理器无法移动它before这个方法 and Volatile Write
我应该把 try/catch 和“using”语句放在哪里？ [复制]

这个问题在这里已经有答案了可能的重复 try catch using 正确的语法 https stackoverflow com questions 4590490 try catch using right syntax 我想try c
IEnumerable 的 String.Join(string, string[]) 的类似物

class String包含非常有用的方法 String Join string string 它从数组创建一个字符串用给定的符号分隔数组的每个元素但一般来说它不会在最后一个元素之后添加分隔符我将它用于 ASP NET 编码以用
将设置函数（setter）标记为 constexpr 的目的是什么？ [复制]

这个问题在这里已经有答案了我无法理解将 setter 函数标记为的目的constexpr 自 C 14 起这是允许的我的误解来自以下情况我使用 constexpr c tor 声明一个类并且我将通过创建该类的 constexpr 实
在 ASP.NET MVC 中将模型从视图传递到控制器

我正在 ASP NET MVC 中开发我的第一个应用程序但遇到了一个我无法解决的问题即使在阅读了整个互联网之后也是如此因此我有几个使用视图模型创建的视图它们是报告这些视图模型是根据用户选择标准填充的我正在尝试构建一种接受模型并
如何以编程方式播放 16 位 pcm 数组 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个包含 16 位 pcm 值的短数组我希望能够在不添加任何标题也不将任何文件保存到内存的情况下播放它我知道我可能需要一个提供
将下拉列表与字典绑定

我将字典绑定到下拉列表举例来说我的字典中有以下项目 Test1 123 Test2 321 我希望下拉文本采用以下格式 Test1 Count 123 Test2 Count 321 我沿着以下路径走但没有运气 MyDropDown
带有运算符语法的错误消息，但不带有函数语法的错误消息

为什么我在调用 unary 时收到错误消息使用运算符语法如果我用函数语法调用它就可以了现场演示 https godbolt org z j7AbeQ template
静态类与类的实例

我有一个静态类用于访问我的公共属性整个应用程序的全局属性和我在应用程序运行期间使用的方法例如我在静态类中设置了一些属性并且在应用程序运行时我可以从属性中获取值但我可以使用单例模式创建非静态类并以相同的方式使用它问题对于我的
如何使用 Roslyn 通过扩展方法、静态类中的方法以及带有 ref/out 参数的方法来访问调用

我正在致力于创建一个开源项目用于创建 NET UML 序列图该项目利用名为 js sequence diagrams 的 javascript 库我不确定 Roslyn 是适合这项工作的工具但我想我应该尝试一下所以我整理了一些概念
如何使用递归查找数字中的最小元素 [C]

好的所以我正在准备我的 C 考试当谈到递归时我有点卡住了我是大学一年级的学生这对我来说似乎有点困难练习要求在给定的数字中使用递归函数我需要找到最小的元素例如 52873 是 2 程序需要打印 2 include
Resharper：IEnumerable 的可能多重枚举

我正在使用新的 Resharper 版本 6 在我的代码中的几个地方它给一些文本加了下划线并警告我可能存在IEnumerable 可能的多重枚举我理解这意味着什么并在适当的情况下采纳了建议但在某些情况下我不确定这实际上是一个大问
为什么不能调用带有 auto& 参数的 const mutable lambda？

include
无法在 C# 中为 EventArgs 分配使用派生类型的事件处理程序

所以我有一个事件声明如下 public event EventHandler OnChangeDetected 然后我有以下处理程序被分配给该事件 myObject OnChangeDetected OnTableChanged 我的理解是
使用 xslt 将 xml 转换为 xsl-fo 时动态创建超链接？

我想使用 xsl 文件在 PDF 报告中创建标题如果源文件包含超链接则应将其呈现为超链接否则呈现为纯文本例如我的 xml 如下所示 a href http google com target blank This is the h
浮点字节序？

我正在为实时海上模拟器编写客户端和服务器并且由于我必须通过套接字发送大量数据因此我使用二进制数据来最大化可以发送的数据量我已经了解整数字节顺序以及如何使用htonl and ntohl为了规避字节顺序问题但我的应用程序与几乎所有模拟
“必须声明标量变量”错误[重复]

这个问题在这里已经有答案了必须声明标量变量 Id SqlConnection con new SqlConnection connectionstring con Open SqlCommand cmd new SqlCommand cm
将 Swagger 与命名空间版本的 WebApi 结合使用

我已经找到了如何使用基于名称空间的 WebAPI 版本这个班 https aspnet codeplex com SourceControl changeset view dd207952fa86 Samples WebApi Namesp
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost
嵌入式二进制资源 - 如何枚举嵌入的图像文件？

我按照中的说明进行操作这本书 http www apress com book view 9781430225492 关于资源等的章节我不太明白的是如何替换它 images Add new BitmapImage new Uri Ima

随机推荐

无法在 Eclipse 中使用 Acceleo 从 UML 生成 java

我是 Eclipse 和 Acceleo 的新手我一直在尝试完成第一个生成器模型教程我正在使用 Kepler 4 3 和 Acceleo 3 X 我正在关注从 uml 生成 java 代码的教程链接是http wiki eclipse
如何从 Android 应用程序内的 Web 视图禁用复制、粘贴和选择工具栏

如何从 Android 应用程序内的 Web 视图中禁用复制粘贴和选择工具栏我正在制作一个应用程序它实际上是 webview 一个在 Javascript 和 Jquery 上工作的网站所以我想知道是否可以禁用复制粘贴工具栏禁用
在 NavigatorIOS 中调用 onRightButtonPress 的函数 - React Native

我在反应本机 NavigatorIOS 中使用 onRightButton 我希望能够调用驻留在我正在推送的组件中的函数但我不知道如何实现这一点这是代码示例 this props navigator push component Sin
如何使用 scala 比较 Spark 中的一行与所有其他行

我的一列中有超过 100K 个名字我需要比较它们中的每一个以确定它们是否相同 D souza D souza 或几乎相同 D souza Dsouza 我尝试将 cassandra 表读入 RDD 并对其自身进行笛卡尔乘积以形成元组但
生成带有阿拉伯字体的 PDF

我想在React中下载带有阿拉伯字体的pdf文件但没有找到任何解决方案我目前正在使用 jsPdf 但它无法正确渲染阿拉伯字体 let doc new PDFDocument let doc new pdf doc setFontSize
使用 Matplotlib 在绘图上叠加旋转图像

我目前已经使用矩形补丁构建了一个绘图来显示位置序列编辑用于生成此代码的代码基于 RLPy 库构建 def visualize trajectory self trajectory 0 0 0 0 0 1 0 1 0 0 domain
“-webkit-transform:scale(2)”不会影响 Facebook Like 按钮的点击区域（在 iPad 上）

我已经改变了 iframe 的大小 iframe transform scale 2 important webkit transform scale 2 important transform origin top left webkit
Maven Chronos JMeter 插件

有谁用过吗Chronos http mojo codehaus org chronos maven plugin index html用于 JMeter Maven 插件我在尝试 Maven JMeter 插件时遇到了困难并考虑尝试一下
iPhone 中图像的直方图

我正在寻找一种在 iPhone 上获取图像直方图的方法 OpenCV 库太大无法包含在我的应用程序中 OpenCV 编译后大约有 70MB 但我可以使用 OpenGL 但是我不知道如何执行其中任何一个我已经找到了如何获取图像的像素但
django 中的哪个函数创建 HttpRequest 实例并传递给视图？

我试图了解 django 的本质但我找不到任何关于这方面的好的教程我知道 django 视图在调用时接收 HttpRequest 实例作为参数之一我想知道 django 内部的哪个函数接收来自浏览器的请求创建 HttpRequest
在 flutter ios 项目中进行干净构建后，XCode CLANG_WARN_QUOTED_INCLUDE_IN_FRAMEWORK_HEADER 标志不断重置

我正在为云构建 AppCenter 设置我的 flutter ios 应用程序并且我的 xcode 配置遇到了问题在本地构建时我曾经在 Xcode 中设置链接器标志以防止常见的双引号包含错误显然是一个已知的 cocoapod 问
如何提高UIWebView的滚动性能？

提高 UIWebView 的性能似乎真的很难特别是对于像 Mashable 或 Ars Technica 这样的网站这些网站会加载大量的脚本而且长篇多页的文章很常见我知道 3 个类似的问题但它们都没有可行的解决方案 UIWebVi
什么是“补码”？

我正在学习计算机系统课程并且已经挣扎部分地与二进制补码 http en wikipedia org wiki Two 27s complement 我想理解它但我读过的所有内容都没有为我提供完整的图片我读过维基百科文章 http e
ElasticSearch 分组并分发到存储桶

我对 elasticsearch 很陌生但似乎没有简单的方法来创建聚合并将 doc count 分配到存储桶中一旦先前的聚合完成例如我有以下数据集我想创建 4 个存储桶和组配置文件这些配置文件在存储桶之间具有特定数量的事务配置
图片 - 上传没有响应，无法访问 $_FILES

这是我的文件上传脚本我收到以下错误 Notice Undefined index fupload in C Users Tuskar Desktop Projekt htdocs Project IT Space Profile edit
原生安装 PySpark 也支持 S3 访问

我想从 PySpark 读取存储在 S3 上的 Parquet 数据我从这里下载了 Spark http www apache org dist spark spark 2 1 0 spark 2 1 0 bin hadoop2 7 tg
在 Android 中完成（或访问）特定 Activity

当用户打开 Activity 时它们会堆积在视图堆栈上当用户以任何方式完成一个 Activity 时它就会从视图堆栈中弹出现在我遇到一种情况用户打开了应用程序的主屏幕并在主屏幕顶部连续打开了多个活动在每个活动中都有一个控件
如何向 OSX launchd plist 添加参数以将输出通过管道传输到日志文件？

我已经尝试了许多不同的变体但就是无法让它发挥作用我有一个 plist 文件
在Python中从csv创建kml

我是Python新手我正在处理 GPS 文件我需要将包含所有 GPS 数据的 CSV 文件转换为 kml 文件下面是我正在使用的 python 代码 import csv Input the file name fname raw i
使用 CUDA 感知 MPI 的要求

我想通过 CUDA 感知 MPI 在不同 CUDA 设备之间交换数据如中所述本文 http devblogs nvidia com parallelforall introduction cuda aware mpi 据我了解以下代码应

使用 CUDA 感知 MPI 的要求

使用 CUDA 感知 MPI 的要求 的相关文章

随机推荐

热门标签

使用 CUDA 感知 MPI 的要求的相关文章