OpenMP 卸载了在主机和目标设备中执行的目标区域

2023-12-10

我正在开发一个项目，需要使用 Clang 将 OpenMP 卸载到 Nvidia GPU。我能够按照提到的说明安装 Clang 以支持卸载here.

系统规格

操作系统 - Ubuntu 16.04 LTS
铿锵-版本 4.00
处理器 - Intel(R) Core(TM) i7 -4700MQ CPU
Cuda -版本 - 9.0
Nvidia GPU - GeForce 740M (sm_capability - 35)

但问题是，当我执行示例程序来测试 Nvidia GPU 的 OpenMP 时，部分目标区域往往在 GPU 中运行，然后相同的目标区域开始在主机中执行。

请在此处找到示例程序，这是一个用于执行 2 个矩阵相乘的小型 C 程序。

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <omp.h>

/* Problem size. */
# define N 1920

void init_array(float* A, float* B)
{
    int i, j;
    for (i = 0; i < N; i++)
    {
        for (j = 0; j < N; j++)
        {
            A[i*N + j] = ((float) i*j) / N;
        }
    }

    for (i = 0; i < N; i++)
    {
        for (j = 0; j < N; j++)
        {
            B[i*N + j] = ((float) i*(j+1)) / N;
        }
    }
}
void  mm_kernel(float *A, float *B, float *E)
{

    #pragma omp target data map(to:A) map(to:B) map(alloc:E)
{
    #pragma omp target
    #pragma omp teams distribute num_teams(4)
        for (int i = 0; i < N; i++)
  {
        printf("Team %d Thread %d Number of threads %d \n", omp_get_team_num() ,omp_get_thread_num(),omp_get_num_threads());
        #pragma omp  parallel for
        for (int j = 0; j < N; j++)
    {
            E[i*N + j] = 0.0;
            for(int k = 0; k < N; k++)
            {
                E[i*N + j] = E[i*N + j] + A[i*N + k] * B[j*N+k];
            }
    }
    }
  }
    }

int main(){
  double t_start, t_end;

    float* A;
    float* B;
    float* E;

    A = (float*)malloc(N*N*sizeof(float));
    B = (float*)malloc(N*N*sizeof(float));
    E = (float*)malloc(N*N*sizeof(float));
    init_array(A, B); //initialize Matrix A and B

    t_start = omp_get_wtime();
    mm_kernel(A,B,E);
    t_end = omp_get_wtime();

    printf("Time spent %lf\n",t_end-t_start );
    free(A);
    free(B);
    free(E);
}

该程序是使用编译的

clang -fopenmp -fopenmp-targets=nvptx64-nvidia-cuda 3mm.c -o 3mmgpu

声称目标区域在主机和目标设备中执行的主要原因是命令行的输出。

首先，团队 0 和团队 1 显示每个团队有 960 个线程，后来的迭代为每个团队提供 2 个线程（我的处理器是 4 核处理器，能够处理每个核心 2 个硬件级线程。）。

我还尝试使用 nvprof 执行 fat 二进制文件，以验证 GPU 中是否正在执行任何操作。

分析结果如下。

实际上我无法理解目标区域正在发生什么。为什么目标区域同时在主机和目标设备中执行。

我正在发布问题的答案，因为我终于能够找出代码中出了什么问题。问题是目标设备崩溃中的卸载区域，因为我错误地将数据映射到 GPU。我只映射了指针，没有在 GPU 中分配内存。因此，当 GPU 执行崩溃时，执行会在主机中进行。

感谢@Alexey Bataev 指出了这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

Clang

openmp

NVIDIA

offloading

OpenMP 卸载了在主机和目标设备中执行的目标区域的相关文章

Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
gcov 内存不足/版本不匹配？

只是尝试让 gcov 启动并运行出现以下错误 gcov src main c o build build main gcno version 404 prefer 407 gcov out of memory allocating 148
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
C++ OpenMP：嵌套循环，其中内部迭代器依赖于外部迭代器

考虑以下代码 include
让 clang-tidy 修复头文件

我正在将当前使用 gcc 编译的项目移至 clang 并有一堆 gcc 没有生成的警告 Winconsistent missing override clang tidy致力于修复这些错误 cpp文件但是它不触及hpp文件因为在数据库中
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
使用 OpenMP 时无用的 printf 没有加速

我刚刚编写了第一个 OpenMP 程序它并行化了一个简单的 for 循环我在双核机器上运行代码发现从 1 个线程变为 2 个线程时速度有所提高然而我在学校 Linux 服务器上运行相同的代码并没有看到加速在尝试了不同的事情之后
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
OpenMP 动态调度与引导调度

我正在研究 OpenMP 的调度特别是不同的类型我了解每种类型的一般行为但澄清一下何时进行选择会很有帮助dynamic and guided调度英特尔的文档 https software intel com en us articl
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
C++11 的 LLVM&Clang 支持

我有一些为 MS VC 10 编写的代码我使用 C 11 特别是像这样的表达式 std function
找不到“Attributes.inc”文件

我一直在使用中提供的标题include llvm and include llvm c尝试制作我自己的编译器但是每当我尝试编译时都会收到此错误没有llvm IR Attributes inc在我的文件或我见过的任何 LLVM 项目中
为什么 -march=native 很少使用？

对于大多数 C C 编译器有一个可传递给编译器的标志 march native 它告诉编译器调整为主机 CPU 的微架构和 ISA 扩展生成的代码即使它的名称不同基于 LLVM 的编译器通常也有一个等效的选项例如rustc or s
如何在 conda 中静音或抑制 gfortran （或 clang？）后端？

我一直致力于构建一个非常特殊的 conda 环境专为python and R与串扰使用rpy2 我想出的方法可以安装正确的R包如下 install main environment sh now date T echo Start Tim
通过 cmake 链接 libc++ 时 libc++abi 的链接问题

我正在尝试构建一个简单的 hello world C 使用 LLVM Clang 3 7 0 的程序根据工具链的源代码构建libc 使用命令行 clang std c 14 stdlib libc fno exceptions hello
如何判断 OpenMP 是否正常工作？

我正在尝试以并行模式运行 LIBSVM 但我的问题一般是在 OpenMP 中根据LIBSVM 常见问题解答 http www csie ntu edu tw cjlin libsvm faq html f432 我已使用 pragma 调
为什么这个未使用的变量没有被优化掉？

我使用了 Godbolt 的 CompilerExplorer 我想看看某些优化有多好我的最小工作示例是 include
Travis CI 与 Clang 3.4 和 C++11

Travis CI 是否可以与支持 C 11 的 Clang 一起使用我想要 Clang 而不是 GCC 我已经在 Travis CI 中使用了 GCC 4 8 看来预安装的版本不支持 C 11 我安装任何新版本的所有尝试都结束了因为这个
OpenMP：无法并行化嵌套 for 循环

我想将循环与其中的内循环并行化我的代码如下所示 pragma omp parallel for private jb ib shared n Nb lb lastBlock jj W WT schedule dynamic private
cmake 生成 Xcode 项目 - 发布构建有效，但存档因链接器错误而失败

使用 Xcode 6 3 1 CMake 3 2 2 我有一个与图书馆链接的项目该库作为代码包含在 xcode project 中经过编译然后与主可执行文件链接项目是用cmake生成的 CMakeLists txt 的一些摘录 ad

随机推荐

如何让 ggplot ecdf 绘制填充背景

我试图让我的经验累积密度曲线填充它们的背景但似乎无法实现我尝试了以下两种方法第一种方法似乎改变了曲线的 alpha 而不是填充 ggplot myDataFrame aes x myVariable fill myFactor geo
Dreamweaver CS5.5 中的 Phonegap

版本是什么Phonegap被使用过Dreamweaver CS5 5 我尝试过替换默认的phonegap js最新版本的文件给出了错误更换现有的是个好主意吗phonegap js最新版本的文件升级adobe dreamweaver cs
Mongo 查找数组包含给定数组的 x 值的文档

我有一个收藏其中有类似的文件实体字段并不是在每个文档中都设置的并且具有不同的值 id ObjectId 5388cfbdec82ba7cd5438635 name Name1 entity Entity1 Entity2 Entity
Flask-sqlalchemy 中多对多多...关系的多辅助表

许多问题都是关于多对多的问题可以使用辅助表来解决但是多多多怎么样如果存在一种更优雅的方法来处理这个问题我试图提出一个问题https github com pallets flask sqlalchemy issues 710 但
Python 多个 telnet 会话

我需要构建一个脚本来获取尽可能多的主机的 telnet 输出并将它们保存到每个主机的单独文件中该脚本应作为守护进程运行目前我有一个函数封装了为单个主机执行此操作的逻辑telnetlib 但我不知道如何进行我计划打开一个进程 mult
Symfony2+Doctrine：如何将 iso8859-1 转换为 utf-8，反之亦然？

我们正在构建一个使用 Oracle 数据库的 Symfony2 应用程序 DB中的所有数据编码为WE8ISO8859P15 iso 8859 1 所有网站编码为utf 8 有没有办法将从数据库接收到的所有数据转换为utf8 并将发送到数据库
GNU Radio：使用声音输出作为输入源

In gnuradio 伴侣我使用音频源块作为下一个块的输入信号一切工作几乎都很好唯一的小问题是我从麦克风收到信号这是正常行为我宁愿直接播放音频信号而不必通过我的扬声器我房间的空气和麦克风所有这些都会产生信号损失并增加噪声我
如何填充 MVC4 剃刀视图的下拉列表 (C#)

用户档案模型 Table Users public class UserProfiles Key DatabaseGeneratedAttribute DatabaseGeneratedOption Identity public int
使用 pyodbc 将 Python 连接到 mac 中的 Teradata

我成功安装了 python 2 7 的 pyodbc 模块但是当输入以下代码连接到teradata时 import pyodbc conn pyodbc connect DRIVER Teradata DBCNAME
C++ 抑制自动初始化和销毁

如何抑制类型的自动初始化和销毁虽然这很美妙T buffer 100 自动初始化所有元素buffer 并在它们超出范围时销毁它们这不是我想要的行为 include
从 AsyncTask 获取返回的 JSON

所以我有这个扩展 AsyncTask 的加载器类那我就做new loader execute 但我想用JSONArray 响应我的加载器类returns我怎么做因为我在几个不同的地方都需要它或者我应该将代码移至 onPostExecu
如何将多个输入的行保存在数据库的同一列中？

数据库表 id title reading writing speaking 表单 blade php table tr th Language th th Reading th th Writing th th Speaking th t
使用 docker-compose 自动创建数据库和表

我正在使用 docker compose 上传环境但我想在 docker compose 中自动创建一个表但是它不起作用 docker 撰写 mysql image mysql 5 7 stdin open true tty true
处理 INI 文件中重复的节名称

我需要从 INI 文件加载这些值并使用 C Boost 库在应用程序中打印它们这些部分具有重复的名称我被限制只能使用 C Boost 库 numColors 4 boardSize 11 numSnails 2 initializati
如何在Python中确定一周的第一天

根据区域设置我需要找到一周的第一天周日周一在JAVA中我会这样做 Calendar FR cal Calendar getInstance Locale FRANCE Calendar CA cal Calendar getInst
如何在docker容器中优雅地关闭tomcat中的servlts？

到目前为止我发现了什么 docker stop 向容器中的进程 ID 1 发送 SIGTERM 容器中的进程ID 1是运行tomcat的java进程是的 tomcat 本身会正常关闭但 servlet 不会这样做 Servlet 会在
在javascript中如何动态获取对象的嵌套属性

var arr foo 1 bar baz 2 bee 3 function getter variable return arr variable 如果我想要 foo 与 bee 我可以这样做arr variable 这很简单函数就可以
Apache CXF 初始化上的调用方法

我正处于如何做阶段Apache CXF并想知道是否有办法在服务器启动时调用方法它类似于JSF网络应用程序当我使用 ApplicationScoped托管 Bean 与eager true 当容器启动时带注释的类被实例化我可以从它
改变WinForm边框的样式？

是否可以更改 WinForm 边框的样式我知道如果删除边框就会失去调整程序大小的功能因此有没有办法改变它的样式但保持它的大小可调你所寻求的并不简单因为边界是由操作系统划定的然而 CodePlex 上有一个库确实可以做到这一
OpenMP 卸载了在主机和目标设备中执行的目标区域

我正在开发一个项目需要使用 Clang 将 OpenMP 卸载到 Nvidia GPU 我能够按照提到的说明安装 Clang 以支持卸载here 系统规格操作系统 Ubuntu 16 04 LTS 铿锵版本 4 00 处理器 Inte

OpenMP 卸载了在主机和目标设备中执行的目标区域

OpenMP 卸载了在主机和目标设备中执行的目标区域 的相关文章

随机推荐

热门标签

OpenMP 卸载了在主机和目标设备中执行的目标区域的相关文章