C++ 与 Cuda 混合编程的CMakeList 写法与例子

2023-11-19

前言

一般的情况下，C与Cuda混合编程，可能通过 VS的UI方式，创建工程。但是，这种情况下效率不高，并且不能跨平台。因此，高级的方式，是使用CMakeList的方式，创建工程。 Windows情况下，可以CMakeList 成VisualStudio 编译器。

CMakeList的模板

通常，可用的一个模板，整理如下：

CMakeList 文件

# required cmake version
cmake_minimum_required(VERSION 3.4)

project(test_cuda)

# packages
find_package(CUDA)

# nvcc flags
set(CUDA_NVCC_FLAGS -gencode arch=compute_20,code=sm_20;-G;-g)

file(GLOB_RECURSE CURRENT_HEADERS  *.h *.hpp *.cuh)
file(GLOB CURRENT_SOURCES  *.cpp *.cu)

source_group("Include" FILES ${CURRENT_HEADERS}) 
source_group("Source" FILES ${CURRENT_SOURCES}) 

set(CMAKE_NVCC_FLAGS "CMAKE_NVCC_FLAGS -std=c++11")

CUDA_ADD_EXECUTABLE(test_cuda ${CURRENT_HEADERS} ${CURRENT_SOURCES})

特殊的地方:

find_package(CUDA) 寻找cuda的库
CUDA_ADD_EXECUTABLE(test_cuda ${CURRENT_HEADERS} ${CURRENT_SOURCES}) 生成可执行程序

测试的代码：

测试代码，分为 kernel.cu 的cuda 文件，以及C的主函数。

kernel.cu 文件

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

__global__ void addKernel(int *c, const int *a, const int *b)
{
    int i = threadIdx.x;
    c[i] = a[i] + b[i];
}

// Helper function for using CUDA to add vectors in parallel.
extern "C"
cudaError_t addWithCuda(int *c, const int *a, const int *b, unsigned int size)
{
    int *dev_a = 0;
    int *dev_b = 0;
    int *dev_c = 0;
    cudaError_t cudaStatus;

    // Choose which GPU to run on, change this on a multi-GPU system.
    cudaStatus = cudaSetDevice(0);
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaSetDevice failed!  Do you have a CUDA-capable GPU installed?");
        goto Error;
    }

    // Allocate GPU buffers for three vectors (two input, one output)    .
    cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMalloc failed!");
        goto Error;
    }

    cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMalloc failed!");
        goto Error;
    }

    cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMalloc failed!");
        goto Error;
    }

    // Copy input vectors from host memory to GPU buffers.
    cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMemcpy failed!");
        goto Error;
    }

    cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMemcpy failed!");
        goto Error;
    }

    // Launch a kernel on the GPU with one thread for each element.
    addKernel<<<1, size>>>(dev_c, dev_a, dev_b);

    // Check for any errors launching the kernel
    cudaStatus = cudaGetLastError();
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "addKernel launch failed: %s\n", cudaGetErrorString(cudaStatus));
        goto Error;
    }
    
    // cudaDeviceSynchronize waits for the kernel to finish, and returns
    // any errors encountered during the launch.
    cudaStatus = cudaDeviceSynchronize();
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaDeviceSynchronize returned error code %d after launching addKernel!\n", cudaStatus);
        goto Error;
    }

    // Copy output vector from GPU buffer to host memory.
    cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);
    if (cudaStatus != cudaSuccess) {
        fprintf(stderr, "cudaMemcpy failed!");
        goto Error;
    }

Error:
    cudaFree(dev_c);
    cudaFree(dev_a);
    cudaFree(dev_b);
    
    return cudaStatus;
}

main.cpp 文件：


#include <stdio.h>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

extern "C" cudaError_t addWithCuda(int *c, const int *a, const int *b, unsigned int size);

int main()
{
	const int arraySize = 5;
	const int a[arraySize] = { 1, 2, 3, 4, 5 };
	const int b[arraySize] = { 10, 20, 30, 40, 50 };
	int c[arraySize] = { 0 };
 
	// Add vectors in parallel.
	cudaError_t cudaStatus = addWithCuda(c, a, b, arraySize);
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "addWithCuda failed!");
		return 1;
	}
 
	printf("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",
		c[0], c[1], c[2], c[3], c[4]);
	printf("cuda工程中调用cpp成功！\n");
 
	// cudaDeviceReset must be called before exiting in order for profiling and
	// tracing tools such as Nsight and Visual Profiler to show complete traces.
	cudaStatus = cudaDeviceReset();
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "cudaDeviceReset failed!");
		return 1;
	}
	getchar(); //here we want the console to hold for a while
	return 0;
}

测试结果：

{1,2,3,4,5} + {10,20,30,40,50} = {11,22,33,44,55}
cuda工程中调用cpp成功！

测试的例子，是直接从其它的网站上拿过来的。比较能够说明 cMakeLists.txt 作用。

引用：

c++ 和cuda混合编程 VS2015 C++ 调用 cuda

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

文档枝术

CMake

C与 Cuda 混合编程

CMakeList例子

C++ 与 Cuda 混合编程的CMakeList 写法与例子的相关文章

在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
在cmake中检测项目语言

我想检测当前的项目语言例如如果我有这样的东西 cmake minimum required VERSION 3 0 project foo VERSION 1 0 LANGUAGES CXX 我需要这样的东西 if project la
来自库的 CMake link_directories

我正在尝试使用 CMake 和 Xcode 从另一个库链接到一个库这对任何图书馆来说都是一个问题但为了让事情更容易传达让我们使用zlib举个例子这似乎适用于可执行文件如下所示 LINK DIRECTORIES LIB DIR zl
clang-tidy - 忽略第三方标头代码

我正在为我的项目使用 CMake 并且我想向项目引入 clang tidy 检查我用于此目的CMAKE CXX CLANG TIDY and clang tidy用于检查设置的文件我想在 CI 中使用警告作为错误来可靠地检查提交是否引入
CMake：如何将 .def 文件添加到 Visual Studio 项目过滤器？

如何将 def 文件添加到 Visual Studio 项目过滤器 filters文件 Visual Studio 使用 def 文件 CMake代码 set a src a cpp a def add library a SHARED a
MySQL C++ 连接器未解决的依赖关系（VS 2015）

我正在尝试在 Windows Visual Studio 2015 上编译 MySQL Connector C 我根据以下内容使用CMake生成了项目文件官方说明 https dev mysql com doc connector cpp
如何设置 CMake 与 clang 交叉编译 Windows 上的 ARM 嵌入式系统？

我正在尝试生成 Ninja makefile 以使用 Clang 为 ARM Cortex A5 CPU 交叉编译 C 项目我为 CMake 创建了一个工具链文件但似乎存在错误或缺少一些我无法找到的东西当使用下面的工具链文件调用 CM
构建错误：depfile 有多个输出路径 ninja：构建停止：子命令失败

我在使用需要 CMake 支持的 JNI 代码构建 Java 项目时遇到此错误该项目使用Android Studio构建并得到NDK CMake和LLVM的支持这些是 CMake 使用的以下标志我实际上使用了作为 C 项目创建的项目
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
wasm-ld：错误：初始内存太小，需要 18317952 字节

我想将 ffmpeg 编译为 wasm 下载 FFMPEG 和 emsdk 源代码后我使用下面的命令进行构建 emconfigure configure cc emcc enable cross compile target os non
doxygen INSTALL 无法将文件“.../doxygen/build/bin/doxygen”复制到“/usr/local/bin/doxygen”

解决了一些之后最初的问题 https stackoverflow com q 50986047 4120196在尝试让 doxygen 工作时我在遵循以下步骤时偶然发现了下一个错误doxygen安装教程 http www doxygen
libSDL、CMake 和 Mac OS X Lion

我正在尝试在我的Mac上编译cmake项目但它取决于SDL框架我安装了这个框架在 cmake 之后向我报告找不到 libSDL 我自己设置了以下导出变量按照 cmake 的建议 export SDL INCLUDE DIR Libr
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
在 VS2017 下使用 Conan 和 CMake 项目进行依赖管理

我正在尝试使用 CMake 与 VS2017 集成为 C 设置一个开发环境以便在 Linux x64 下进行编译为了更好地管理依赖关系我选择使用 Conan 但我对这个软件还很陌生我想知道让 VS2017 识别项目依赖关系的最佳方法
找不到 assimp-vc140-mt.dll ASSIMP

我已经从以下位置下载了 Assimp 项目http assimp sourceforge net main downloads html http assimp sourceforge net main downloads html Ass
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
如何在 C++ 项目的 Cmake 文件上添加 Mac OS 框架

我正在尝试将外部库 Vulkan 添加到我的项目中这个库是预编译的并且有一个框架我的项目树 build source Entry main cpp include ext vulkan macos include lib Framewo
如何从 CMake 构建目标仅生成目标文件 (*.o)？

我正在尝试使用 CMake 构建一个对象文件但我似乎无法让 CMake 构建除完整可执行文件之外的其他内容我基本上是在寻找以下编译的结果结果将加载到 VxWorks 目标上并然后链接 CC CFLAGS INC DIRS c src
CMake“项目”指令的正确用法是什么

我有一个很大的代码库它构建了几十个库和几个可执行文件代码库按层次结构进行分解并且几乎在每个级别都构建了库我已经仔细检查并在每个目录中放置了一个 CMakeLists txt 文件来构建每个库在每个 CMakeLists txt 中
使用 NDK 构建具有适用于 Android 的 cmake 构建文件的 C++ 项目

我必须构建 2 个独立的 C 项目它们具有针对不同平台的 Cmake 构建文件设置我想使用 NDK 为 Android 构建它们以便我可以将它们用作 Android Studio 中的预构建库如何使用 NDK 为 Android 构

随机推荐

nodejs后端相关知识总结

1 koa koa执行逻辑代码 app use async ctx next gt await next ctx response type text html ctx response body h1 Hello koa2 h1 每收到一
『Python基础-15』递归函数 Recursion Function

什么是递归函数一种计算过程如果其中每一步都要用到前一步或前几步的结果称为递归的用递归过程定义的函数称为递归函数例如连加连乘及阶乘等凡是递归的函数都是可计算的即能行的递归就是一个函数在它的函数体内调用它自身编程语言中的
基于Matlab实现图像拼接技术（附上完整源码+图像）

图像拼接是数字图像处理中一个重要的问题它的目标是将多张图像拼接成一张更大的图像图像拼接技术在许多领域中都有广泛的应用如全景图像拼接医学图像拼接遥感图像拼接等本文将介绍一种基于Matlab实现的图像拼接技术即基于特征匹配的图像拼
java快速获取mac地址的方法

在开发中需要获取电脑的mac地址记录一下java快速获取mac地址的方法也可获取到ip地址 public static void main String args throws UnknownHostException SocketEx
Class类文件结构

Class文件是一组以8位字节为基础单位的二进制流各个数据项目严格按照顺序紧凑地排列在Class文件中中间没有添加任何分隔符这使得整个Class文件中存储的内容几乎全部都是程序运行的必要数据没有空隙存在根据Java虚拟机规范的规定
解决QT连续发送数据的问题

在QT的学习网络的学习中最大的问题是服务器与客户端收发数据的问题当一方连续发送几次数据给另一方时容易出现好几种错误 1 收到的数据不全只有第一个 2 收不到 3 收到的数据不对 readyRead在信号到达时开始接收我即使调用几
微信小程序自动检测版本并提示更新新版本

微信小程序自动检测版本并提示更新新版本微信小程序开发过程中我们在版本更新迭代后微信小程序客户端并不能触发自动更新需要用户手动清理小程序后重新搜索进入后才能获取到最新的小程序版本但是这个是用户所不能感知到的操作也很麻烦故需要提醒
Unity学习之路10——多人游戏与网络

Unity学习之路10 多人游戏与网络作业要求选择一个以前的作业或自己选择一个小游戏设计成网络游戏效果图实现过程在上一次作业的基础上将AI小坦克改成双人对战坦克游戏主要参考资料老师的博客 Step1 为了简化去掉了上次作
js基础之构造函数和类

JS的构造函数和ES6的类是JS中很重要的概念也是面向对象编程的核心在本文中我们将探讨JS的构造函数和ES6的类的基础知识包括它们的定义使用方法以及它们之间的区别 JS的构造函数 JS中的构造函数是一种特殊的函数用于创建对象它
没有安稳的工作（几年前帖子，私密变公开后时间就变了）

上个月请假发现公司在网上立即招人了上周请假发现公司又在网上招人了试用期还没有过如果按照这个情况真是哪里都不安稳双向选择吧不过这个公司确实人才济济能学到很多东西虽然给我的工资是应届优秀硕士生的工资
送一个2022年最赚钱的方法！包含操作方法！

在互联网上可恶的人有很多值得我们学习的人也有很多有的人做起事来不讲武德而有的人却是我们值得学习一生的榜样在赚钱的路上信息就是金钱你掌握了信息的源头就掌握的金矿拥有足够的信息来源那么你就有足够的金钱假如你想在一个行业里快
shell的排序

目录一冒泡排序 1 定义 2 基本思想 3 算法思路 4 算法逻辑图 5 示例1 将指定数组重新排序 6 示例2 写一个函数输入任何数组都可以进行排序二直接选择排序 1 直接选择排序的逻辑图 2 示例将指定数组重新排序三反转
使用Aspose在Java中将Excel文件转换为HTML

Excel电子表格可让您以表格形式存储和组织数据也可以执行计算以及生成不同类型的图形和图表以分析数据但是在各种情况下可能需要执行Excel到HTML的转换才能将工作表转换为HTML页面例如将电子表格的内容嵌入到网页中时因此本
出现Unknown initial character set index ‘255‘ received from server问题时如何解决

Unknown initial character set index 255 received from server Initial client character set can be forced via the characte
逻辑回归（Logistic Regression, LR）简介

逻辑回归 Logistic Regression LR 简介标签空格分隔机器学习机器学习最通俗的解释就是让机器学会决策对于我们人来说比如去菜市场里挑选芒果从一堆芒果中拿出一个根据果皮颜色大小软硬等属性或叫做特征我们就会
Shell脚本运行方式

Shell脚本通常以 shebang 起始后跟Shell解释器路径 bin bash 两种运行脚本文件的方式 bash 文件名文件位于当前目录下此种方式不用shebang 文件名或完整路径代表当前目录脚本必须有可执行权限并且
selenium如何关闭浏览器中新打开的标签页

最近在用selenium做自动化时遇到了一个问题那就是当我在当前页面点击了一个链接之后弹出一个新的页签来展示内容而不是在当前页面展示而我要做的就是关闭这个新打开的页签因为我后续的操作是基于有链接的那个页面的经过多次思考和选择终
flex布局中flex-shrink的使用

div style width 100 display flex border 1px solid black div style width 500px height 100px background color red 1 div di
微信小程序如何获取自定义组件中properties的属性并修改，以及父组件和子组件相互传值

原因因为自己想了解组件中properties里面的值如何获取到而记录这篇文章一自创自定义组件在json文件夹写上 component true 二父组件的操作步骤 2 1 在json文件夹加上使用组件 2 2 在js文件中写好要传
C++ 与 Cuda 混合编程的CMakeList 写法与例子

前言一般的情况下 C与Cuda混合编程可能通过 VS的UI方式创建工程但是这种情况下效率不高并且不能跨平台因此高级的方式是使用CMakeList的方式创建工程 Windows情况下可以CMakeList 成Visual

C++ 与 Cuda 混合编程的CMakeList 写法 与例子

前言

CMakeList的模板

测试的代码：

引用：

C++ 与 Cuda 混合编程的CMakeList 写法 与例子 的相关文章

随机推荐

热门标签

C++ 与 Cuda 混合编程的CMakeList 写法与例子

C++ 与 Cuda 混合编程的CMakeList 写法与例子的相关文章