联合编译OpenCV+PCL+CUDA时需要注意的问题

2023-11-05

最近在写tsdf的程序，同时使用了OpenCV，PCL和CUDA。在编译工程的时候发现了不少问题，在这里整理一下。

1. cu和cpp文件
__global__，__host__，__device__这样开头的cuda程序只能写在cu文件中。
kernal<<< i,j >>> 这样的核函数只能写在cu文件中。如果想在cpp文件中调用，可以将核函数封装在cu文件中，再调用。
其余的一些cuda命令如cudaMalloc，cudaMemcpy可以在cpp文件中使用。

2. include头文件在引用pcl的头文件前，要添加CUDACC宏定义下的boost内容
因为pcl/io/boost.h这个文件中做了关于宏CUDACC的编译选项，使用CUDA编译时，很多boost的头文件不包含了。所以在引用pcl头文件前添加：

#ifndef __CUDACC__
#ifndef Q_MOC_RUN
#include <boost/version.hpp>
#include <boost/numeric/conversion/cast.hpp>
#include <boost/thread/mutex.hpp>
#include <boost/thread/condition.hpp>
#include <boost/thread.hpp>
#include <boost/thread/thread.hpp>
#include <boost/filesystem.hpp>
#include <boost/bind.hpp>
#include <boost/cstdint.hpp>
#include <boost/function.hpp>
#include <boost/tuple/tuple.hpp>
#include <boost/shared_ptr.hpp>
#include <boost/weak_ptr.hpp>
#include <boost/mpl/fold.hpp>
#include <boost/mpl/inherit.hpp>
#include <boost/mpl/inherit_linearly.hpp>
#include <boost/mpl/joint_view.hpp>
#include <boost/mpl/transform.hpp>
#include <boost/mpl/vector.hpp>
#include <boost/algorithm/string.hpp>
#ifndef Q_MOC_RUN
#include <boost/date_time/posix_time/posix_time.hpp>
#endif
#if BOOST_VERSION >= 104700
#include <boost/chrono.hpp>
#endif
#include <boost/tokenizer.hpp>
#include <boost/foreach.hpp>
#include <boost/shared_array.hpp>
#include <boost/interprocess/sync/file_lock.hpp>
#if BOOST_VERSION >= 104900
#include <boost/interprocess/permissions.hpp>
#endif
#include <boost/iostreams/device/mapped_file.hpp>
#define BOOST_PARAMETER_MAX_ARITY 7
#include <boost/signals2.hpp>
#include <boost/signals2/slot.hpp>
#endif
#endif

3. 在c++11下使用cudaMalloc需要添加在导入变量前添加（void**）。如：
cudaMalloc((void**)&gpu_voxel_grid_TSDF, voxel_grid_dim_x * voxel_grid_dim_y * voxel_grid_dim_z * sizeof(float));
gpu_voxel_grid_TSDF 是float型变量。若不添加（void**），则会报错： error: invalid conversion from ‘float**’ to ‘void**’ [-fpermissive]

4. cuda是可以和cpp文件进行联合编译的。 CMakelists里要注意添加：
gpu部分的包和路径

#GPU
option(USE_CUDA "Use CUDA" ON)
find_package(CUDA REQUIRED)
find_package(CUDA 8.0)
include_directories(${CUDA_INCLUDE_DIRS})
set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};--disable-warnings;--ptxas-options=-v;-use_fast_math;-lineinfo;-std=c++11)

解决pcl和cuda冲突的vtk问题

get_directory_property(dir_defs DIRECTORY ${PROJECT_SOURCE_DIR} COMPILE_DEFINITIONS)
set(vtk_flags)
foreach(it ${dir_defs})
    if(it MATCHES "vtk*")
    list(APPEND vtk_flags ${it})
    endif()
endforeach()

foreach(d ${vtk_flags})
    remove_definitions(-D${d})
endforeach()

使用CUDA_ADD_EXECUTABLE联合编译cpp和cu文件

CUDA_ADD_EXECUTABLE(mytsdf src/mytsdf.cpp ${cpu_source_files} src/tsdf_gpu.cu)

否则会警告：

CMake Warning (dev) in cuda_gpu_generated_test.cu.o.cmake:
  Syntax Warning in cmake code at

    /home/xxx/mytsdf-fusion/build/mytsdf/CMakeFiles/cuda_gpu.dir/src/cuda_gpu_generated_test.cu.o.cmake:79:137

  Argument not separated from preceding token by whitespace.
This warning is for project developers.  Use -Wno-dev to suppress it.

并且报错：

nvcc fatal   : A single input file is required for a non-link phase when an outputfile is specified
CMake Error at cuda_gpu_generated_test.cu.o.cmake:207 (message):
  Error generating
  /home/xxx/mytsdf-fusion/build/mytsdf/CMakeFiles/cuda_gpu.dir/src/./cuda_gpu_generated_test.cu.o


mytsdf/CMakeFiles/cuda_gpu.dir/build.make:63: recipe for target 'mytsdf/CMakeFiles/cuda_gpu.dir/src/cuda_gpu_generated_test.cu.o' failed

目前就发现了这些问题，后面如有发现再继续补充。

参考：
[1] https://www.jianshu.com/p/6bf114685a6a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

联合编译OpenCV+PCL+CUDA时需要注意的问题的相关文章

如何实现设备端CUDA虚拟功能？

我发现 CUDA 不允许将具有虚拟函数的类传递到内核函数中对于这个限制有什么解决方法吗我真的很希望能够在内核函数中使用多态性 Thanks 罗伯特克罗维拉评论中最重要的部分是只需在设备上创建对象即可所以记住这一点我正在处理我有一
估计 GPU 的 FLOPS 效率（CUDA 示例）

在我看来我并不完全理解 FLOPS 的概念在CUDA SAMPLES中有矩阵乘法示例 0 Simple matrixMul 在此示例中每个矩阵乘法的 FLOP 浮点运算数量通过以下公式计算 double flopsPerMatri
cuda简单应用程序适用于32位而不适用于64位

我的简单 cuda helloworld 应用程序在 Windows 10 上使用 Visual Studio 2015 社区构建 32 位时运行良好但是如果我在 64 位中构建它则不会执行 GPU 特斯拉K40c 工具包 CUDA
CUDA __syncthreads() 编译正常，但带有红色下划线

我已经使用 CUDA 4 2 一周了但遇到了一些问题当我编写 syncthreads 函数时它会带有下划线看起来是错误的然后如果我将鼠标放在该函数上则会出现一条消息标识符 syncthreads 未定义但是当我编译我的项目
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

随机推荐

202318读书笔记｜《芭蕉·芜村·一茶：俳句三圣新译300》——樱花——让一整个春夜亮起来！

202318读书笔记芭蕉芜村一茶俳句三圣新译300 樱花让一整个春夜亮起来芭蕉芜村一茶俳句三圣新译300 诗歌词短歌俳句我都喜欢读起来轻松明快松尾芭蕉与谢芜村小林一茶并称三圣芭蕉为俳句之圣芜村一茶居至
StringBuffer进阶以及常用方法

StringBuffer 类 String类是在所有项目开发之中一定会使用到的一个功能类并且这个类拥有如下的特点每一个字符串的常量都属于一个 String 类的匿名对象并且不可更改 String 有两个常量池静态常量池运行时常量
java嵌套类（重点为静态成员类的说明和使用）

嵌套类 nested class nest d 被定义在另一个类的内部的类外围类 enclosing class 嵌套类 nested class 有四种静态成员类 static member class 非静态成员类 nonstati
mesa(OpenGL)安装

Mesa是一个类OpenGL http www opengl org 的开源实现环境 centos 7 安装方法1 步骤问题及解决在 configure 时报告以下错误 Requested libdrm intel gt 2 4 61
Linux中安装的Mysql中文插不进去

查看字符集编码 MySQL gt show variables like character 修改字符集编码方法如下 mysql gt set character set database utf8 注意有可能在修改之后仍然在写入中文是
整数除255快速算法的完全不严谨推导

在浏览一个帖子C 语言有什么奇技淫巧时无意看到一个整数除255快速算法其算法如下 define div 255 fast x x x 257 gt gt 8 gt gt 8 对此算法已有人给出证明255快除算法的证明和推广但对于我的
论Java多线程如何引发OOM—多线程开发知识点

Java ThreadLocal 如何引发 OOM Java 内存泄漏 ThreadLocal OOM 回顾ThreadLocal 强引用软引用弱引用虚引用 Java 内存泄漏内存溢出 Out Of Memory 是指应用系统中存在
k8s部署tomcat数据持久化

1 部署nfs服务器 yum y install nfs utils rpcbind 1 2 启动nfs服务 systemctl start nfs 1 3 检查rpcbind NFS rpcinfo p localhost program
论文笔记--用于人体姿势估计的深度双连续网络（Deep Dual Consecutive Network for Human Pose Estimation）

索引复杂情况下的多帧人体姿态估计是一种挑战尽管最先进的人体关节检测器在静态图像上表现出了显著的效果但当我们将这些模型应用于视频序列时它们的表现就显得不足了普遍存在的缺点包括无法处理运动模糊视频失焦或姿势遮挡这是因为无法捕捉到视
工具分享

随着电子邮件的普及电子邮件欺骗也变得越来越普遍电子邮件欺骗是一种针对用户的网络攻击攻击者通常伪装成合法的发送者来骗取用户的信息或资金为了保护用户的安全有必要使用一款强大的电子邮件欺骗漏洞检测工具 EVC就是一款非常优秀的工具功能
Android Studio 将项目转变成library（model）引入到另一个项目中使用

最近要将项目转换成library 引入到另一项目中使用所以记录引用的过程 1 修改配置 2 修改app文件夹里面的iml文件名称在APP文件夹下找到app iml 文件将文件名改为想要命名的名称这里改成loadingviewlir
服务器的文件共享,服务器文件共享设置

服务器文件共享设置内容精选换一换本文介绍了弹性文件服务SFS各特性版本的功能发布和对应的文档动态新特性将在各个区域 Region 陆续发布欢迎体验云耀云服务器默认设置的时区是您制作镜像时选择的时区如需修改请参见本节内容将
client mac addr不能开机进不去系统_电脑的系统进不去界面重装系统的方法

学会自己安装系统不求人全过程纯手打电脑系统界面进不去但屏幕只要有字哪怕左上角只有一横就可以重做系统电脑开机就怕一个字一个符号也没有重做系统只是c盘文件丢失其他盘文件还在但硬盘有毛病格式化硬盘或者重新分区所有的文件都没
关于Cubemx（HAL库）中ADC和DMA同时启用存在的问题

在使用Cubemx编程STM32时若同时开启ADC和DMA 则软件自动生成的代码如下可以看到 ADC初始化在DMA前面这样一来我们会发现从DMA提取的数据错误的原因就在它们两个初始化函数的先后顺序是有讲究的正确的顺序应该是DMA
学习如何使用电脑客户端和ESP8266客户端来连接MQTT服务端以及订阅主题发送主题操作

MQTT原理与应用学习如何使用电脑客户端和ESP8266客户端来连接MQTT服务端本文章学习借鉴于太极创客团队以表感谢官网 http www taichi maker com 文章目录 MQTT原理与应用一使用电脑客户端和ESP
Could not load dynamic library ‘libcusolver.so.11‘ No such file or directory； LD_LIBRARY_PATH:

今日在安装tensorflow的时候遇见不能使用gpu的情况经过一顿费劲网上搜集资料发现根本就没有人说明白这个事情特此做个笔记把这个报错一次性说明白一是为了给自己做个记录二是也希望能帮助大家首先基本高版本的tensor fl
Vue修改默认字体

1 在assets文件夹下创建文件夹命名为font 2 在font文件夹中新建文件 font css font face font family pingFangSC Medium src url PingFangMedium 0 ttf
时空复杂度（时间复杂度/空间复杂度）O(1)、O(n)、O(n^2)、O(log n)、O(n log n)是什么意思，借鉴然后自己借鉴出来

附上借鉴的地址 https blog csdn net lkp1603645756 article details 85013126 这些都是算法时空复杂度的表示不仅仅用于表示时间复杂度也用于表示空间复杂度 O后面的括号中有一个函数指
Matlab学习10-图像处理之傅里叶变换

文章目录前言一离散傅里叶变换二二维离散傅里叶变换三傅里叶级数将周期函数转换为不同正弦波的叠加前言图像变换一维离散变换二维离散变换傅里叶变换离散余弦变换 Matlab学习10 图像处理之傅里叶变换傅里叶变换优点
联合编译OpenCV+PCL+CUDA时需要注意的问题

最近在写tsdf的程序同时使用了OpenCV PCL和CUDA 在编译工程的时候发现了不少问题在这里整理一下 1 cu和cpp文件 global host device 这样开头的cuda程序只能写在cu文件中 kernal lt lt

联合编译OpenCV+PCL+CUDA时需要注意的问题

联合编译OpenCV+PCL+CUDA时需要注意的问题 的相关文章

随机推荐

热门标签

联合编译OpenCV+PCL+CUDA时需要注意的问题的相关文章