我有几个图像处理应用程序的文件。由于在执行某些图像处理算法时图像的行数和列数不会改变,因此我试图将这些值放入常量内存中。我的应用程序看起来像:
图像处理程序
...
...
__constant__ int c_rows;
__constant__ int c_cols;
#ifdef __cplusplus
extern "C"
{
#endif
...
...
#ifdef __cplusplus
}
#endif
Imageproc.cu
...
...
int algorithm(float *a, const int rows, const int cols){
...
...
checkCudaError(cudaMemcpyToSymbol(&c_rows, &rows, sizeof(int)));
checkCudaError(cudaMemcpyToSymbol(&c_cols, &cols, sizeof(int)));
dim3 block(T, T);
dim3 grid(cols/T+1, rows/T+1);
kernel<<<grid, block>>>( ... );
...
...
}
它编译得很好,但是当尝试运行该程序时,我得到了invalid device symbol cudaMemcpyToSymbol(&c_rows, &rows, sizeof(int))
我不能将这些变量放入常量内存中还是我缺少什么?
如果你的符号是这样声明的:
__constant__ int c_rows;
然后正确的调用cudaMemcpyToSymbol
is just
int rows = 5;
cudaMemcpyToSymbol(c_rows, &rows, sizeof(int)));
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)