如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

2024-03-14

使用 OpenCL 进行简单的矩阵乘法：

// Multiply two matrices A * B = C

#include <stdlib.h>
#include <stdio.h>
#include <math.h>
#include <oclUtils.h>

#define WA 3
#define HA 3
#define WB 3
#define HB 3
#define WC 3
#define HC 3

// Allocates a matrix with random float entries.
void randomInit(float* data, int size)
{
   for (int i = 0; i < size; ++i)
   data[i] = rand() / (float)RAND_MAX;
}

/////////////////////////////////////////////////////////
// Program main
/////////////////////////////////////////////////////////

int
main(int argc, char** argv)
{

   // set seed for rand()
   srand(2006);

   // 1. allocate host memory for matrices A and B
   unsigned int size_A = WA * HA;
   unsigned int mem_size_A = sizeof(float) * size_A;
   float* h_A = (float*) malloc(mem_size_A);

   unsigned int size_B = WB * HB;
   unsigned int mem_size_B = sizeof(float) * size_B;
   float* h_B = (float*) malloc(mem_size_B);

   // 2. initialize host memory
   randomInit(h_A, size_A);
   randomInit(h_B, size_B);

   // 3. print out A and B
   printf("\n\nMatrix A\n");
   for(int i = 0; i < size_A; i++)
   {
      printf("%f ", h_A[i]);
      if(((i + 1) % WA) == 0)
      printf("\n");
   }

   printf("\n\nMatrix B\n");
   for(int i = 0; i < size_B; i++)
   {
      printf("%f ", h_B[i]);
      if(((i + 1) % WB) == 0)
      printf("\n");
   }

   // 4. allocate host memory for the result C
   unsigned int size_C = WC * HC;
   unsigned int mem_size_C = sizeof(float) * size_C;
   float* h_C = (float*) malloc(mem_size_C);

   // 5. Initialize OpenCL
   // OpenCL specific variables
   cl_context clGPUContext;
   cl_command_queue clCommandQue;
   cl_program clProgram;
   cl_kernel clKernel;

   size_t dataBytes;
   size_t kernelLength;
   cl_int errcode;

   // OpenCL device memory for matrices
   cl_mem d_A;
   cl_mem d_B;
   cl_mem d_C;

   /*****************************************/
   /* Initialize OpenCL */
   /*****************************************/

   clGPUContext = clCreateContextFromType(0, 
                   CL_DEVICE_TYPE_GPU, 
                   NULL, NULL, &errcode);
   shrCheckError(errcode, CL_SUCCESS);

   // get the list of GPU devices associated 
   // with context
   errcode = clGetContextInfo(clGPUContext, 
              CL_CONTEXT_DEVICES, 0, NULL, 
              &dataBytes);
   cl_device_id *clDevices = (cl_device_id *)
              malloc(dataBytes);
   errcode |= clGetContextInfo(clGPUContext, 
              CL_CONTEXT_DEVICES, dataBytes, 
              clDevices, NULL);
   //shrCheckError(errcode, CL_SUCCESS);

   //Create a command-queue
   clCommandQue = clCreateCommandQueue(clGPUContext, 
                  clDevices[0], 0, &errcode);
   //shrCheckError(errcode, CL_SUCCESS);

   // Setup device memory
   d_C = clCreateBuffer(clGPUContext, 
          CL_MEM_READ_WRITE, 
          mem_size_A, NULL, &errcode);
   d_A = clCreateBuffer(clGPUContext, 
          CL_MEM_READ_WRITE | CL_MEM_COPY_HOST_PTR, 
          mem_size_A, h_A, &errcode);
   d_B = clCreateBuffer(clGPUContext, 
          CL_MEM_READ_WRITE | CL_MEM_COPY_HOST_PTR, 
          mem_size_B, h_B, &errcode);


   // 6. Load and build OpenCL kernel
   char *clMatrixMul = oclLoadProgSource("kernel.cl",
                        "// My comment\n", 
                        &kernelLength);
   //shrCheckError(clMatrixMul != NULL, shrTRUE);

   clProgram = clCreateProgramWithSource(clGPUContext, 
                1, (const char **)&clMatrixMul, 
                &kernelLength, &errcode);
   //shrCheckError(errcode, CL_SUCCESS);

   errcode = clBuildProgram(clProgram, 0, 
              NULL, NULL, NULL, NULL);
   //shrCheckError(errcode, CL_SUCCESS);

   clKernel = clCreateKernel(clProgram, 
               "matrixMul", &errcode);
   //shrCheckError(errcode, CL_SUCCESS);


   // 7. Launch OpenCL kernel
   size_t localWorkSize[2], globalWorkSize[2];

   int wA = WA;
   int wC = WC;
   errcode = clSetKernelArg(clKernel, 0, 
              sizeof(cl_mem), (void *)&d_C);
   errcode |= clSetKernelArg(clKernel, 1, 
              sizeof(cl_mem), (void *)&d_A);
   errcode |= clSetKernelArg(clKernel, 2, 
              sizeof(cl_mem), (void *)&d_B);
   errcode |= clSetKernelArg(clKernel, 3, 
              sizeof(int), (void *)&wA);
   errcode |= clSetKernelArg(clKernel, 4, 
              sizeof(int), (void *)&wC);
   //shrCheckError(errcode, CL_SUCCESS);

   localWorkSize[0] = 3;
   localWorkSize[1] = 3;
   globalWorkSize[0] = 3;
   globalWorkSize[1] = 3;

   errcode = clEnqueueNDRangeKernel(clCommandQue, 
              clKernel, 2, NULL, globalWorkSize, 
              localWorkSize, 0, NULL, NULL);
   //shrCheckError(errcode, CL_SUCCESS);

   // 8. Retrieve result from device
   errcode = clEnqueueReadBuffer(clCommandQue, 
              d_C, CL_TRUE, 0, mem_size_C, 
              h_C, 0, NULL, NULL);
   //shrCheckError(errcode, CL_SUCCESS);

   // 9. print out the results
   printf("\n\nMatrix C (Results)\n");
   for(int i = 0; i < size_C; i++)
   {
      printf("%f ", h_C[i]);
      if(((i + 1) % WC) == 0)
      printf("\n");
   }
   printf("\n");

   // 10. clean up memory
   free(h_A);
   free(h_B);
   free(h_C);

   clReleaseMemObject(d_A);
   clReleaseMemObject(d_C);
   clReleaseMemObject(d_B);

   free(clDevices);
   free(clMatrixMul);
   clReleaseContext(clGPUContext);
   clReleaseKernel(clKernel);
   clReleaseProgram(clProgram);
   clReleaseCommandQueue(clCommandQue);

}

在上面的代码中，我不断在这个地方收到错误：

/**********************/ /

Nvidia 驱动程序希望您提供一个非 NULL 属性指针作为第一个参数clCreateContextFromType call.

Khronos 规范clCreateContextFromType指出如果为属性参数传递 NULL，则选择的平台取决于实现。对于 Nvidia，选择似乎是如果传递 NULL 指针，则根本不选择任何平台。看clCreateContextFromType http://www.khronos.org/registry/cl/sdk/1.2/docs/man/xhtml/clCreateContextFromType.html了解更多信息。

另一方面，此行为与问题 #3 一致cl_khr_icd 扩展 http://www.khronos.org/registry/cl/extensions/khr/cl_khr_icd.txt，如果您通过 ICD 使用 OpenCL，则适用，其中指出：

3: How will the ICD handle a NULL cl_platform_id?

RESOLVED: The NULL platform is not supported by the ICD.

将属性传递给clCreateContextFromType，首先查询平台clGetPlatformIDs。然后使用所需的平台 ID 构造一个属性数组并将其传递给clCreateContextFromType。以下内容应该适用于 C99 兼容的编译器：

   // query the number of platforms
   cl_uint numPlatforms;
   errcode = clGetPlatformIDs(0, NULL, &numPlatforms);
   shrCheckError(errcode, CL_SUCCESS); 

   // now get all the platform IDs
   cl_platform_id platforms[numPlatforms];
   errcode = clGetPlatformIDs(numPlatforms, platforms, NULL);
   shrCheckError(errcode, CL_SUCCESS);

   // set platform property - we just pick the first one
   cl_context_properties properties[] = {CL_CONTEXT_PLATFORM, (int) platforms[0], 0};
   clGPUContext = clCreateContextFromType(properties, CL_DEVICE_TYPE_GPU, NULL, NULL, &errcode);
   shrCheckError(errcode, CL_SUCCESS);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

NVIDIA

如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？的相关文章

OpenCL 标头包含与 C++ 中的相对路径问题

我正在尝试在 Eclipse CTD 上运行 OpenCL C 示例该示例在 Mac 上包含 OpenCL 标头如下所示 include
OpenGL-OpenCL 互操作传输时间 + 位图纹理

两部分问题我正在开展一个学校项目使用生命游戏作为实验 gpgpu 的工具我使用 OpenCL 和 OpenGL 进行实时可视化目标是让这个东西尽可能大更快经过分析我发现帧时间主要由 CL 获取和释放 GL 缓冲区决定并且时间
有关 OpenCL 内核编程的教程或书籍？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我认为这个问题足够具体只是为了说清楚我不是在寻找参考而是在寻找教程我对内核编程方面特别感兴趣市
tensorflow-gpu 无法与 Blas GEMM 一起使用启动失败

我安装了tensorflow gpu 以在GPU 上运行我的tensorflow 代码但我无法让它运行它不断给出上述错误以下是我的示例代码后面是错误堆栈跟踪 import tensorflow as tf import numpy
opencl中的时钟()

我知道CUDA中有一个函数clock 你可以在其中放入内核代码并查询GPU时间但我想知道OpenCL中是否存在这样的东西有没有办法查询OpenCL中的GPU时间我正在使用 NVIDIA 的工具包 OpenCL 没有直接查询时钟周期的方
nvcc 和 NVIDIA-smi 显示的不同 CUDA 版本

我对运行时显示的不同 CUDA 版本感到非常困惑which nvcc and nvidia smi 我的 ubuntu 16 04 上安装了 cuda9 2 和 cuda10 现在我将 PATH 设置为指向 cuda9 2 所以当我跑步时
GPGPU：普通 PC 陷入困境的后果

我在一本书中读到在波前或扭曲中所有线程共享一个公共程序计数器那么它的后果是什么呢为什么这很重要 NVIDIA GPU 一次执行 32 个线程扭曲 AMD GPU 一次执行 64 个线程波前控制逻辑读取和数据路径的共享减少了面
OpenCL C/C++ 动态绑定库（win32 及更多）

我正在尝试 OpenCL 为了将其投入生产我希望能够动态绑定到 OpenCL DLL 在 Windows 下以便优雅地处理没有 OpenCL 的情况安装在主机上是否有任何可用的库或代码片段可以在 C 或 C 中处理这种动态绑定
OpenCL clGetPlatformIDs 异常

我使用此包安装附带的示例中的 HelloWorld 示例 AMD 套件 http developer amd com tools and sdks heterogeneous computing amd accelerated parall
PyOpenCL 矩阵乘法

我有使用 pyopenCL 进行矩阵乘法的代码我的问题是某些矩阵的结果是错误的我不明白为什么经过一番研究后我认为它与类似的全球规模有关但我不明白如何设置该值例如使用 numpy dtype float32 的矩阵矩阵1 0
NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

我的电脑有一块 GeForce GTX 960M NVIDIA 声称它有 640 个 CUDA 核心然而当我运行 clGetDeviceInfo 来查找计算机中的计算单元数量时它打印出 5 见下图听起来 CUDA 核心与 OpenC
CUDA 标量和 SIMD 视频指令的效率

SIMD指令的吞吐量低于32位整数运算如果是 SM2 0 仅标量指令版本则低 2 倍如果是 SM3 0 则低 6 倍什么情况下适合使用它们如果您的数据已经以 SIMD 视频指令本机处理的格式打包则需要多个步骤对其进行解包以便可
如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

使用 OpenCL 进行简单的矩阵乘法 Multiply two matrices A B C include
boost::计算流压缩

如何使用 boost compute 进行流压缩例如如果您只想对数组中的某些元素执行繁重的操作首先生成掩码数组其中包含与要执行操作的元素相对应的元素 mask 0 0 0 1 1 0 1 0 1 然后对掩码数组进行排它扫描前缀和
OpenCL：为什么指向指针的指针不能作为参数传递给内核函数？

你好我只是想澄清一下为什么我们不能将 2D 数组指针作为参数传递给内核为什么不允许如果我使用它作为参数会发生什么在内部因为我知道代码会给出一些错误请只做那些需要的因为在 OpenCL 1 x 中设备有一个独立的地址空间在设备
空的 openCL 程序抛出弃用警告

我下载了 AMD APP 3 0 SDK 一旦包含 include
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
在 python docker 镜像上使用 GPU

我正在使用一个python 3 7 4 slim busterdocker 镜像我无法更改它我想知道如何使用我的英伟达 GPU on it 我通常用一个tensorflow tensorflow 1 14 0 gpu py3并用一个简单
OpenCL 矩阵乘法应该更快？

我正在尝试学习如何使 GPU 优化 OpenCL 内核我以使用本地内存中的方形图块进行矩阵乘法为例然而在最好的情况下我只得到了约 10 倍的加速约 50 Gflops 与 numpy dot 相比 5 Gflops 它使用的是 BL
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets

随机推荐

通过将变量名称“缝合”在一起来访问 C++ 中的变量

假设我有一个变量 int fish5 7 我可以通过连接术语 fish 和 5 来访问fish5吗理想的解决方案如下所示 printf I am displaying the number seven i fish 5 不不完全是你想要
将 CSV 文件导入 Django 模型的最简单方法是什么？

我正在 DJANGO 中制作一个应用程序来处理很多问题模型中指定了一个问题表或多或少会有数千个问题现在我手头有一个 Excel 文件其中包含所有问题我可以从那里创建一个 CSV 文件我只需要获取问题表中的 CSV 数据最简
使用 ProducerTemplate 通过 Camel 进行代理身份验证

我有一个使用 Camel 并在 ServiceMix 服务器上运行的项目但我似乎无法让它访问外部 Web 服务我怀疑这是因为我无法正确设置代理身份验证 Exchange exchange producerTemplate request
如何使用@SpringBootApplication注解自动检测@ConfigurationProperties注解的类

我正在学习 Spring Boot 并对参考文档中的一个示例有疑问以下部分文档 https docs spring io spring boot docs current reference html using spring boot
如何在 Google Drive API 中获取修订的导出链接

我正在使用 Google Apps 脚本来尝试获取 Google 绘图的各种修订版的导出链接列表下面的代码重现了该问题要尝试一下请使用绘图的 ID 调用 getRevisionHx Google oAuth function goog
更新到 Xcode 8.3 后，桥接标头中出现“文件“File.h”的不可移植路径；指定路径与磁盘上的文件名不同”警告

我更新到 Xcode 8 3 和 Swift 3 1 并在桥接头文件中收到此警告引用了 Objective C 头文件文件 File h 的不可移植路径指定的路径与磁盘上的文件名不同我该如何解决这个问题原来我拼错了文件名正确的名
仍然建议使用 Minitest 测试 Rails 4 中的路由吗？

在 Rails 3 中当在 MiniTest 中编写功能测试时我养成了分别测试路由和测试控制器操作的习惯我的想法来自于Rails 测试指南第 9 节测试路线 http guides rubyonrails org testing
如何将 JSON 转换为 CSV？

我该如何修复该错误 http play golang org p 0UMnUZOUHw http play golang org p 0UMnUZOUHw JSON to CSV in Golang package main import
F# 中的自定义 IEnumerator

更多 F 问题我在下面实现了二进制阅读器我希望它像可枚举序列一样工作下面的代码给了我以下错误我像往常一样不知道如何解决它我有一个 C 实现我必须实现两个不同的覆盖 Current财产我想我必须在这里做同样的事情但不知道如何做
在内存中将 XML 字符串作为 Excel 工作簿打开，而不使用 Windows Forms C# 进行保存

我的内存中有一个 excel 字符串我构建的代码看起来像这样 public static void exportToExcel const string startExcelXML
如何引导导航栏静态固定在滚动上？

我想在滚动时将静态导航栏设置为固定导航栏当它到达页面顶部时有没有办法使用 bootstrap 3 css 或 javascript 来获取它如果我没记错的话您想要实现的目标称为粘性导航栏只需几行 jQuery 滚动事件就很容易实
如何将通配符参数传递给 bash 文件

我正在尝试编写一个 bash 脚本允许用户使用通配符传递目录路径例如 bash show files sh 当在此目录中执行时 drw r r 2 root root 4 0K Sep 18 11 33 dir a rw r r 1 r
如果 for 循环找不到我想要的东西，就做一些事情

我有一个常见的问题我想知道是否有人有比我到目前为止所做的更好的方法来解决它我想循环一个数组来查找一个对象并更新它如果该对象不存在我想将其附加到数组中我通常处理更复杂的对象这使得问题变得更加复杂 var movies id 1 t
如何将 pandas 中的秒数替换为零

我在 pandas 中有以下数据框 code time 1 003002 1 053003 1 060002 1 073001 1 073003 我想在 pandas 中生成以下数据框 code time new time 1 003002
Swift 中的指针

我试图了解 Swift 中指针的使用特别是 Unsafe Mutable Pointer and UnsafeRaw Mutable Pointer 我对这个问题有几个问题 Is UnsafePointer
如何在 python 中运行这个 shell 脚本？

我想从 python 程序运行 bash 脚本该脚本有一个这样的命令 find type d exec bash c cd 0 gunzip c gz cut f 3 gt gt mydoc txt 通常我会运行一个子进程调用例如 su
运行项目时 Node Canvas 抛出错误

Node Canvas 在 m1 上不适用于我当我尝试运行我的项目时我收到此错误消息 Error dlopen node modules canvas build Release canvas node 0x0001 tried nod
每个配置文件中的部分只能出现一次。请参阅帮助主题了解异常情况。为什么？

配置错误描述处理服务此请求所需的配置文件期间发生错误请查看下面的具体错误详细信息并适当修改您的配置文件
Three.js 全屏问题

我已经通读了 Three js API 通读了 StackOverflow 上的问题我已经使用 firebug 和 chrome 的调试器调试了代码我已经删除了我能删除的所有内容但我仍然遇到这个恼人的全屏错误其中渲染器视口比我的屏幕
如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

使用 OpenCL 进行简单的矩阵乘法 Multiply two matrices A B C include

如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？ 的相关文章

随机推荐

热门标签

如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？的相关文章