初识opencl

2023-05-16

初识opencl

以一个例子开头

以一个例子开头

在自己的笔记本电脑上(win10)安装intel的那个opencl包，安装后，记得将include与lib包拷贝出来，然后在以后的使用中只要链接这个库就ok了。

例子代码如下：（出自opencl in action）

#pragma once
#define _CRT_SECURE_NO_WARNINGS
#define PROGRAM_FILE "matvec.cl"
#define KERNEL_FUNC "matvec_mult"

#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>

#ifdef MAC
#include <OpenCL/cl.h>
#else  
#include <CL/cl.h>
#endif

int test1() {

	/* Host/device data structures   主机、设备数据结构体*/
	cl_platform_id platform;
	cl_device_id device;
	cl_context context;
	cl_command_queue queue;
	cl_int i, err;

	/* Program/kernel data structures  程序、内核 数据结构体  */
	cl_program program;
	FILE *program_handle;
	char *program_buffer, *program_log;
	size_t program_size, log_size;
	cl_kernel kernel;

	/* Data and buffers  数据与缓存*/
	float mat[16], vec[4], result[4];
	float correct[4] = { 0.0f, 0.0f, 0.0f, 0.0f };
	cl_mem mat_buff, vec_buff, res_buff;
	size_t work_units_per_kernel;

	/* Initialize data to be processed by the kernel  初始化数据 */
	for (i = 0; i < 16; i++) {
		mat[i] = i * 2.0f;
	}
	//初始化数据并在cpu上计算结果
	for (i = 0; i < 4; i++) {
		vec[i] = i * 3.0f;
		correct[0] += mat[i] * vec[i];
		correct[1] += mat[i + 4] * vec[i];
		correct[2] += mat[i + 8] * vec[i];
		correct[3] += mat[i + 12] * vec[i];
	}

	/* Identify a platform    定义平台*/
	err = clGetPlatformIDs(1, &platform, NULL);
	if (err < 0) {
		perror("Couldn't find any platforms");
		exit(1);
	}

	/* Access a device   获取设备*/
	err = clGetDeviceIDs(platform, CL_DEVICE_TYPE_GPU, 1, &device, NULL);
	if (err < 0) {
		perror("Couldn't find any devices");
		exit(1);
	}

	/* Create the context  创建上下文*/
	context = clCreateContext(NULL, 1, &device, NULL, NULL, &err);
	if (err < 0) {
		perror("Couldn't create a context");
		exit(1);
	}

	/* Read program file and place content into buffer   读取内核程序文件 */
	program_handle = fopen(PROGRAM_FILE, "r");
	if (program_handle == NULL) {
		perror("Couldn't find the program file");
		exit(1);
	}
	fseek(program_handle, 0, SEEK_END);
	program_size = ftell(program_handle);
	rewind(program_handle);
	program_buffer = (char*)malloc(program_size + 1);
	program_buffer[program_size] = '\0';
	fread(program_buffer, sizeof(char), program_size, program_handle);
	fclose(program_handle);

	/* Create program from file  从程序文件与上下文得到 program 程序 */
	program = clCreateProgramWithSource(context, 1,
		(const char**)&program_buffer, &program_size, &err);
	if (err < 0) {
		perror("Couldn't create the program");
		exit(1);
	}
	free(program_buffer);

	/* Build program    编译程序 */
	err = clBuildProgram(program, 0, NULL, NULL, NULL, NULL);
	if (err < 0) {

		/* Find size of log and print to std output */
		clGetProgramBuildInfo(program, device, CL_PROGRAM_BUILD_LOG,
			0, NULL, &log_size);
		program_log = (char*)malloc(log_size + 1);
		program_log[log_size] = '\0';
		clGetProgramBuildInfo(program, device, CL_PROGRAM_BUILD_LOG,
			log_size + 1, program_log, NULL);
		printf("%s\n", program_log);
		free(program_log);
		exit(1);
	}

	/* Create kernel for the mat_vec_mult function 创建内核 */
	kernel = clCreateKernel(program, KERNEL_FUNC, &err);
	if (err < 0) {
		perror("Couldn't create the kernel");
		exit(1);
	}

	/* Create CL buffers to hold input and output data    创建cl 内存去保存输入与输出数据 */
	mat_buff = clCreateBuffer(context, CL_MEM_READ_ONLY |
		CL_MEM_COPY_HOST_PTR, sizeof(float) * 16, mat, &err);
	if (err < 0) {
		perror("Couldn't create a buffer object");
		exit(1);
	}
	vec_buff = clCreateBuffer(context, CL_MEM_READ_ONLY |
		CL_MEM_COPY_HOST_PTR, sizeof(float) * 4, vec, NULL);
	res_buff = clCreateBuffer(context, CL_MEM_WRITE_ONLY,
		sizeof(float) * 4, NULL, NULL);

	/* Create kernel arguments from the CL buffers   由Cl内存数据设置内核参数*/
	err = clSetKernelArg(kernel, 0, sizeof(cl_mem), &mat_buff);
	if (err < 0) {
		perror("Couldn't set the kernel argument");
		exit(1);
	}
	clSetKernelArg(kernel, 1, sizeof(cl_mem), &vec_buff);
	clSetKernelArg(kernel, 2, sizeof(cl_mem), &res_buff);

	/* Create a CL command queue for the device   由Device,context创建命令队列 */
	//queue = clCreateCommandQueue(context, device, 0, &err);
	queue = clCreateCommandQueueWithProperties(context, device, 0, NULL);
	if (err < 0) {
		perror("Couldn't create the command queue");
		exit(1);
	}

	/* Enqueue the command queue to the device   执行内核，使用4 work-units per kernel */
	work_units_per_kernel = 4; /* 4 work-units per kernel */
	err = clEnqueueNDRangeKernel(queue, kernel, 1, NULL, &work_units_per_kernel,
		NULL, 0, NULL, NULL);
	if (err < 0) {
		perror("Couldn't enqueue the kernel execution command");
		exit(1);
	}

	/* Read the result  读结果 */
	err = clEnqueueReadBuffer(queue, res_buff, CL_TRUE, 0, sizeof(float) * 4,
		result, 0, NULL, NULL);
	if (err < 0) {
		perror("Couldn't enqueue the read buffer command");
		exit(1);
	}

	/* Test the result  核对结果 */
	if ((result[0] == correct[0]) && (result[1] == correct[1])
		&& (result[2] == correct[2]) && (result[3] == correct[3])) {
		printf("Matrix-vector multiplication successful.\n");
	}
	else {
		printf("Matrix-vector multiplication unsuccessful.\n");
	}

	/* Deallocate resources */
	clReleaseMemObject(mat_buff);
	clReleaseMemObject(vec_buff);
	clReleaseMemObject(res_buff);
	clReleaseKernel(kernel);
	clReleaseCommandQueue(queue);
	clReleaseProgram(program);
	clReleaseContext(context);

	return 0;
}

总结一下上面的流程：
在这里插入图片描述

运行结果：

Matrix-vector multiplication successful.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

初识opencl 的相关文章

计算 OpenCL C 中内核代码的运行时间

我想测量内核代码在各种设备即 CPU 和 GPU 上的性能读取运行时我写的内核代码是 kernel void dataParallel global int A sleep 10 A 0 2 A 1 3 A 2 5 int pnp p
预处理器愚蠢的做法（对 #include 进行字符串化）

注意这个问题与 OpenCL 本身无关请检查最后一段以获取我的问题的简洁陈述但提供一些背景我正在编写一些使用 OpenCL 的 C 代码我喜欢将 OpenCL 内核的源代码保存在自己的文件中以便于编码和维护而不是直接将源代码作
内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数
数组大小和复制性能

我确信这个问题之前已经得到了回答但我找不到一个好的解释我正在编写一个图形程序其中管道的一部分将体素数据复制到 OpenCL 页面锁定固定内存我发现这个复制过程是一个瓶颈并对一个简单的性能进行了一些测量std copy 数据是浮
cl::vector 与 std::vector：不同的迭代器行为

EDIT 添加了 PlasmaHH 建议的带有内存位置的调试输出我不明白 OpenCL 的 C 绑定中 cl vector 的不同行为考虑以下代码 Header Top hpp class Top public void setBool
使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新
OpenCL 双精度与 CPU 双精度不同

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程我的CPU和GPU双精度结果不一致我可以在这里发布部分代码但我首先想知道是否有其他人遇到过这个问题当我运行多次迭代的循环时 GPU 和 CPU 双精
OpenCL - 将树复制到设备内存

我用 C 代码实现了二叉搜索树我的每个树节点如下所示 typedef struct treeNode int key struct treeNode right struct treeNode left treeNode t 宿主建造的树
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
GPGPU：普通 PC 陷入困境的后果

我在一本书中读到在波前或扭曲中所有线程共享一个公共程序计数器那么它的后果是什么呢为什么这很重要 NVIDIA GPU 一次执行 32 个线程扭曲 AMD GPU 一次执行 64 个线程波前控制逻辑读取和数据路径的共享减少了面
CUDA PTX 代码 %envreg<32> 特殊寄存器

我尝试使用 CUDA 驱动程序 API 运行由 cl 内核生成的 PTX 汇编代码我采取的步骤是这些标准 opencl 程序 1 加载 cl内核 2 JIT编译 3 获取编译好的ptx代码并保存到目前为止一切都很好我注意到 ptx
在 Windows 8 (x64) 中安装期间出现 PyOpenCL“致命错误：CL/cl.h：没有此类文件或目录”错误

在大量搜索此问题的解决方案后我发现此特定错误尚未针对 Windows 正确记录所以我决定将这个问题与解决方案一起发布抱歉如果我将其发布在错误的部分我希望这个解决方案能够帮助用户解决未来 PyOpenCL 安装错误请注意此处使用
OpenCL 内置函数“选择”

我不清楚内置 OpenCL 函数的目的是什么select 有人可以澄清一下吗来自 OpenCL 规范功能选择基因型a 基因型b 基因型c 返回对于向量类型的每个分量结果 i 如果设置了 c i 的 MSB b i a i 在这种情
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
使用 Fortran (CLFORTRAN) 在 OpenCL 中将两个选项作为参数传递

当我的主机程序采用 C 语言时我可以传递两个选项作为 OpenCL 函数的参数例如我可以通过两个标志到clCreateBuffer像这样的函数 clCreateBuffer context CL MEM READ ONLY CL M
使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据

AMD Kaveri 的 hUMA 异构统一内存访问和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一应该允许 CPU 和 GPU 之间进行无副本的数据共享我想知道最新的 OpenCL 或其他 GPGPU 框
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
OpenGL 与 OpenCL，选择哪个以及为什么？

哪些功能使 OpenCL 能够独特地选择 OpenGL 和 GLSL 进行计算尽管有与图形相关的术语和不实用的数据类型 OpenGL 是否有任何真正的警告例如可以通过使用其他纹理将 a 渲染到纹理来完成并行函数评估减少操作可以通过迭

随机推荐

关于极大连通子图与极小连通子图的解释

对于极大连通子图 xff0c 我们可以把它分成3各部分来看 1 必须是子图 xff08 子图中的顶点边都是原图的子集 xff09 2 连通 xff08 对于两个顶点u v xff0c 如果存在u到v的边 xff0c 那这两个点就是连通的
公司信息系统架构建设规划

企业的信息化建设的基础是构建企业的信息系统架构 xff08 也可称之为信息化架构 xff09 xff0c 信息系统架构又由应用架构数据架构技术架构和治理架构4部分组成 xff0c 本建议书主要以技术架构应用架构以及技术架构为对象加以说
C#使用rabbitmq （简单例子）

首先在visual studio项目里面用nuget工具加入 easyNetQ DLL 然后做一个help类 using System using System Collections Generic using System Linq u
我的2013，梦在路上

我的2013 xff0c 在路上今年最后一次给姐姐打电话 xff0c 她在那里像我炫耀自己和爸爸妈妈一起跨年 xff0c 说1314的意义 xff0c 而我还在北京苦逼着回想2013年对于我来说 xff0c 或许是不错的一年这一年我进
事务是什么？

事务 xff1a 简单来说 xff0c 事务就是几个操作要作为一个处理单元来完成 xff0c 要么全部完成 xff0c 要么全部不完成事务可以是一条SQL语句 xff0c 也可以是多条SQL语句或者整个程序事务日志 xff1a 重做日志
各种加解密算法比较

一加密算法介绍对称加密算法对称加密算法用来对敏感数据等信息进行加密 xff0c 常用的算法包括 xff1a DES xff08 Data Encryption Standard xff09 xff1a 数据加密标准 xff0c 速度
系统提示缺少libltdl.so.3

今天安装heartbeat pils 2 1 4 11 el5 i386 rpm时 xff0c 显示因为重新安装的linux xff0c 所以以前的一些操作都丢失了 xff0c 安装了一大堆的开发工具 34 Development lib
安装的虚拟机没有了VMnet1

虚拟的东西终归时有其缺陷的 xff0c 大家安装好虚拟机之后 xff0c 网络适配器中是有VMnat1和VMnat8俩块网卡的 xff0c VMnat1负责主机域虚拟机的host only通信 xff0c 而VMnat8则负责和虚拟机的na
mount:No medium found

使用vmware时 xff0c 科技将iso作为系统的镜像但是 xff0c 在配置yum源的时候 xff0c 可能会遇到这样的问题究其原因 xff0c 是由于镜像文件未启动解决方法 xff1a 右击 xff0c 点击连接 xff0c
Android 9.0 Settings 搜索功能屏蔽某个app

1 概述在9 0的系统rom产品定制化开发过程中在系统Settings的开发功能中最近产品需求要求去掉搜索中屏蔽某个app的搜索就是根据包名不让搜索出某个app 在系统setting中搜索功能中根据包名过滤掉某个app的搜索功
什么叫跨平台语言

什么叫跨平台语言呢 xff1f 今天就个人理解简单谈一下 xff0c 还望指正简单的说 xff0c 就像插座和插头 xff0c 这世界上有没有完全通用的插座呢 xff1f 没有但是比如某家公司 xff0c 制作了插座和插头 xff0c
rpm包管理功能全解

通常在linux系统中 xff0c 服务是要通过程序来提供的 xff0c 通过调用各种接口编译好之后的源码包文件 xff0c 需要使用rpm xff08 redhat package manager xff09 命令来安装并提供相应的服务
加密

lt div id 61 34 article content 34 class 61 34 article content clearfix csdn tracking statistics 34 data pid 61 34 blog
Ubuntu加域后域账号登录账号串号

Ubuntu加域后域账号登录账号串号错误实例原因分析解决办法错误实例例如这里用账号test01登录Ubuntu桌面 xff0c 进入桌面后进入终端 test02 64 PCtest01 这里可以看出账号不是test01 原因分析加入
虚拟机迁移提示设备 “HD audio“ 的备用类型不受支持

错误原因尝试 vMotion 虚拟机失败并显示以下错误 xff1a 设备 HD audio 的备用类型不受支持 HD 音频设备在 ESXi 的虚拟机上不受支持 xff0c 并且不能作为通过 vSphere Client 添加的设备因为图
获取windows10远程桌面记录的用户名密码

Windows 密码恢复工具单击此下载链接输入 download 作为用户名 xff0c 然后 39 nirsoft123 39 作为密码下载软件包后 xff0c 使用以下密码从中提取文件 xff1a nirsoft123 双击net
hisi3516下yuv图片到nnie bgr_u8c3格式转换

首先要看的sdk文档 xff08 HiIVE API 参考 xff09 其中详细说明了 IVE IMAGE TYPE YUV420SP IVE IMAGE TYPE YUV420P IVE IMAGE TYPE YUV422SP IVE I
android 交叉编译dbow3

ndk 20版本是可以直接过的 xff0c 但是ndk14b时 xff0c 编译报如下错误 xff1a arm linux androideabi gcc error unrecognized command line option 39
macOS无法验证此App不包含恶意软件

换了iMac xff0c 刚用有点不习惯 xff0c 特别是它这安全机制 xff0c 比ubuntu高太多想用android ndk进行交叉编译 xff0c 里面的很多那种可执行文件 xff0c 会弹出如下错误解决办法 xff1a 1
初识opencl

初识opencl 以一个例子开头以一个例子开头在自己的笔记本电脑上 win10 安装intel的那个opencl包 xff0c 安装后 xff0c 记得将include与lib包拷贝出来 xff0c 然后在以后的使用中只要链接这个库就o

初识opencl

初识opencl

以一个例子开头

初识opencl 的相关文章

随机推荐

热门标签