cuda学习

2023-11-06

GPU中有多个流处理器SM, 当一个线程块被指定给一个SM后，里面的线程会被划分成线程束（32个线程），在SM上交替运行，也就是说SM上一个时刻只有一个线程束在运行。

函数修饰符：__global__表示该函数只能在GPU上运行，但是可以从CPU或者GPU调用。__device__修饰的函数只能在GPU上运行，并且只能从GPU调用。

cuda 中速度最快是给每个线程私有的寄存器，在核函数中不加修饰声明的变量默认保存在寄存器中，当寄存器不够用时，数据会储存到本地内存中，它实际上和全局内存公用一块储存区域。
加__share__修饰的变量处在在每个块的共享内存中，当此块结束，共享内存被释放。为了避免块内竞争，用__syncthreads()进行同步。

全局内存一般在主机上分配，它的声明周期和应用程序一致。

一个线程束由32个连续的线程组成，在一个线程束中，所有的线程按照单指令多线程（SIMT）方式执行；即，所有线程都执行相同的指令，每个线程在私有数据上进行操作。
从逻辑角度来看，线程块是线程的集合，它们可以被组织为一维、二维或三维布局。
从硬件角度来看，线程块是一维线程束的集合。在线程块中线程被组织成一维布局，每32个连续线程组成一个线程束。
一个SM会负责多个ThreadBlock(线程块)的计算任务。每个SP一个时刻负责一个thread。
硬件层面，SM中有shared memory, register, L1 cache，因此ThreadBlock内可以共享shared memory，单独的thread拥有自己的Local memory(先被分配到register中，如果register不够就分配到global memory中)。
Warp是SM调度和执行的基本单位。SIMT机制使得同一个Warp里的线程根据不同的DATA执行相同的指令。一个SM，一次只能运算一个Block里的一组Warp，如果warp中有线程的DATA没有取到，那么调度下一下warp运算。
对齐访问含义就是如果”内存事务“（32和128字节两种）的访问首地址是缓存粒度（L1的128字节或L2缓存的32字节）的偶数倍，即实现了对齐访问。
在L1缓存的情况下，由”128字节内存事务“完成访问，如果恰好一个线程束访问的地址是连续的128字节，且首地址恰好又是128的倍数。那么这种访问就说所谓合并访问。
共享内存实际上是可受用户控制的一级缓存。申请共享内存后，其内容在每一个用到的block被复制一遍，使得在每个block内，每一个thread都可以访问和操作这块内存，而无法访问其他block内的共享内存。这种机制就使得一个block之内的所有线程可以互相交流和合作。
你声明一个二维存储体，编译器会把声明的二维转换成一维线性的，然后再重新整理成二维按照32个存储体，4-Byte/8-Byte宽的内存分布，然后再进行运算的。

规约

template <unsigned int iBlockSize>
__global__ void reduceCompleteUnroll(int * g_idata,int * g_odata,unsigned int n)
{
	//set thread ID
	unsigned int tid = threadIdx.x;
	unsigned int idx = blockDim.x*blockIdx.x*8+threadIdx.x;
	//boundary check
	if (tid >= n) return;
	//convert global data pointer to the
	int *idata = g_idata + blockIdx.x*blockDim.x*8;
	if(idx+7 * blockDim.x<n)
	{
		int a1=g_idata[idx];
		int a2=g_idata[idx+blockDim.x];
		int a3=g_idata[idx+2*blockDim.x];
        int a4=g_idata[idx+3*blockDim.x];
		int a5=g_idata[idx+4*blockDim.x];
		int a6=g_idata[idx+5*blockDim.x];
		int a7=g_idata[idx+6*blockDim.x];
		int a8=g_idata[idx+7*blockDim.x];
		g_idata[idx]=a1+a2+a3+a4+a5+a6+a7+a8;

	}
	__syncthreads();
	//in-place reduction in global memory
	if(iBlockSize>=1024 && tid <512)
		idata[tid]+=idata[tid+512];
	__syncthreads();
	if(iBlockSize>=512 && tid <256)
		idata[tid]+=idata[tid+256];
	__syncthreads();
	if(iBlockSize>=256 && tid <128)
		idata[tid]+=idata[tid+128];
	__syncthreads();
	if(iBlockSize>=128 && tid <64)
		idata[tid]+=idata[tid+64];
	__syncthreads();
	//write result for this block to global mem
	if(tid<32)
	{
		volatile int *vmem = idata;
		vmem[tid]+=vmem[tid+32];
		vmem[tid]+=vmem[tid+16];
		vmem[tid]+=vmem[tid+8];
		vmem[tid]+=vmem[tid+4];
		vmem[tid]+=vmem[tid+2];
		vmem[tid]+=vmem[tid+1];

	}

	if (tid == 0)
		g_odata[blockIdx.x] = idata[0];

}

利用共享内存矩阵转置

__global__ void transformSmemUnrollPad(float * in,float* out,int nx,int ny)
{
    __shared__ float tile[BDIMY*(BDIMX*2+IPAD)];
//1.
    unsigned int ix,iy,transform_in_idx,transform_out_idx;
    ix=threadIdx.x+blockDim.x*blockIdx.x*2;
    iy=threadIdx.y+blockDim.y*blockIdx.y;
    transform_in_idx=iy*nx+ix;
//2.
    unsigned int bidx,irow,icol;
    bidx=threadIdx.y*blockDim.x+threadIdx.x;
    irow=bidx/blockDim.y;  //新矩阵按行读取
    icol=bidx%blockDim.y;
//3.
    unsigned int ix2=blockIdx.y*blockDim.y+icol;
    unsigned int iy2=blockIdx.x*blockDim.x*2+irow;
//4.
    transform_out_idx=iy2*ny+ix2;
    if(ix+blockDim.x&lt;nx&amp;&amp; iy&lt;ny)
    {
        unsigned int row_idx=threadIdx.y*(blockDim.x*2+IPAD)+threadIdx.x;
        tile[row_idx]=in[transform_in_idx];
        tile[row_idx+BDIMX]=in[transform_in_idx+BDIMX];
//5
        __syncthreads();
        unsigned int col_idx=icol*(blockDim.x*2+IPAD)+irow;
        out[transform_out_idx]=tile[col_idx];
        out[transform_out_idx+ny*BDIMX]=tile[col_idx+BDIMX];
 
    }
}

只读内存用于常亮参数读取

在这里插入图片描述

__global__ void stencil_1d_readonly(float * in,float * out,const float* __restrict__ dcoef)
{
    __shared__ float smem[BDIM+2*TEMP_RADIO_SIZE];
    int idx=threadIdx.x+blockDim.x*blockIdx.x;
    int sidx=threadIdx.x+TEMP_RADIO_SIZE;
    smem[sidx]=in[idx];

    if (threadIdx.x<TEMP_RADIO_SIZE)

    {
        if(idx>TEMP_RADIO_SIZE)
            smem[sidx-TEMP_RADIO_SIZE]=in[idx-TEMP_RADIO_SIZE];
        if(idx<gridDim.x*blockDim.x-BDIM)
            smem[sidx+BDIM]=in[idx+BDIM];

    }

    __syncthreads();
    if (idx<TEMP_RADIO_SIZE||idx>=gridDim.x*blockDim.x-TEMP_RADIO_SIZE)
        return;
    float temp=.0f;
    #pragma unroll
    for(int i=1;i<=TEMP_RADIO_SIZE;i++)
    {
        temp+=dcoef[i-1]*(smem[sidx+i]-smem[sidx-i]);
    }
    out[idx]=temp;
    //printf("%d:GPU :%lf,\n",idx,temp);
}

cuda锁页内存

对CUDA架构而言，主机端的内存被分为两种，一种是可分页内存（pageable memroy）和页锁定内存（page-lock或 pinned）。可分页内存是由操作系统API malloc()在主机上分配的，页锁定内存是由CUDA函数cudaHostAlloc()在主机内存上分配的，页锁定内存的重要属性是主机的操作系统将不会对这块内存进行分页和交换操作，确保该内存始终驻留在物理内存中。

GPU知道页锁定内存的物理地址，可以通过“直接内存访问（Direct Memory Access，DMA）”技术直接在主机和GPU之间复制数据，速率更快。由于每个页锁定内存都需要分配物理内存，并且这些内存不能交换到磁盘上，所以页锁定内存比使用标准malloc()分配的可分页内存更消耗内存空间

cudaError_t cudaStatus = cudaHostAlloc((void **)&a, size * sizeof(*a), cudaHostAllocDefault);

矩阵相乘

利用pichc操作把不规则矩阵和内存对齐，pitch 长度为新矩阵的列宽(为128倍数)

 float *d_matrix;
 float *dc_matrix = new float[M*N];
 size_t pitch;
cudaMallocPitch(&d_matrix, &pitch, M*sizeof(float), N);
cudaMemcpy2D(d_matrix, pitch, dc_matrix, M* sizeof(float), M * sizeof(float), N, cudaMemcpyHostToDevice);

blockdim.x=256
griddim.x=1000
1000对应a矩阵的行，256对应b矩阵的列(1个线程对应多个列)

__shared__ float a_shared[1000];
for(int j=tix;j<a_cols;j+=bdx){
    a_shared[j]=a[bix*a_pitch+j];
}
__syncthreads();
int i,k;
for(i=tix;i<b_cols;i+=bdx){
    float sum=0;
    for(k=0;k<a_cols;k++){
        sum+=a_shared[k]*b[k*b_pitch+i];
    }
    c[bix*a_pitch+i]=sum;
}

矩阵相乘 (共享矩阵)

__global__ void operator_matmul_h(const float *input1, const float *input2,
                                  float *output, int height, int k, int width,
                                  int broadcast) {
  __shared__ float shared_input1[TILE_SIZE][TILE_SIZE];
  __shared__ float shared_input2[TILE_SIZE][TILE_SIZE];

  int batch_idx = blockIdx.z;
  if (broadcast != 1) input1 += batch_idx * height * k;
  if (broadcast != 2) input2 += batch_idx * k * width;
  output += batch_idx * height * width;

  int bx = blockIdx.y;
  int by = blockIdx.x;
  int tx = threadIdx.y;
  int ty = threadIdx.x;

  int row = bx * TILE_SIZE + tx; // x代表行 ，y代表列，这里反过来了
  int col = by * TILE_SIZE + ty;
  float v = 0;

  for (int i = 0; i < (int)(ceil((float)k / TILE_SIZE)); i++) {
    if (i * TILE_SIZE + ty < k && row < height)
      shared_input1[tx][ty] = input1[row * k + i * TILE_SIZE + ty];
    else
      shared_input1[tx][ty] = 0;

    if (i * TILE_SIZE + tx < k && col < width)
      shared_input2[tx][ty] = input2[(i * TILE_SIZE + tx) * width + col];
    else
      shared_input2[tx][ty] = 0;
    __syncthreads(); // k/TILE_SIZE个子矩阵中的第i个拷贝完毕

    for (int j = 0; j < TILE_SIZE; j++)
      v += shared_input1[tx][j] * shared_input2[j][ty];
    __syncthreads(); // 第 i个子矩阵的[tx][ty]值更新
  }

  if (row < height && col < width) output[row * width + col] = v;
  // k/TILE_SIZE个子矩阵个子矩阵的[tx][ty]位置的和为最终结果中[row][width]的值
}

stream

CUDA流表示一个GPU操作队列，该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务，不同任务可以并行执行。使用CUDA流，首先要选择一个支持设备重叠（Device Overlap）功能的设备，支持设备重叠功能的GPU能够在执行一个CUDA核函数的同时，还能在主机和设备之间执行复制数据操作。
支持重叠功能的设备的这一特性很重要，可以在一定程度上提升GPU程序的执行效率。一般情况下，CPU内存远大于GPU内存，对于数据量比较大的情况，不可能把CPU缓冲区中的数据一次性传输给GPU，需要分块传输，如果能够在分块传输的同时，GPU也在执行核函数运算，这样的异步操作，就用到设备的重叠功能，能够提高运算性能
首先声明一个Stream，可以把不同的操作放到Stream内，按照放入的先后顺序执行。
cudaMemcpyAsync操作只是一个请求，表示在流中执行一次内存复制操作，并不能确保cudaMemcpyAsync函数返回时已经启动了复制动作，更不能确定复制操作是否已经执行完成，可以确定的是放入流中的这个复制动作一定是在其后放入流中的其他动作之前完成的。

#include "cuda_runtime.h"  
#include <iostream>
#include <stdio.h>  
#include <math.h>  
 
#define N (1024*1024)  
#define FULL_DATA_SIZE N*20  
 
__global__ void kernel(int* a, int *b, int*c)
{
	int threadID = blockIdx.x * blockDim.x + threadIdx.x;
 
	if (threadID < N)
	{
		c[threadID] = (a[threadID] + b[threadID]) / 2;
	}
}
 
int main()
{
	//获取设备属性
	cudaDeviceProp prop;
	int deviceID;
	cudaGetDevice(&deviceID);
	cudaGetDeviceProperties(&prop, deviceID);
 
	//检查设备是否支持重叠功能
	if (!prop.deviceOverlap)
	{
		printf("No device will handle overlaps. so no speed up from stream.\n");
		return 0;
	}
 
	//启动计时器
	cudaEvent_t start, stop;
	float elapsedTime;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	cudaEventRecord(start, 0);
 
	//创建一个CUDA流
	cudaStream_t stream;
	cudaStreamCreate(&stream);
 
	int *host_a, *host_b, *host_c;
	int *dev_a, *dev_b, *dev_c;
 
	//在GPU上分配内存
	cudaMalloc((void**)&dev_a, N * sizeof(int));
	cudaMalloc((void**)&dev_b, N * sizeof(int));
	cudaMalloc((void**)&dev_c, N * sizeof(int));
 
	//在CPU上分配页锁定内存
	cudaHostAlloc((void**)&host_a, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);
	cudaHostAlloc((void**)&host_b, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);
	cudaHostAlloc((void**)&host_c, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);
 
	//主机上的内存赋值
	for (int i = 0; i < FULL_DATA_SIZE; i++)
	{
		host_a[i] = i;
		host_b[i] = FULL_DATA_SIZE - i;
	}
 
	for (int i = 0; i < FULL_DATA_SIZE; i += N)
	{
		cudaMemcpyAsync(dev_a, host_a + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);
		cudaMemcpyAsync(dev_b, host_b + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);
 
		kernel << <N / 1024, 1024, 0, stream >> > (dev_a, dev_b, dev_c);
 
		cudaMemcpyAsync(host_c + i, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost, stream);
	}
 
	// wait until gpu execution finish  
	cudaStreamSynchronize(stream);
 
	cudaEventRecord(stop, 0);
	cudaEventSynchronize(stop);
	cudaEventElapsedTime(&elapsedTime, start, stop);
 
	std::cout << "消耗时间： " << elapsedTime << std::endl;
 
	//输出前10个结果
	for (int i = 0; i < 10; i++)
	{
		std::cout << host_c[i] << std::endl;
	}
 
	getchar();
 
	// free stream and mem  
	cudaFreeHost(host_a);
	cudaFreeHost(host_b);
	cudaFreeHost(host_c);
 
	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);
 
	cudaStreamDestroy(stream);
	return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cuda学习的相关文章

无法安装 psycopg2 Ubuntu

试图为 django 项目准备好服务器但我在设置 postgres 时遇到了一些问题我正在遵循本指南 https jee appy blogspot com 2017 01 deply django with nginx html ht
变量作为 bash 数组索引？

bin bash set x array counter 0 array value 1 array 0 0 0 for number in array do array array counter array value array co
使用netcat将unix套接字传输到tcp套接字

我正在尝试使用以下命令将 unix 套接字公开为 tcp 套接字 nc lkv 44444 nc Uv var run docker sock 当我尝试访问时localhost 44444 containers json从浏览器中它不会加
静态链接共享对象？或者损坏的文件？

我有一个从专有来源获得的库我正在尝试链接它但出现以下错误 libxxx so 文件无法识别文件格式无法识别 Collect2 ld 返回 1 退出状态确实 ldd libxxx so statically linked 这究竟意味着
箭头键变成 Telnet 中的控制字符

我在 Ubuntu 终端中并通过 telnet 连接到服务器现在每当我输入 up 时它就会变成 A 其他箭头键也变成控制字符有没有办法可以运行 telnet 以便它理解我的箭头键这将是一个巨大的帮助因为我想在我的命令历史记录中向
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
Linux 文本文件操作

我有一个格式的文件 a href a href a href a href 我需要选择之后但之前的文本并将其打印在行尾添加后例如 a href http www wowhead com search Su a a a a a
如何在 Linux x86_64 上模拟 iret

我正在编写一个基于 Intel VT 的调试器由于当 NMI Exiting 1 时 iret 指令在 vmx guest 中的性能发生了变化所以我应该自己处理vmx主机中的NMI 否则 guest会出现nmi可重入错误我查了英特尔手
使用命令行将 MediaWiki 维基文本格式转换为 HTML

我倾向于编写大量文档因此 MediaWiki 格式对我来说很容易理解而且比编写传统 HTML 节省了我很多时间然而我也写了一篇博客发现一直从键盘切换到鼠标来输入正确的 HTML 标签会增加很多时间我希望能够使用 Mediawik
为什么 ld 无法从 /etc/ld.so.conf 中的路径找到库？

我想添加 opt vertica lib64进入系统库路径所以我执行以下步骤 1 添加 opt vertica lib64 into etc ld so conf 然后运行ldconfig 2 检查 bash ldconfig p gre
Linux、ARM：为什么仅当启动时存在 I2C GPIO 扩展器时才创建 gpiochip？

在 imx6sx 硬件平台 NXP 嵌入式 ARM 上使用 Linux 3 14 52 问题是设备树中指定的 PCF8575 I2C GPIO 扩展器不会实例化为 sys class gpio 结构中的设备除非它们在内核启动期间存在这些
如何从 Linux 的 shell 中删除所有以 ._ 开头的文件？

确实如标题所示我已将许多文件从 Mac 复制到 Raspberry Pi 这导致了许多以前缀开头的多余文件我想删除以以下开头的文件夹中的每个文件我该怎么做尝试类似的方法 cd path to directory rm rf 或者如
EDITLogBack Syslog 不工作 java

我写了一个简单的项目来在 Ubuntu 中运行日志方法如下example https examples javacodegeeks com enterprise java logback logback syslog example 应用
perf stat中的cycles注释是什么意思

8 014196 task clock 0 004 CPUs utilized 204 context switches 0 025 M sec 32 cpu migrations 0 004 M sec 0 page faults 0 0
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
无关的库链接

我有一个可能有点愚蠢的问题因为我很确定我可能已经知道答案了假设你有静态库A 动态共享库B和你的linux下的程序C 假设库 A 调用库 B 中的函数并且您的程序调用库 A 中的函数现在假设 C 在 A 中调用的所有函数都不使用 B
CentOS目录结构是树形的吗？

CentOS 上有相当于树的东西吗如果你的 Centos 系统上没有安装 tree 无论如何我通常建议服务器设置使用最小安装磁盘你应该在命令行中输入以下内容 yum install tree y 如果没有安装那是因为您没有正确的存储库
“grep -q”的意义是什么

我正在阅读 grep 手册页并遇到了 q 选项它告诉 grep 不向标准输出写入任何内容如果发现任何匹配即使检测到错误也立即以零状态退出我不明白为什么这可能是理想或有用的行为在一个程序中其原因似乎是从标准输入读取处理写入
Linux 上的 Python 3.6 tkinter 窗口图标错误

我正在从 Python GUI 编程手册学习 Python GUI 某项任务要求我通过将以下代码添加到我的配方中来更改窗口图标 Change the main windows icon win iconbitmap r C Python3
如何从 Linux 命令行获取视频文件的分辨率（宽度和高度）？

我一直在挖掘 mplayer mencoder 和 ffmpeg 文档但我似乎无法想出anything 我对输出格式不是特别挑剔因为我可以使用正则表达式将其拉出来我只是似乎无法首先获取数据 Use ffprobe https ffmp

随机推荐

setFocus不能生效的问题

focusInEvent只有在对象显示出来的情况下设定setFocus才可以触发这一点help手册里有说明转一篇文章如下 http blog csdn net alex201030273437 article details 81937
CSV简单了解

1 CSV介绍 CSV全称是Comma Separate Values 这种文件格式可以作为不同程序之间的数据交互的格式 csv就是一种纯文本文件如 txt doc等即是一组字符序列字符之间已英文字符的逗号或制表符 Tab 分隔语法
Python数据结构-----leetcode232.用栈实现队列

目录前言方法讲解示例代码实现 232 用栈实现队列前言我们都知道队列的特征是先进先出就跟排队一样先到先得而栈的特征是后进后出那这里我们怎么去通过两个栈来实现一个队列的功能呢这一期我们一起来学习吧方法讲解这里需要准备好
订单业务中的重要问题：超卖问题的解决方案

订单业务中的重要问题超卖问题的解决方案我在做过的一些项目中都涉及到了订单的业务如果你的项目中有关于订单的业务模块那肯定说明你的项目中有卖商品的功能所以有买卖场景就面临一个很常见的一个问题那就是超卖问题下面我就整理一下我在做项目
MyBatis与JDBC连接数据库所使用的url之间的差异

1 在JDBC连接里是这样的连接无误 2 在Mybatis里配置要这样 3 主要区别说明 JDBC 方式连接 MySQL 不需要对进行转义而在Mybatis里要求一定要对转义 4 如果是在properties文件里不用转义的在
IP静态路由实验报告

一将192 168 1 0 24划分为4个网段 192 168 1 0 26 192 168 1 64 26 192 168 1 128 26 192 168 1 192 26 1 取192 168 1 0 26继续划分为主干道添加IP
Spring 加载、解析applicationContext.xml 流程

概要 Spring 框架使用了BeanFactory 进行加载 xml 和生成 bean 实例下面我们分析下Spring加载xml文件的过程 spring 版本是最新的 4 3 9 release 版本示例 XmlBeanFactory
java 转换tif图片为jpg，解决转换后颜色异常问题

java 转换tif图片为jpg 解决转换后颜色异常问题说明正常情况下 tif转换jpg图片会出现颜色失真丢失部分颜色原因是两种图片的色彩模式不同 jpg默认使用的是RGB色彩模式 TIF默认使用的是CMYK色彩模式 RGB的色域比
有关“ModuleNotFoundError: No module named ‘flask._compat’”错误的解决过程

在进行flask安装后运行程序的过程中出现了 ModuleNotFoundError No module named flask compat 的错误在查询了多个网站后给出了不同的答案其报错原因是flask版本过高导致无法识别该语法
仿京东项目笔记2（注册登录）

这里写目录标题 1 注册页面 1 1 注册登录页面接口请求 1 2 Vue开发中Element UI的样式穿透 1 2 1 v deep的使用 1 2 2 elementUI Dialog内容区域显示滚动条 1 3 注册页面步骤条和表
服务器i5 和e系列,e5和i5有什么区别

两个系列的处理器主要在设计规格和面向范围方面存在区别设计规格上前者核心数更多多线程能力更强但睿频能力相对较弱后者核心数较少多线程能力不如前者但睿频能力更强面向范围上前者主要面向服务器嵌入式等企业设备后者主要面向消费级硬
(LeetCode)全排列

目录题目要求题目理解以及思路分析代码分部讲解第一部分第二部分题目要求给定一个不含重复数字的数组 nums 返回其所有可能的全排列你可以按任意顺序返回答案示例 1 输入 nums 1 2 3 输出 1 2 3 1 3
规则引擎Drools使用第十一篇 Drools 的高级语法之LHS增强

前面我们已经知道了在规则体中的LHS部分是介于when和then之间的部分主要用于模式匹配只有匹配结果为true时才会触发RHS部分的执行下面我们会针对LHS部分学习几个新的用法目录复合值限制in not in 条件元素eval
升压电路(BOOST)与降压电路(BUCK)

一电路中产生电流的条件是 1 电路里必须有电源供电 2 电路必须形成闭合回路降压元器件升降压电路构成的核心元器件 1 电感储存能量电感是无法突变的工作状态是线性的 2 二极管 3 mos管首先先分清楚mos是N mos还是P
Qt全局宏和变量

1 Qt 全局宏定义 Qt版本号 QT VERSION major lt lt 16 minor lt lt 8 patch 检测版本号 QT VERSION CHECK major minor patch major lt lt 16 m
virtio代码分析(一)-qemu部分

virtio内容众多代码分布于qemu linux dpdk等中而且分为frontend和backend 可以运行于userspace也可以运行于kernelspace 极其难以理解不看代码只看原理性文档往往流于表面只有真正看懂了代
大数据准备——安装JDK

1 解压Linux版本的JDK压缩包命令行敲入 mkdir home software cd home software rz 上传jdk tar包这里添加自己tar包的名字如果rz命令不能使用先执行yum install lrzs
C语言关键字解析

在C语言中有32个关键字如下表所示释 1 声明 1 告诉编译器这个名字已经匹配到一块内存上 2 告诉编译器这个名字已经预定了其他地方再也不能用它来作为变量名或对象名 2 定义编译器创建一个对象为这个对象分配一块内存空间并给它
前端配色网站自用免费颜色很全

1 中国色彩 http zhongguose com 3 ColorHex https www colorhexa com 4 优色网配色专区 https color uisdc com 4 ColorDrop https www colo
cuda学习

GPU中有多个流处理器SM 当一个线程块被指定给一个SM后里面的线程会被划分成线程束 32个线程在SM上交替运行也就是说SM上一个时刻只有一个线程束在运行函数修饰符 global 表示该函数只能在GPU上运行但是可以从CPU或者G