CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存

2024-03-05

我正在尝试用一个窗口做一个中值滤波器x*y where x and y是奇数和程序的参数。

我的想法是首先查看一个块中可以执行多少个线程以及有多少共享内存可用，如下所示：

void cudaInit(int imgX, int imgY, int kx, int ky, int* cudaVars){
        int device;
        int deviceCount;
        cudaDeviceProp deviceProp;

            cudaGetDevice(&device);
            cudaGetDeviceProperties(&deviceProp, device);
        int kxMed = kx/2;
        int kyMed = ky/2;
        int n = deviceProp.maxThreadsPerBlock;
        while(f(n,kxMed,kyMed)>deviceProp.sharedMemPerBlock){
            n = n/2;
        }

        cudaVars[0] = n;
        cudaVars[1] = imgX/cudaVars[0];
        cudaVars[2] = imgY/cudaVars[0];
     }
    }



void mediaFilter_gpuB(uchar4* h_img,int width, int height, int kx, int ky){

    assert(h_img!=NULL && width!=0 && height!=0);
        int dev=0;
    cudaDeviceProp deviceProp;
    //DEVICE
    uchar4* d_img;
    uchar4* d_buf;

    int cudaVars[3]={0};
    cudaInit(width,height,kx,ky,cudaVars);
checkCudaErrors(cudaMalloc((void**) &(d_img), width*height*sizeof(unsigned char)*4));
    checkCudaErrors(cudaMalloc((void**) &(d_buf), width*height*sizeof(unsigned char)*4));

    cudaGetDevice(&dev);
    cudaGetDeviceProperties(&deviceProp,dev);
    checkCudaErrors(cudaMemcpy(d_img, h_img, width*height*sizeof(uchar4), cudaMemcpyHostToDevice));

    dim3 dimGrid(cudaVars[1],cudaVars[2],1);
    dim3 threads(cudaVars[0],1,1);
    mediaFilterB<<<dimGrid,threads,f(cudaVars[0],kx/2,ky/2)>>>(d_buf,d_img,width,height, kx,ky,cudaVars[0]);

    checkCudaErrors(cudaMemcpy(h_img, d_buf, width*height*sizeof(uchar4), cudaMemcpyDeviceToHost));
    checkCudaErrors(cudaFree(d_img));
    checkCudaErrors(cudaFree(d_buf));

}
__device__ void fillSmem(int* sMem, uchar4* buf, int width, int height, int kx, int ky){
    int kyMed=ky/2;
    int kxMed=kx/2;
    int sWidth = 2*kxMed+gridDim.x;
    int sHeight =2*kyMed+gridDim.x;
    int X = blockIdx.x*gridDim.x+threadIdx.x;
    int Y = blockIdx.y*gridDim.y;
    int j=0;
    while(threadIdx.x+j < sHeight){
        for(int i=0;i<sWidth;i++){
            sMem[threadIdx.x*gridDim.x+gridDim.x*j+i] = buf[X + i +  (threadIdx.x + Y)*width + j*width].x;
        }
        j++;
    }
}

目前，在函数中mediaFilterB，我只是将全局内存复制到共享内存，但是需要花费很多时间，即大约5图像中的秒数8000*8000像素。另一方面，没有 CUDA 的顺序算法需要23秒计算图像的中值滤波器。

我知道我在将全局内存复制到共享内存的过程中做错了，而且我的算法效率非常低，但我不知道如何纠正它。

我正在提供此问题的答案，以将其从未回答的列表中删除。

关于如何使用共享内存通过 CUDA 改进中值滤波的经典示例是由 Accelereyes 开发的代码，可从以下帖子下载：

中值过滤：CUDA 提示和技巧 http://blog.accelereyes.com/blog/2010/03/04/median-filtering-cuda-tips-and-tricks/

这个想法是分配一个(BLOCK_WIDTH+2)x(BLOCK_HEIGHT+2)大小的共享内存。第一步，将外部元件归零。仅当这些元素对应于真实图像元素时，它们才会被填充全局内存值，否则它们将保持为零以进行填充。

为了方便起见，我在下面提供了完整的工作代码。

#include <iostream>  
#include <fstream>   

using namespace std;

#define BLOCK_WIDTH 16 
#define BLOCK_HEIGHT 16

/*******************/
/* iDivUp FUNCTION */
/*******************/
int iDivUp(int a, int b){ return ((a % b) != 0) ? (a / b + 1) : (a / b); }

/********************/
/* CUDA ERROR CHECK */
/********************/
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess) 
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

/**********************************************/
/* KERNEL WITH OPTIMIZED USE OF SHARED MEMORY */
/**********************************************/
__global__ void Optimized_Kernel_Function_shared(unsigned short *Input_Image, unsigned short *Output_Image, int Image_Width, int Image_Height)
{
    const int tx_l = threadIdx.x;                           // --- Local thread x index
    const int ty_l = threadIdx.y;                           // --- Local thread y index

    const int tx_g = blockIdx.x * blockDim.x + tx_l;        // --- Global thread x index
    const int ty_g = blockIdx.y * blockDim.y + ty_l;        // --- Global thread y index

    __shared__ unsigned short smem[BLOCK_WIDTH+2][BLOCK_HEIGHT+2];

    // --- Fill the shared memory border with zeros
    if (tx_l == 0)                      smem[tx_l]  [ty_l+1]    = 0;    // --- left border
    else if (tx_l == BLOCK_WIDTH-1)     smem[tx_l+2][ty_l+1]    = 0;    // --- right border
    if (ty_l == 0) {                    smem[tx_l+1][ty_l]      = 0;    // --- upper border
        if (tx_l == 0)                  smem[tx_l]  [ty_l]      = 0;    // --- top-left corner
        else if (tx_l == BLOCK_WIDTH-1) smem[tx_l+2][ty_l]      = 0;    // --- top-right corner
        }   else if (ty_l == BLOCK_HEIGHT-1) {smem[tx_l+1][ty_l+2]  = 0;    // --- bottom border
        if (tx_l == 0)                  smem[tx_l]  [ty_l+2]    = 0;    // --- bottom-left corder
        else if (tx_l == BLOCK_WIDTH-1) smem[tx_l+2][ty_l+2]    = 0;    // --- bottom-right corner
    }

    // --- Fill shared memory
                                                                    smem[tx_l+1][ty_l+1] =                           Input_Image[ty_g*Image_Width + tx_g];      // --- center
    if ((tx_l == 0)&&((tx_g > 0)))                                      smem[tx_l]  [ty_l+1] = Input_Image[ty_g*Image_Width + tx_g-1];      // --- left border
    else if ((tx_l == BLOCK_WIDTH-1)&&(tx_g < Image_Width - 1))         smem[tx_l+2][ty_l+1] = Input_Image[ty_g*Image_Width + tx_g+1];      // --- right border
    if ((ty_l == 0)&&(ty_g > 0)) {                                      smem[tx_l+1][ty_l]   = Input_Image[(ty_g-1)*Image_Width + tx_g];    // --- upper border
            if ((tx_l == 0)&&((tx_g > 0)))                                  smem[tx_l]  [ty_l]   = Input_Image[(ty_g-1)*Image_Width + tx_g-1];  // --- top-left corner
            else if ((tx_l == BLOCK_WIDTH-1)&&(tx_g < Image_Width - 1))     smem[tx_l+2][ty_l]   = Input_Image[(ty_g-1)*Image_Width + tx_g+1];  // --- top-right corner
         } else if ((ty_l == BLOCK_HEIGHT-1)&&(ty_g < Image_Height - 1)) {  smem[tx_l+1][ty_l+2] = Input_Image[(ty_g+1)*Image_Width + tx_g];    // --- bottom border
         if ((tx_l == 0)&&((tx_g > 0)))                                 smem[tx_l]  [ty_l+2] = Input_Image[(ty_g-1)*Image_Width + tx_g-1];  // --- bottom-left corder
        else if ((tx_l == BLOCK_WIDTH-1)&&(tx_g < Image_Width - 1))     smem[tx_l+2][ty_l+2] = Input_Image[(ty_g+1)*Image_Width + tx_g+1];  // --- bottom-right corner
    }
    __syncthreads();

    // --- Pull the 3x3 window in a local array
    unsigned short v[9] = { smem[tx_l][ty_l],   smem[tx_l+1][ty_l],     smem[tx_l+2][ty_l],
                            smem[tx_l][ty_l+1], smem[tx_l+1][ty_l+1],   smem[tx_l+2][ty_l+1],
                            smem[tx_l][ty_l+2], smem[tx_l+1][ty_l+2],   smem[tx_l+2][ty_l+2] };    

    // --- Bubble-sort
    for (int i = 0; i < 5; i++) {
        for (int j = i + 1; j < 9; j++) {
            if (v[i] > v[j]) { // swap?
                unsigned short tmp = v[i];
                v[i] = v[j];
                v[j] = tmp;
            }
         }
    }

    // --- Pick the middle one
    Output_Image[ty_g*Image_Width + tx_g] = v[4];
}

/********/
/* MAIN */
/********/
int main()
{
    const int Image_Width = 1580;
    const int Image_Height = 1050;

    // --- Open data file
    ifstream is;         is.open("C:\\Users\\user\\Documents\\Project\\Median_Filter\\Release\\Image_To_Be_Filtered.raw", ios::binary );

    // --- Get file length
    is.seekg(0, ios::end);
    int dataLength = is.tellg();
    is.seekg(0, ios::beg);

    // --- Read data from file and close file
    unsigned short* Input_Image_Host = new unsigned short[dataLength * sizeof(char) / sizeof(unsigned short)];
    is.read((char*)Input_Image_Host,dataLength);
    is.close();

    // --- CUDA warm up
    unsigned short *forFirstCudaMalloc; gpuErrchk(cudaMalloc((void**)&forFirstCudaMalloc, dataLength * sizeof(unsigned short)));
    gpuErrchk(cudaFree(forFirstCudaMalloc));

    // --- Allocate host and device memory spaces 
    unsigned short *Output_Image_Host = (unsigned short *)malloc(dataLength);
    unsigned short *Input_Image; gpuErrchk(cudaMalloc( (void**)&Input_Image, dataLength * sizeof(unsigned short))); 
    unsigned short *Output_Image; gpuErrchk(cudaMalloc((void**)&Output_Image, dataLength * sizeof(unsigned short))); 

    // --- Copy data from host to device
    gpuErrchk(cudaMemcpy(Input_Image, Input_Image_Host, dataLength, cudaMemcpyHostToDevice));// copying Host Data To Device Memory For Filtering

    // --- Grid and block sizes
    const dim3 grid (iDivUp(Image_Width, BLOCK_WIDTH), iDivUp(Image_Height, BLOCK_HEIGHT), 1);      
    const dim3 block(BLOCK_WIDTH, BLOCK_HEIGHT, 1); 

    /**********************************************/
    /* KERNEL WITH OPTIMIZED USE OF SHARED MEMORY */
    /**********************************************/

    cudaFuncSetCacheConfig(Optimized_Kernel_Function_shared, cudaFuncCachePreferShared);
    Optimized_Kernel_Function_shared<<<grid,block>>>(Input_Image, Output_Image, Image_Width, Image_Height);
    gpuErrchk(cudaPeekAtLastError());
    gpuErrchk(cudaDeviceSynchronize());

    // --- Copy results back to the host
    gpuErrchk(cudaMemcpy(Output_Image_Host, Output_Image, dataLength, cudaMemcpyDeviceToHost));

    // --- Open results file, write results and close the file
    ofstream of2;         of2.open("C:\\Users\\angelo\\Documents\\Project\\Median_Filter\\Release\\Filtered_Image.raw",  ios::binary);
    of2.write((char*)Output_Image_Host, dataLength);
    of2.close();

    cout << "\n Press Any Key To Exit..!!";
    gpuErrchk(cudaFree(Input_Image));

    delete Input_Image_Host;
    delete Output_Image_Host;

    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存的相关文章

使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
ExpandableListView、OnChildClickListener

我有组列表每个组内都有填充的子项目我已经实现了searchview with filtered ressults and myExpandableListView 可以展开和折叠问题是我不知道如何处理 OnChildClickLis
如何用Go语言的cgo编译Cuda源码？

我用 cuda c 编写了一个简单的程序它可以在 eclipse nsight 上运行这是源代码 include
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
卡尔曼滤波器和内部状态变量的质量

我正在尝试为 Android 开发运动检测应用程序应用程序应该能够跟踪手机在空间中的运动并将其映射到计算机屏幕上的运动我正在使用 3 轴加速度计由于数据非常嘈杂我正在使用卡尔曼滤波器内部状态是 6 个分量向量 speed x sp
使用 dplyr 过滤包含部分列字符串的行

假设我有一个像这样的数据框 term cnt apple 10 apples 5 a apple on 3 blue pears 3 pears 1 如何过滤此列中所有部分找到的字符串例如得到结果 term cnt apple 10 pe
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
Iptables v1.6.1 无法初始化 iptables 表“过滤器”Ubuntu 18.04 Bash Windows

我正在从 Windows Bash 运行 Ubuntu 18 04 uname a Linux DESKTOP M87DGAS 4 4 0 17134 Microsoft 112 Microsoft Thu Jun 07 22 57 00
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
C 中带有通配符的目录列表

有现成的功能吗C可以使用列出目录的内容wildcards过滤掉文件名例如相当于 echo b 它显示四个字符长且不以 b 开头的目录条目的名称我知道我可以使用scandir 但是我需要提供自己的过滤功能 include
用 Ruby 计算中位数

如何使用 Ruby 计算数字数组的中位数我是一个初学者正在努力处理奇数和偶数长度的数组的情况这是一个适用于偶数和奇数长度数组并且不会改变数组的解决方案 def median array return nil if array empt
在过滤器Javascript中添加两个条件

我试图在过滤器中添加两个条件但只有一个有效第一个条件检查单词之间是否有空格第二个条件检查words length 是否大于给定的最小长度如果字符串是 hello world 然后我需要在分割它时得到 hello world 相反我
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
在 Zend Framework 应用程序中，/views/filters 有什么用途？

我知道视图助手的作用 view helpers 但我不知道视图过滤器 view filters 是什么或者它的用途是什么有人可以解释一下这个问题吗谢谢你在渲染视图结束时 Zend View 将输出传递给您已注册的任何过滤器方法是调
如何根据列表中的先前值过滤Haskell中的列表元素？

我正在努力在 Haskell 中创建一个函数该函数根据列表中前一个元素的条件过滤列表的数字 Example 前一个数字是 2 的倍数 myFunction 1 2 5 6 3 expected output 5 3 我知道如何申请filt
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
如何根据给定的过滤器返回并获取对象属性的总和？

我有以下对象 var data Name ABC Dept First FY 2016 Quarter 1 Month April Total 100 Name ABC Dept Second FY 2017 Quarter 2 Month

随机推荐

默默忽略remove()

实体 A 引用多对一实体 B 具有从 B 到 A 的反向映射引用此外还存在 A 到 C 的引用以及 C 到 A 的反向引用当我发出entityManager remove A 然后flush 时不会生成删除但也没有例外
ld：找不到 AudioUnit 框架

我正在添加另一个项目即使我添加了所需的所有库我也会收到此错误这是错误详细信息 Ld Users alialzahrani Library Developer Xcode DerivedData IMS3 ezltqoccjhjpvua
如何在 React.js 中预加载图像？

如何在 React js 中预加载图像我有下拉选择组件其工作方式类似于菜单但我必须预加载项目的图像图标因为有时它们在第一次打开时不可见我努力了 https github com sambernard react preload h
使用 xslt 从 xml 转换而来的平面文件中的行数

下面是我用来将 xml 转换为平面文件的 xsl 它还满足各种其他所需条件
iOS7 深色键盘和浅色键盘之间的切换

In iOS7 we have both a dark and a light keyboard Is it possible for me to change between these in my app by code textfie
当任何包含公式的单元格发生更改时触发宏

我有一个包含大约 50 个单元格包含公式的工作表这些单元格根据外部工作簿中的单元格而变化当这些单元格中的任何一个更改其值时我想触发某个宏 Worksheet change 事件不起作用并且 Worksheet Calculate
C# RichEditBox 性能极慢（加载 4 分钟）

The RichEditBoxC 中的控件我使用 VS 2005 性能较差我将包含 45 000 行彩色文本的 2 5 MB RTF 文件加载到控件中需要 4 分钟我将相同的 RTF 加载到 Windows XP 写字板的 RTF
Python Flask 从像 render_template 这样的变量渲染文本

我知道烧瓶功能render template 我必须给出模板的文件名但现在我想渲染模板的字符串即模板的内容这就说得通了但我现在不想解释原因如何简单地渲染模板的文本您可以使用render template string http
什么是滑动窗口算法？例子？

在解决几何问题时我遇到了一种称为滑动窗口算法的方法确实找不到任何学习材料详细信息该算法是关于什么的我认为它更多的是一种技术而不是算法这是一种可用于各种算法的技术我认为通过以下示例可以最好地理解该技术想象一下我们有这个数组 5
更改 div 与背景图像之间的 Flex 间距

hi i am remaking the google chrome home page but i cant seem to do the part at the bottom of the page were the most used
typeof 在 IE 中返回“未知”

我有一个窗口在关闭之前我会刷新底层页面 if opener typeof opener Refresh undefined opener Refresh 如果我离开原来的打开页面这段代码会抛出一个没有权限 error 调试代码发现ty
如何在禁用状态下自定义 mat-form-field

我正在尝试自定义角度材料 mat form field 我可以使用以下命令自定义下划线边框 ng deep mat form field ripple background color yellow 现在我正在尝试将禁用状态下的下划线边框自
从其他线程访问 VT 数据是否安全？

从辅助线程更改 Virtual TreeView 数据是否安全如果是我应该使用关键部分甚至是同步方法吗我担心当我从另一个线程写入 VT 的数据记录时主线程同时调用其重绘并且此刷新将导致同时读取同一记录我想补充一下我在应用程
为评估为 true 的 IN 条件元素设置限制

table t Id price Date 1 30 2021 05 09 1 24 2021 04 26 1 33 2021 04 13 2 36 2021 04 18 3 15 2021 04 04 3 33
生成具有总和约束的排列

I have n可变长度的集合并希望从每个集合中获取总和在一定范围内的所有项目排列例如在R我们可以做的 set1 lt c 10 15 20 set2 lt c 8 9 set3 lt c 1 2 3 4 permutations lt
在 Jupyter 中可视化 TensorFlow 图的简单方法？

可视化 TensorFlow 图的官方方法是使用 TensorBoard 但有时我只是想在使用 Jupyter 时快速浏览一下图是否有一个快速的解决方案最好基于 TensorFlow 工具或标准 SciPy 包如 matplotlib
在 Meteor 中使用 jQuery 插件

我一直在尝试向 Meteor 添加 jQuery 插件但 Meteor 拒绝让该插件在客户端工作例子是我有这个插件它允许我随机播放一堆名为jQuery 随机播放 https vestride github io Shuffle 但是当
ant 无法导入 R.java

我正在开发一个 ant 构建文件独立于 Eclipse 来构建我的 Android 应用程序我需要生成 R java 文件然而当它尝试从以下位置构建我的项目时我已经成功地完成了src它抱怨找不到导入的 R java 文件我看到它
JAX-WS Web 服务和 @rolesAllowed

是否可以使用 RolesAllowedJAX WS Web 服务上的注释如果是的话如何我在 glassfish 3 1 1 上有一个使用基本身份验证的网络服务但使用表达的限制 RolesAllowed被忽略角色信息应该可用因为我可
CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存

我正在尝试用一个窗口做一个中值滤波器x y where x and y是奇数和程序的参数我的想法是首先查看一个块中可以执行多少个线程以及有多少共享内存可用如下所示 void cudaInit int imgX int imgY in

CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存

CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存 的相关文章

随机推荐

热门标签

CUDA中的2D中值滤波：如何有效地将全局内存复制到共享内存的相关文章