CUDA 内核中的 2D 图像索引错误

2023-12-05

我正在使用 CUDA 对图像进行线性过滤。我使用 2D 线程块和 2D 网格来使问题变得自然。这是我的索引方式：(height and width是图像尺寸）

dim3 BlockDim(16,16);

dim3 GridDim;
GridDim.x = (width + 15) / 16;
GridDim.y = (height + 15) / 16;

在内核中我访问的位置如下：

unsigned int xIndex = blockIdx.x*16+ threadIdx.x;
unsigned int yIndex = blockIdx.y*16+ threadIdx.y;
unsigned int tid = yIndex * width + xIndex;

我想返回四个边界（稍后我会满足它们）。我这样做：

if(yIndex>=height-N || xIndex>=width-N || yIndex<N || xIndex<N)
  return;

其中 N 是我不想计算的每个边界处的像素数。

Problem:

该代码在所有标准图像尺寸上运行良好。但对于某些随机图像尺寸，它会显示对角线。例如，在我的例子中，500x333 图像（即使没有尺寸是 16 的倍数）显示正确的输出，而 450x365 在输出中显示对角线。即使我只返回网格的额外线程而没有其他类似的内容，问题仍然存在：

if(yIndex>=height || xIndex>=width)
return;

代码保持不变，一些输入运行良好，而另一些则不然。有人能发现这个错误吗？我在这里附上了输入和输出示例：IMAGES Thanks!

Update:

内核代码（简化为返回输入图像，但给出了相同的问题）

__global__ void filter_8u_c1_kernel(unsigned char* in, unsigned char* out, int width, int height, float* filter, int fSize)
{
    unsigned int xIndex = blockIdx.x*BLOCK_SIZE + threadIdx.x;
    unsigned int yIndex = blockIdx.y*BLOCK_SIZE + threadIdx.y;
    unsigned int tid = yIndex * width + xIndex;

    unsigned int N = filterSize/2;

    if(yIndex>=height-N || xIndex>=width-N || yIndex<N || xIndex<N)
        return;

       /*Filter code removed, still gives the same problem*/

    out[tid] = in[tid];
}

更新2：

我也删除了return通过反转声明if健康）状况。但问题仍然存在。

if(yIndex<=height-N && xIndex<=width-N && yIndex>N && xIndex>N){

  /*Kernel Code*/

}

您仍然没有很好地描述很多事情，但是根据您发布的信息，我构建了一个合理的重现案例，其参数与您所说的失败案例相匹配（450 x 364 和filterSize=5):

#include <stdio.h>
#include <assert.h>

template<int filterSize>
__global__ void filter_8u_c1_kernel(unsigned char* in, unsigned char* out, int width, int height, float* filter, int fSize)
{
    unsigned int xIndex = blockIdx.x*blockDim.x + threadIdx.x;
    unsigned int yIndex = blockIdx.y*blockDim.y + threadIdx.y;
    unsigned int tid = yIndex * width + xIndex;

    unsigned int N = filterSize/2;

    if(yIndex>=height-N || xIndex>=width-N || yIndex<N || xIndex<N)
        return;

    out[tid] = in[tid];
}

int main(void)
{
    const int width = 450, height = 365, filterSize=5;
    const size_t isize = sizeof(unsigned char) * size_t(width * height);
    unsigned char * _in, * _out, * out;

    assert( cudaMalloc((void **)&_in, isize) == cudaSuccess ); 
    assert( cudaMalloc((void **)&_out, isize) == cudaSuccess ); 
    assert( cudaMemset(_in, 'Z', isize) == cudaSuccess );
    assert( cudaMemset(_out, 'A', isize) == cudaSuccess );

    const dim3 BlockDim(16,16);
    dim3 GridDim;
    GridDim.x = (width + BlockDim.x - 1) / BlockDim.x;
    GridDim.y = (height + BlockDim.y - 1) / BlockDim.y;

    filter_8u_c1_kernel<filterSize><<<GridDim,BlockDim>>>(_in,_out,width,height,0,0);
    assert( cudaPeekAtLastError() == cudaSuccess );

    out = (unsigned char *)malloc(isize);
    assert( cudaMemcpy(out, _out, isize, cudaMemcpyDeviceToHost) == cudaSuccess);

    for(int i=0; i<width; i++) {
        fprintf(stdout, "%d: ", i);
        for(int j=0; j<height; j++) {
            unsigned int idx = i + j*width;
            fprintf(stdout, "%c", out[idx]);
        }
        fprintf(stdout, "\n");
    }

    return cudaThreadExit();
}

运行时，它完全符合我的预期，除了第一行和最后两行以及中间所有行中的第一个和最后两个条目之外，到处都用输入覆盖输出内存。它在 OS X 10.6.5 上使用 CUDA 3.2 和计算 1.2 GPU 运行。因此，无论您的代码中发生了什么，它都不会发生在我的重现案例中，这要么意味着我误解了您所写的内容，要么是您没有描述的其他内容导致了问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 内核中的 2D 图像索引错误的相关文章

CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h
如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

致命：远程错误：找不到存储库 octocat/myapp

我是第一次使用 Git 刚刚分叉了一个开源项目如下GitHub 的说明我可以在本地计算机上克隆我的分叉但在运行这些命令时出现错误 git remote add upstream git github com octocat myapp
区分数据库中的最新数据

我正在将数据存储在我的数据库中存储的数据如下所示 id upload month created at 1 January 2017 01 30 13 22 39 2 Febuary 2017 01 30 13 23 42 3 Janua
在 REPL 中使用对象时任务不可序列化

因此另一个问题促使我尝试以下操作 object Foo def f 1 sc parallelize List 1 map x gt val myF Foo f x myF 哪个有效但以下无效 object Foo def f 1 de
ASP.Net MVC 路由捕获所有 *.aspx 请求

This must之前曾被问过但读完后here here here and here我无法推断相关部分以使其发挥作用我正在将旧的 Web 表单站点改造成 MVC 并且想要捕获特定的传入 HTTP 请求以便我可以发出RedirectPe
按内部元素的数量对二维数组进行排序

如何按二维数组内部元素的长度对其进行排序内部元素的数量不相同 Example a 1 2 3 4 5 6 7 8 9 排序后数组变为 gt 4 5 6 7 2 3 8 9 1 该解决方案有效 a 1 2 3 4 5 6 7 8 9 a
表和存储过程的批量重命名

我需要重命名所有表存储过程显然还有每个存储过程中引用旧表名称的代码为什么这是最好的方法我考虑过的一些方法 SP Rename 完成了一半的工作然而这不会改变 SP 本身内的代码除了RedGates的Refactor之外我在这
React Native：React 导航 StackNavigator 不起作用。收到错误：“未定义不是对象（评估'this.props.navigation.navigate'）”

我正在尝试使用 React Navigation 和 StackNavigator 在我的应用程序中导航我有一个按钮onPress gt navigate DetailsScreen 我希望这能带我去DetailsScreen 但我收到以
iPhone 应用程序升级时强制重置 NSUserDefault

每当用户更新我的应用程序时我想强制重置为 NSUserDefault 为什么我需要这个因为每次更新都包含一些关于用户的新信息由于 NSUserDefault 中已经存在一些信息令牌我的应用程序不会调用我的网络服务因此我没有新的用
Python子进程和用户交互

我正在 Python 2 6 中开发 GUI 前端通常它相当简单你使用subprocess call or subprocess Popen 发出命令并等待其完成或对错误做出反应如果您的程序停止并等待用户交互您会怎么做例如程序可
升级 python 图像库 (PIL) 时，它告诉我“JPEG 支持不可用”

使用ubuntu 13 10 python 2 7 5 gt gt gt import imaging Image gt gt gt from PIL import Image ImageDraw ImageFilter ImageFont
从http内部函数返回数据

我在用着this and this参考从函数内的 http 请求返回数据 function getdetails id var datafordetails data1 item1 item2 data2 item3 ID id var
将项目视为邮件项目

我正在 Outlook 2016 中创建一个 VBA 应用程序它分析传入的电子邮件并获取其主题行来搜索重复或接近重复的主题行我使用 for each 循环来浏览项目列表收件箱中的电子邮件并分析每个项目的标准一旦需要回复传入的
R strptime 来自周数的星期一日期很奇怪

我在这里犯了一个小错误但无法集中精力找出问题所在我需要获取随机日期的星期一的日期似乎我得到了完全不同的东西 mydate lt date 2013 11 05 format mydate A this is Tuesday right
流畅和查询表达式——其中一种比另一种有什么好处吗？ [关闭]

Closed 这个问题是基于意见的目前不接受答案 LINQ 是自泛型以来对 NET 最伟大的改进之一它为我节省了大量的时间和代码行然而对我来说流畅的语法似乎比查询表达式语法更自然 var title entries Where e
强制 MS Access 检索所有列表框行并释放锁定

我有一个列表框其中 RowSource 绑定到附加的 SQL Server 表如果表很大 Access 不会加载完整的结果集而是创建服务器端游标并在列表框向下滚动时按需加载数据这是一个很好的功能因为它允许列表框和组合框快速显示
jquery validate：为错误消息添加淡入/淡出效果

我想为 jquery 验证上显示的错误消息添加淡入淡出效果有什么方法可以做到这一点我可以在它们上使用 div 并单独处理它们吗插件有这个效果吗我使用此代码来放置错误消息我需要它来正确放置 commentForm2 validat
NestJS TypeORM 模拟存储库的数据源

我正在尝试模拟一个存储库我不想进行实际的数据库调用我认为我正在关注 NestJS 的文档以及某些 stackoverflow 项目但是当我运行测试时出现以下错误 JwtStrategy validate throws an u
Java 7 支持的 JavaFx 应用程序未在 Mojave 上运行

我的申请支持 Jdk1 7 0 76 JavaFx2 2 76 b13 Netbeans IDE Ant 用于构建和创建安装程序在 Windows 和 Mac 上受支持它一直成功运行到 High Sierra 当我尝试跑步时 app莫哈
获取数据然后渲染到dom React

您好我正在从 api 获取数据我想获取数据并将其渲染到 dom 但出现错误 Uncaught TypeError Cannot read property map of undefined at Topicselect render 这
CUDA 内核中的 2D 图像索引错误

我正在使用 CUDA 对图像进行线性过滤我使用 2D 线程块和 2D 网格来使问题变得自然这是我的索引方式 height and width是图像尺寸 dim3 BlockDim 16 16 dim3 GridDim GridDim x

CUDA 内核中的 2D 图像索引错误

CUDA 内核中的 2D 图像索引错误 的相关文章

随机推荐

热门标签

CUDA 内核中的 2D 图像索引错误的相关文章