Cuda Bayer/CFA 去马赛克示例

2024-04-13

我编写了一个 CUDA4 Bayer 去马赛克例程，但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢。
块大小是 (16,16)，图像暗淡是 16 的倍数 - 但更改此值并不会改善它。

我做了什么明显愚蠢的事情吗？

--------------- calling routine ------------------
uchar4 *d_output;
size_t num_bytes; 

cudaGraphicsMapResources(1, &cuda_pbo_resource, 0);    
cudaGraphicsResourceGetMappedPointer((void **)&d_output, &num_bytes, cuda_pbo_resource);

// Do the conversion, leave the result in the PBO fordisplay
kernel_wrapper( imageWidth, imageHeight, blockSize, gridSize, d_output );

cudaGraphicsUnmapResources(1, &cuda_pbo_resource, 0);

--------------- cuda -------------------------------
texture<uchar, 2, cudaReadModeElementType> tex;
cudaArray *d_imageArray = 0;

__global__ void convertGRBG(uchar4 *d_output, uint width, uint height)
{
    uint x = __umul24(blockIdx.x, blockDim.x) + threadIdx.x;
    uint y = __umul24(blockIdx.y, blockDim.y) + threadIdx.y;
    uint i = __umul24(y, width) + x;

    // input is GR/BG output is BGRA
    if ((x < width) && (y < height)) {

        if ( y & 0x01 ) {
            if ( x & 0x01 ) {  
                d_output[i].x =  (tex2D(tex,x+1,y)+tex2D(tex,x-1,y))/2;  // B                
                d_output[i].y = (tex2D(tex,x,y));     // G in B
                d_output[i].z = (tex2D(tex,x,y+1)+tex2D(tex,x,y-1))/2;  // R                    
            } else {
                d_output[i].x = (tex2D(tex,x,y));        //B
                d_output[i].y = (tex2D(tex,x+1,y) + tex2D(tex,x-1,y)+tex2D(tex,x,y+1)+tex2D(tex,x,y-1))/4;  // G
                d_output[i].z = (tex2D(tex,x+1,y+1) + tex2D(tex,x+1,y-1)+tex2D(tex,x-1,y+1)+tex2D(tex,x-1,y-1))/4;   // R
            }
        } else {
            if ( x & 0x01 ) {
                 // odd col = R
                d_output[i].y = (tex2D(tex,x+1,y+1) + tex2D(tex,x+1,y-1)+tex2D(tex,x-1,y+1)+tex2D(tex,x-1,y-1))/4;  // B
                d_output[i].z = (tex2D(tex,x,y));        //R
                d_output[i].y = (tex2D(tex,x+1,y) + tex2D(tex,x-1,y)+tex2D(tex,x,y+1)+tex2D(tex,x,y-1))/4;  // G    
            } else {    
                d_output[i].x = (tex2D(tex,x,y+1)+tex2D(tex,x,y-1))/2;  // B
                d_output[i].y = (tex2D(tex,x,y));               // G  in R               
                d_output[i].z = (tex2D(tex,x+1,y)+tex2D(tex,x-1,y))/2;  // R                    
            }
        }                                
    }
}



void initTexture(int imageWidth, int imageHeight, uchar *imagedata)
{

    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(8, 0, 0, 0, cudaChannelFormatKindUnsigned);
    cutilSafeCall( cudaMallocArray(&d_imageArray, &channelDesc, imageWidth, imageHeight) ); 
    uint size = imageWidth * imageHeight * sizeof(uchar);
    cutilSafeCall( cudaMemcpyToArray(d_imageArray, 0, 0, imagedata, size, cudaMemcpyHostToDevice) );
    cutFree(imagedata);

    // bind array to texture reference with point sampling
    tex.addressMode[0] = cudaAddressModeClamp;
    tex.addressMode[1] = cudaAddressModeClamp;
    tex.filterMode = cudaFilterModePoint;
    tex.normalized = false; 

    cutilSafeCall( cudaBindTextureToArray(tex, d_imageArray) );
}

您的代码中没有任何明显的错误，但有几个明显的性能机会：

1) 为了获得最佳性能，您应该使用纹理暂存到共享内存中 - 请参阅“SobelFilter”SDK 示例。

2) 正如所写的，代码正在将字节写入全局内存，这肯定会造成很大的性能损失。在将结果提交到全局内存之前，您可以使用共享内存来暂存结果。

3) 以与硬件纹理缓存属性相匹配的方式调整块大小具有令人惊讶的巨大性能优势。在 Tesla 级硬件上，使用与内核相同的寻址方案的内核的最佳块大小是 16x4。（每块 64 个线程）

对于这样的工作负载，可能很难与优化的 CPU 代码竞争。 SSE2 可以在一条指令中执行 16 字节大小的操作，CPU 的时钟速度大约是原来的 5 倍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

image

CUDA

Cuda Bayer/CFA 去马赛克示例的相关文章

是否存在比 SVN 更快的集中版本控制？

我已经使用 SVN 很长时间了现在我们正在尝试使用 Git 我在这里谈论的不是中心化去中心化的争论我唯一关心的是速度后一个工具要快得多但有时我需要使用一种集中式方法这种方法比分散式方法更简单更简单学习曲线非常快这节省了大
在python中将二维数组转换为彩色图像

我有这样的二维整数列表 list1 1 30 50 21 45 9 97 321 100 接下来我将把它转换为 numpy 数组 myarr np asarray list1 接下来我将使用 PIL 将其转换为图像如下所示 img Ima
加快写入文件的速度

我已经分析了一些我用 cProfile 继承的遗留代码我已经做了很多有帮助的更改例如使用 simplejson 的 C 扩展基本上该脚本将数据从一个系统导出到 ASCII 固定宽度文件每一行都是一条记录并且有许多值每行有 71
图像上的文字

是否可以在 php 中动态地将文本放置在图像上然后将其发送到 rss feed 是的可以使用GD http www php net gd函数或图像魔术师 http www php net imagemagick功能具体取决于您的服务器
性能计数器的性能影响是什么

当考虑使用性能计数器作为我公司的基于 NET 的站点时我想知道使用它们的开销有多大我是否想让我的网站不断更新其计数器或者我最好只在测量时更新设置性能计数器的开销通常不够高无需担心设置共享内存区域和一些 NET 对象以及 CLR
在TImageViewer中，如何获取用户点击图片的位置？

在TImageViewer控件中用户可以缩放或平移图片我的问题是当用户点击图片时如何获取用户在图片上的点击位置尤其是用户可以对图片进行放大缩小或平移之后如何获取对应的图片点击位置呢 As shown below How to
字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
有没有办法分析 WCF 应用程序的性能？

我们正在尝试测量我们的系统的性能该系统是一个使用 WCF 调用的 NET 3 5 应用程序问题是到目前为止我们无法分析这些调用中的方法编写了一个 winforms 客户端应用程序来测试我们的系统我们尝试使用ANTS 4 Profi
C# 代码上的 ImageURL 不显示图像

我在 aspx 页面上有图像
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它
如何使网页中出现的图标闪烁/闪烁

几天前我开始研究高级java 我知道太晚了我被困在使图标出现在任务栏上闪烁的特定任务上这种闪烁应该根据特定条件发生这意味着可以使用以下方法来实现javascript 我已经搜索了一段时间了但是有没有办法让图标每隔 1 秒左右出现
为什么 System.nanoTime() 比 System.currentTimeMillis() 慢（性能）？

今天我做了一个快速基准测试来测试速度性能System nanoTime and System currentTimeMillis long startTime System nanoTime for int i 0 i lt 1000000
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
在所有浏览器中启用我的网站的平滑滚动

我正在开发一个视差滚动网站Stellar http markdalgleish com projects stellar js and Skrollr https github com Prinzhorn skrollr图书馆该网站在 F
在Android内存中存储gif图像

我对安卓还很陌生我想将图像保存到内存中然后从内存中检索图像并将其加载到图像视图中我已使用以下代码成功将图像存储在内存中 void saveImage String fileName img cnt jpg File file new
将图像列保存到 SQL Server 2000 中的文件

我在 SQL Server 2000 中有一个包含图像列的表我需要将图像数据保存到文件系统上的文件中在 SQL Server 2005 中我可以使用 ADODB Stream 对象进行文件 I O 但这在 SQL Server 200
linq2sql，存储库模式 - 如何从两个或多个表查询数据？

我使用存储库模式和 linq2sql 作为数据访问并拥有例如 ProductsRep 和 CustomersRep 在非常简单的场景中数据库有两个表产品产品 ID 客户 ID 产品名称日期和顾客客户 ID 名字姓氏每个存
如何使用 Perl CGI 脚本提供图像？

我的 Google fu 让我失望了如何使用 Perl 提供已生成的图像 Example img src getimage pl getimage pl 里有什么干得好 usr bin perl w my file inner nav

随机推荐

Kotlin - 在 Android 中转换 Singleton DatabaseController 的最佳方式

我正在通过 Kotlin in Action 学习 Kotlin 并且正在慢慢地将 Android 应用程序代码转换为它但我在转换下面的类时发现了一些问题 public class DatabaseController private s
VueJS：使用对象文字与返回对象的函数定义“数据”

定义之间有什么区别data对象可以通过以下方式 1 使用对象字面量 data title Helly VueJS 2 函数返回对象 data return title Helly VueJS 来自文档 https v2 vuejs org
如何使用 pyinstaller 创建最小大小的可执行文件？

我使用的是 Windows 10 安装了 anaconda 但我想使用 python 3 5 在一个新的干净的最小环境中独立创建一个可执行文件所以我做了一些测试测试1 我在文件夹 testenv 中创建了一个 python 脚本 te
在mysql中选择两个独立的表[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 results mysqli gt query SELECT product name price FROM herbs an WHERE
双倍的 Pow 实现

我正在开发一个用于运动控制的代码但我遇到了 pow 函数的问题我使用VS2010作为IDE 这是我的问题我有 double p 100 0000 double d 1000 0000 t1 pow p 8 0000 d 1 00 4
YouTube.Builder 的正确使用方法

我需要获取用户 YouTube 视频这是我的代码仅尝试获取用户 YouTube 频道但它不起作用选择帐户后加载Youtube频道总是抛出错误我读了这个answer https stackoverflow com a 214077
如何使用类库中的控制器？

我在类库中有控制器但我无法弄清楚如何让主项目识别它们主项目引用了我的类库我需要在某处注册它们吗我想同时使用控制器和 ApiController EDIT 路线配置创建项目后未更改 public class RouteConfig
在 swift 中将 UIImage 转换为 base64 字符串

我正在尝试将 UIImage 转换为 base64 字符串目的是将其上传到后端服务器然而我在这篇文章中找到的转换代码应该是Apple自己的实现生成了一个无效的字符串 UIImage 和 Base64 字符串之间的转换 https
Javafx程序可以通过GUI和命令行控制吗？

我正在使用 Javafx GUI 但我也需要来自命令行的相同级别的功能我想知道创建一个同时具有命令行和 Javafx 功能的主类的最佳方法是什么这样您就可以在 GUI 上做一件事然后在命令行上做下一件事命令行还会更新 GUI 显示
CSV 日期格式

我有一个 VB 应用程序它提取数据并创建 3 个 CSV 文件 a csv b csv c csv 然后我使用另一个 Excel 电子表格 import xls 将上述 CSV 文件中的所有数据导入到此工作表中 import xls 文件
使用 python 进行多元线性回归

我想用 python 计算多元线性回归我找到了这个简单线性回归的代码 import numpy as np from matplotlib pyplot import x np array 1 2 3 4 5 y np array 2 3
无法启动服务器。服务器实例未配置

在尝试为我的项目设置 tomcat 服务器时出现以下错误请参阅下面的完整堆栈跟踪 java lang ClassNotFoundException com springsource tcserver serviceability dep
libstdc++.so.6 与 cuda 相关的链接器问题

今天我在链接我编译的 cuda 内容时遇到了问题我有一个最新的 debian 测试 w 2 6 32 3 amd64 我整天都在写我的代码不时编译没有问题但在进行了较小的代码更改后我收到以下错误 gcc o pa CUDA o h
在 ASP.Net Core 2 MVC 中禁用模型验证的正确方法

使用扩展方法设置 MVC services AddMvc 然后在控制器中这也可能适用于 GET 使用主体中提供的参数创建 POST 操作的方法例如 HttpPost save public Entity Save FromBody En
如何在 php 中实现位掩码？

我不确定位掩码是否是正确的术语让我解释在 PHP 中 error reporting函数可以通过多种方式调用 Report simple running errors error reporting E ERROR E WARNING
Delphi：如何停止 TAction 快捷键自动重复？

我正在使用 Delphi TActionList 带有用于某些操作的快捷键我想防止某些操作被键盘自动重复多次触发但我确实这样做not想要影响全局自动重复操作这样做的最佳方法是什么澄清我仍然需要处理多个快速按键这是only我想忽略
如何使用扫描仪使该 switch 语句起作用？

我正在尝试编写一个程序将字母表中的任何字母大写或小写转换为拼音字母表例如如果我输入 A 或 a 我的程序会给我将其更改为 Alpha 我对此和 switch 语句做了很多研究但我总是陷入困境我意识到我不能在扫描仪中使用 ch
使用 chrome 进行 OfflineAudioContext FFT 分析

我正在尝试构建一个波形生成器它获取音频文件幅度值并在 JavaScript 中尽快比实时更快将它们显示到画布上所以我使用 OfflineAudioContext webkitOfflineAudioContext 加载文件并开始分析
如何更改 Linux 内核交换守护进程 (kswapd) 超时？

我想通过使用闪存 SSD 等快速设备作为交换设备来减少 kswapd 超时以提高性能您可以更改以下行为kswapd通过2种方式通过Proc文件系统 From IBM 开发者工作坊 http www ibm com developerwo
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou

Cuda Bayer/CFA 去马赛克示例

Cuda Bayer/CFA 去马赛克示例 的相关文章

随机推荐

热门标签

Cuda Bayer/CFA 去马赛克示例的相关文章