3D 数组作为纹理在 CUDA 中写入和读取

2024-03-01

由于我正在编程的算法的性质，我需要用一些特定的数学写入/填充 3D 矩阵，然后从该矩阵（在单独的内核中）读取作为 3D 线性插值纹理。

由于纹理是一种读取模式，我假设我可以以某种方式在绑定到纹理的全局内存中写入，并从中单独读取，而不需要双倍内存并将值从写入复制到读取矩阵。但是我似乎不知道如何做到这一点。

如何使用 3D 纹理内存进行读取和写入（在单独的内核中）？

我的问题是我不知道如何定义这个全局读/写数组。在下面的示例中，我创建了一个 3D 纹理，但这是使用带有以下代码的代码cudaExtent and cudaArray。但我似乎无法使用这种类型在它们上书写，我似乎也无法使用创建它们float*或喜欢的。

我可能无法做到这一点并且需要memcpy中间的某个地方，但由于这些数组通常很大，我想节省内存。

示例代码（无法编译，但清楚地定义了我想要做的事情的结构）。默认使用 100x100x100 3D 内存，因为是的。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <cuda_runtime_api.h>
#include <cuda.h>

#define MAXTREADS 1024

cudaError_t addWithCuda(int *c, const int *a, const int *b, unsigned int size);
texture<float, cudaTextureType3D, cudaReadModeElementType> tex;

__global__ void readKernel(float* imageend )
{
    int indY = blockIdx.y * blockDim.y + threadIdx.y;
    int indX = blockIdx.x * blockDim.x + threadIdx.x;
    int indZ = blockIdx.z * blockDim.z + threadIdx.z;
    //Make sure we dont go out of bounds
    size_t idx = indZ * 100 * 100 + indY * 100 + indX;
    if (indX >= 100 | indY >= 100 | indZ >= 100)
        return;
    imageend[idx] = tex3D(tex, indX + 0.5, indY + 0.5, indZ + 0.5);

}
__global__ void writeKernel(float* imageaux){
    int indY = blockIdx.y * blockDim.y + threadIdx.y;
    int indX = blockIdx.x * blockDim.x + threadIdx.x;
    int indZ = blockIdx.z * blockDim.z + threadIdx.z;
    //Make sure we dont go out of bounds
    size_t idx = indZ * 100 * 100 + indY * 100 + indX;
    if (indX >= 100 | indY >= 100 | indZ >= 100)
        return;
    imageaux[idx] = (float)idx;

}
int main()
{

    cudaArray *d_image_aux= 0;
    const cudaExtent extent = make_cudaExtent(100, 100, 100);
    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
    cudaMalloc3DArray(&d_image_aux, &channelDesc, extent);

    // Configure texture options
    tex.normalized = false;
    tex.filterMode = cudaFilterModeLinear;
    tex.addressMode[0] = cudaAddressModeBorder;
    tex.addressMode[1] = cudaAddressModeBorder;
    tex.addressMode[2] = cudaAddressModeBorder;

    cudaBindTextureToArray(tex, d_image_aux, channelDesc);

    float *d_image_end = 0;
    size_t num_bytes = 100 * 100 * 100 * sizeof(float);
    cudaMalloc((void**)&d_image_end, num_bytes);
    cudaMemset(d_image_end, 0, num_bytes);

    int divx, divy, divz; //Irrelevant for the demo, important for the main code
    divx = 32;
    divy = 32;
    divz = 1;
    dim3 grid((100 + divx - 1) / divx,
        (100 + divy - 1) / divy,
        (100 + divz - 1) / divz);
    dim3 block(divx, divy, divz);

    // Kernels
    writeKernel << <grid, block >> >(d_image_aux);
    readKernel  << <grid, block >> >(d_image_end);


    cudaUnbindTexture(tex);
    cudaFree(d_image_aux);
    cudaFree(d_image_end);

    return 0;
}

NOTE:我知道我不能写“插值”或其他任何内容。写入操作将始终采用整数索引，而读取操作则需要使用三线性插值。

我相信所有必要的部分都可以演示内核写入 3D 表面（绑定到底层 3D cudaArray），然后是来自相同数据（绑定到相同底层 3D 的 3D 纹理）的另一个内核纹理（即自动插值） cudaArray）包含在体积过滤 CUDA 示例代码 http://docs.nvidia.com/cuda/cuda-samples/index.html#volumetric-filtering-with-3d-textures-and-surface-writes.

唯一的概念差异是示例代码有 2 个不同的底层 3D cudaArray（一个用于纹理，一个用于表面），但我们可以将它们组合起来，以便随后在纹理操作期间读取写入表面的数据。

这是一个完整的示例：

$ cat texsurf.cu
#include <stdio.h>
#include <helper_cuda.h>

texture<float, cudaTextureType3D, cudaReadModeElementType>  volumeTexIn;
surface<void,  3>                                    volumeTexOut;

__global__ void
surf_write(float *data,cudaExtent volumeSize)
{
    int x = blockIdx.x*blockDim.x + threadIdx.x;
    int y = blockIdx.y*blockDim.y + threadIdx.y;
    int z = blockIdx.z*blockDim.z + threadIdx.z;

    if (x >= volumeSize.width || y >= volumeSize.height || z >= volumeSize.depth)
    {
        return;
    }
    float output = data[z*(volumeSize.width*volumeSize.height)+y*(volumeSize.width)+x];
    // surface writes need byte offsets for x!
    surf3Dwrite(output,volumeTexOut,x * sizeof(float),y,z);

}

__global__ void
tex_read(float x, float y, float z){
    printf("x: %f, y: %f, z:%f, val: %f\n", x,y,z,tex3D(volumeTexIn,x,y,z));
}

void runtest(float *data, cudaExtent vol, float x, float y, float z)
{
    // create 3D array
    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
    cudaArray_t content;
    checkCudaErrors(cudaMalloc3DArray(&content, &channelDesc, vol, cudaArraySurfaceLoadStore));

    // copy data to device
    float *d_data;
    checkCudaErrors(cudaMalloc(&d_data, vol.width*vol.height*vol.depth*sizeof(float)));
    checkCudaErrors(cudaMemcpy(d_data, data, vol.width*vol.height*vol.depth*sizeof(float), cudaMemcpyHostToDevice));

    dim3 blockSize(8,8,8);
    dim3 gridSize((vol.width+7)/8,(vol.height+7)/8,(vol.depth+7)/8);
    volumeTexIn.filterMode     = cudaFilterModeLinear;
    checkCudaErrors(cudaBindSurfaceToArray(volumeTexOut,content));
    surf_write<<<gridSize, blockSize>>>(d_data, vol);
    // bind array to 3D texture
    checkCudaErrors(cudaBindTextureToArray(volumeTexIn, content));
    tex_read<<<1,1>>>(x, y, z);
    checkCudaErrors(cudaDeviceSynchronize());
    cudaFreeArray(content);
    cudaFree(d_data);
    return;
}

int main(){
   const int dim = 8;
   float *data = (float *)malloc(dim*dim*dim*sizeof(float));
   for (int z = 0; z < dim; z++)
     for (int y = 0; y < dim; y++)
       for (int x = 0; x < dim; x++)
         data[z*dim*dim+y*dim+x] = z*100+y*10+x;
   cudaExtent vol = {dim,dim,dim};
   runtest(data, vol, 1.5, 1.5, 1.5);
   runtest(data, vol, 1.6, 1.6, 1.6);
   return 0;
}


$ nvcc -I/usr/local/cuda/samples/common/inc texsurf.cu -o texsurf
$ cuda-memcheck ./texsurf
========= CUDA-MEMCHECK
x: 1.500000, y: 1.500000, z:1.500000, val: 111.000000
x: 1.600000, y: 1.600000, z:1.600000, val: 122.234375
========= ERROR SUMMARY: 0 errors
$

我不会尝试在这里提供有关线性纹理过滤的完整教程。这里还有很多其他示例问题，涵盖了索引和过滤的细节，但这似乎不是这个问题的关键。我选择了点 (1.5, 1.5, 1.5) 和 (1.6, 1.6, 1.6) 以便于验证基础数据；结果对我来说很有意义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

3D 数组作为纹理在 CUDA 中写入和读取的相关文章

适用于 Windows 的免费内存调试器？ [复制]

这个问题在这里已经有答案了可能的重复有 Windows 的良好 Valgrind 替代品吗 https stackoverflow com questions 413477 is there a good valgrind substi
在 C++ 中将惰性生成器实现为forward_iterator

MyGenerator 表示可能有限的整数序列计算成本很高所以我不想预先生成它们并将它们放入容器中 struct MyGenerator bool HasNext int Next 要打印全部 MyGenerator generat
删除行时 QModelIndex 变得无效

我正在子类化QAbstractItemModel显示项目QTreeView 并且在这个子类中 projectModel 我有一个功能可以删除树视图中当前选定的索引 Component是用于表示模型所有成员的类 void projectMod
易失性限定符是否会取消该内存的缓存？

在本文中 http www drdobbs com parallel 易失性 vs 易失性 212701484 pgno 2 http www drdobbs com parallel volatile vs volatile 212701
方法参数数组默认值[重复]

这个问题在这里已经有答案了在 C 中可以在方法中使用默认参数值例如 public void SomeMethod String someString string value Debug WriteLine someString 但现
为什么零长度 stackalloc 会让 C# 编译器乐意允许条件 stackalloc？

下面的修复让我很困惑这里的场景是根据大小有条件地决定是否使用堆栈还是租用缓冲区然而这是一个相当小众但有时必要的优化使用明显实现数字 3 推迟明确的分配直到我们真正想要分配它编译器抱怨 CS8353 类型为 Span 的
如何在Unity中集成xAPI / TinCan

我是 xAPI TinCan API 的新手所以我的问题可能有点笼统但到目前为止我还没有找到任何可以帮助我的东西我认为可以将 xAPI 集成到 Unity 项目游戏或模拟中但我到底该怎么做呢我可以阅读有关 xAPI 和 Uni
如何将类成员函数的返回类型设置为私有结构的对象

很抱歉这个又长又令人困惑的标题但我想不出更好的方法来问这个问题所以我有一堂课 template
了解带有位移位的右移运算符

我很难理解右移运算符我理解左移假设我们没有 int n 11 which is 1011 现在如果我们左移它n lt lt 1结果是 int a n lt lt 1 so a 10110 simply add a 0 to the en
如何在asp.net core中以强类型方式获取资源字符串？

在下面的程序中为了获取资源字符串我使用 localizer About Title 其中 About Title 是一个魔术字符串如何避免使用这样的字符串有没有强类型的方法 using Microsoft AspNetCore Mv
使用实体框架如何在没有一个庞大查询结果集或数百个小型查询的情况下创建嵌套对象？

我使用 EF 填充对象然后在业务层代码中与之交互这些对象有多个级别但我们首先将其简化为典型的主从示例Order and OrderLine 假设我需要检索 50 个订单每个订单大约有 100 个订单行并且我需要所有这些数据在 E
具有 C++ 客户端和 C# 后端的协议缓冲区？

如何通过 HTTP 或等效的 Web 服务将 C 后端与 C 前端连接起来这里分为三个部分服务器听起来像 C 客户端听起来像 C 和传输将它们分开并从最重要的开始传输这里的重大决定是您希望数据采用什么形状您提到了协议缓冲区
如何以编程方式停止/退出/终止 dotnet core HostBuilder 控制台应用程序？

我正在尝试创建一个 dotnet 核心控制台应用程序该应用程序是一个简单的实用程序应用程序应该启动执行其操作并退出使用 Visual Studio 生成的标准控制台应用程序模板可以轻松实现但现在我们有了 HostBuilder 它
为什么我可以使用 ret 退出 main？

我即将弄清楚程序堆栈到底是如何设置的我了解到用以下方式调用该函数 call pointer 实际上等同于 mov register pc programcounter add register 1 where 1 is one instr
strstr() 函数类似，忽略大小写

我有两根弦可以说 str1 One Two Three and str2 two 我想知道是否有任何函数可以检查第一个字符串中第二个字符串的匹配并返回指向第一个字符串的指针例如strstr 但它不会将相同的字母大写或小写视为两个不
如何将 Ctrl+,（control 加逗号）指定为 WPF 菜单项的键盘快捷键？

Question I would like to assign the keyboard shortcut Ctrl control plus comma to the Preferences menu item How do I do t
在 g++ 中链接文件

最近我尝试用g 在Ubuntu上编译一个程序通常我使用 Dev C 在 Windows 上只要我创建一个项目并将所有必要的文件放入其中它就可以正常工作编译程序时出现的错误是 filename cpp undefined refer
‘+= new EventHandler’和‘-= new EventHandler(anEvent)’之间的区别

我看到一些代码使用新的事件处理程序 anEvent 你能告诉我有什么不同吗新的事件处理程序 Thanks 一个将委托添加到订阅者集合中另一个将其删除例如如果您之前订阅了某个事件但您希望在关闭表单时删除引用则可以使用版本您将
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
为什么/何时将运算符指定为显式很重要？

我借用了下面的代码另一个问题 https stackoverflow com a 7305947 93394 稍作修改在我的代码中使用 internal class PositiveDouble private double value

随机推荐

与 java 一起使用的最佳数学库是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
组合两个相等链表的转轮技术

所以我在这里面临着一个疑问我正在读破解编码面试一书那里写着下面的文字假设你有一个链表a1 gt a2 gt an gt b1 gt b2 bn 并且您想将其重新排列为a1 gt b1 gt a2 gt b2 gt an gt b
如何删除mongodb中的深层嵌套对象

假设我有一个代表这样的书籍的文档 id 1234567890 title Lord Of The Rings books 1234567890 id 123456789890 title The Two Towers page count
如何更改 wcf 客户端中的时间戳安全标头？

我正在尝试修改安全标头的默认过期时间即 5 分钟到 1 分钟服务器的安全策略之一是时间戳请求的日期生存时间为一分钟任何想法我尝试创建自定义绑定但没有成功
ActiveAdmin 中的格式提示问题（不需要的对象 ID 输出）

当我使用 formattastic DSL 进行 ActiveAdmin 编辑表单时我得到以下输出 0x00000006bd1018 gt 图片标签 gt 为什么这从 obj inspect 的结果开始以及如何删除这部分导致此错误的代码
如何正确使用范围 https://www.googleapis.com/auth/drive.file

我尝试使用以下代码访问我的 Google 云端硬盘中的 Google 表格文件 import gspread from oauth2client service account import ServiceAccountCredential
我的 UITableViewController 中的内存泄漏在哪里？

表视图工作正常但是当我离开视图并第二次返回时出现内存泄漏可能 viewDidLoad 中的某些内容不确定我正在运行泄漏工具并收到以下通知 Leaked Object Address Size Responsible Library
在PyQt中，如何将终端嵌入到窗口中？

我有一个小脚本旨在将 xterm 嵌入 PyQt GUI 中在 Linux 上它可以工作创建一个如下所示的 GUI 然而在 OS X 上运行相同的脚本会产生两个如下所示的窗口有谁知道如何解决这个问题并防止 OS X 搞砸 GUI
我应该将变量保留为瞬态吗？

我一直在尝试使用 Apache Spark 来解决一些查询例如 top k skyline 等我做了一个包装纸其中包含SparkConf and JavaSparkContext named SparkContext 这个类也实现了可
将标准输入和标准输出重定向到文件

我目前是一个学校的助教C语言简介班级该课程是使用 Visual Studio 进行教学的但是在评分时我只使用一个简单的 Windows 批处理脚本来处理所有提交的作业编译它们在测试文件上运行它们并将输出重定向到我可以打印的一系列
ListView获取滚动位置？

我正在使用 MergeAdapter 来自 Mark Murphy 的优秀项目系列您可以将它与 ListView 一起使用我试图在刷新时重建适配器的内容而不是就地刷新并调用notifyDataSetChange 我想获取列表视图的
在 R data.table 中，如何将变量参数传递给表达式？

我遇到了一个 R 小问题data table 非常感谢您的帮助我该怎么做呢 getResult lt function dt expr gby e lt substitute expr b lt substitute gby return
使用 Excel VBA 重命名文件

这就是我需要做的我在 Excel 工作表中有这两列带文件名第一列包含当前文件名第二列包含我想要将文件重命名为的名称我需要使用它因为重命名没有模式例如下面可能是一组文件 Current Name gt Rename To Ab
Scala中如何从内部类引用外部对象

考虑这段代码这是一种类型安全单元 abstract class UnitsZone type ConcreteUnit lt AbstractUnit abstract class AbstractUnit val qty Int SOM
simplexml_load_file 不起作用

我下面有这段代码它在我的远程托管服务器上运行良好但由于某种原因不能在我的本地 Linux 机器上运行我也尝试使用 file get contents 来获得宁静的服务但它也返回 false 有谁知道为什么会发生这种情况谢谢 xml
使用“devtools::install_github”和克隆 GitHub 存储库有什么区别？

I used devtools install github 在 R 中安装存储库并使用以下命令安装了存储库git clone在终端这两条路线有什么区别到目前为止我明白我可以使用library package 在 R 中并将加载该
Angular 5中如何从父组件继承子组件中的CSS样式

我有一个父组件其中有一个子组件父组件有一些 css 类子组件扩展了它们我尝试使用 host 查看文档但似乎无法使其正常工作子组件 div class table row body div class table cell bod
对指针数组进行排序

我是否正确地认为为了对指针数组进行排序将指针视为 int 是可以的例如 qsort ptrs n sizeof void int cmp 我想对 ptr 进行排序以确定是否存在重复项而不管指针指向的类型是什么因此 qsort 是执
如何调用shell脚本来启动后端Java进程？

完成 Jenkins 任务后我使用 Jenkins 的后置条件配置部分执行 Linux shell 脚本这个 Linux shell 脚本想要在后端启动备用服务并且不能导致 Jenkins 暂停我尝试使用 nohup 等但不起作用
3D 数组作为纹理在 CUDA 中写入和读取

由于我正在编程的算法的性质我需要用一些特定的数学写入填充 3D 矩阵然后从该矩阵在单独的内核中读取作为 3D 线性插值纹理由于纹理是一种读取模式我假设我可以以某种方式在绑定到纹理的全局内存中写入并从中单独读取而不需要双倍内

3D 数组作为纹理在 CUDA 中写入和读取

3D 数组作为纹理在 CUDA 中写入和读取 的相关文章

随机推荐

热门标签

3D 数组作为纹理在 CUDA 中写入和读取的相关文章