如何将 float* 数组绑定到 cuda 中的一维纹理？

2024-02-21

我试图了解如何通过将纹理内存绑定到线性设备数组（而不是 cudaArray）来使用它。我的代码很简单（如下）。我有一个包含 8 个数字的 float* 数组，我试图将其绑定到 1D 纹理，然后在我的内核函数中尝试读取纹理并将值放入输出数组中。但是当我运行此测试时，输出数组中的所有值均为零：

输入 = 0.000000 1.000000 2.000000 3.000000 4.000000 5.000000 6.000000 7.000000
输出 = 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000

我在这里缺少什么？

texture<float, 1, cudaReadModeElementType> texInput;

__global__ void copyKernel(float*output, int n) {
for (int i = 0; i < n; i++) {
    output[i] = tex1D(texInput, (float)i);
}
}

int main(int argc, char*argv[]) {

const int WIDTH = 8;

float* hInput = (float*)malloc(sizeof(float) * WIDTH);
float*hOutput = (float*)malloc(sizeof(float) * WIDTH);

for (int i = 0; i < WIDTH; i++) {
    hInput[i] = (float)i;
}

float* dInput = NULL, *dOutput = NULL;

size_t offset = 0;

texInput.addressMode[0] = cudaAddressModeBorder;
texInput.addressMode[1] = cudaAddressModeBorder;
texInput.filterMode = cudaFilterModePoint;
texInput.normalized = false;

checkCudaErrors(cudaMalloc((void**)&dInput, sizeof(float)*WIDTH));
checkCudaErrors(cudaMalloc((void**)&dOutput, sizeof(float)*WIDTH));

cudaMemcpy(dInput, hInput, sizeof(float)*WIDTH, cudaMemcpyHostToDevice);

cudaBindTexture(&offset, texInput, dInput, sizeof(float)*WIDTH);


copyKernel<<<1,1>>>(dOutput, WIDTH);

cudaMemcpy(hOutput, dOutput, sizeof(float)*WIDTH, cudaMemcpyDeviceToHost);
printf("\nInput = ");

for (int i = 0; i < WIDTH; i++) {
        printf("%f\t",hInput[i]);
    }
printf("\nOutput = ");
for (int i = 0; i < WIDTH; i++) {
    printf("%f\t",hOutput[i]);
}

return 0;
}

根据文档 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#texture-functions, tex1D()当底层分配是 CUDA 数组时使用。对于线性内存限制纹理，正确的纹理函数是tex1Dfetch().

对您的代码的修改（仅）使其对我有用：

$ cat t1139.cu
#include <stdio.h>
#include <helper_cuda.h>

texture<float, 1, cudaReadModeElementType> texInput;

__global__ void copyKernel(float*output, int n) {
for (int i = 0; i < n; i++) {
    output[i] = tex1Dfetch(texInput, i);
}
}

int main(int argc, char*argv[]) {

const int WIDTH = 8;

float* hInput = (float*)malloc(sizeof(float) * WIDTH);
float*hOutput = (float*)malloc(sizeof(float) * WIDTH);

for (int i = 0; i < WIDTH; i++) {
    hInput[i] = (float)i;
}

float* dInput = NULL, *dOutput = NULL;

size_t offset = 0;

texInput.addressMode[0] = cudaAddressModeBorder;
texInput.addressMode[1] = cudaAddressModeBorder;
texInput.filterMode = cudaFilterModePoint;
texInput.normalized = false;

checkCudaErrors(cudaMalloc((void**)&dInput, sizeof(float)*WIDTH));
checkCudaErrors(cudaMalloc((void**)&dOutput, sizeof(float)*WIDTH));

cudaMemcpy(dInput, hInput, sizeof(float)*WIDTH, cudaMemcpyHostToDevice);

cudaBindTexture(&offset, texInput, dInput, sizeof(float)*WIDTH);


copyKernel<<<1,1>>>(dOutput, WIDTH);

cudaMemcpy(hOutput, dOutput, sizeof(float)*WIDTH, cudaMemcpyDeviceToHost);
printf("\nInput = ");

for (int i = 0; i < WIDTH; i++) {
        printf("%f\t",hInput[i]);
    }
printf("\nOutput = ");
for (int i = 0; i < WIDTH; i++) {
    printf("%f\t",hOutput[i]);
}

return 0;
}
$ nvcc -I/usr/local/cuda/samples/common/inc t1139.cu -o t1139
$ cuda-memcheck ./t1139
========= CUDA-MEMCHECK

Input = 0.000000        1.000000        2.000000        3.000000        4.0000005.000000        6.000000        7.000000
Output = 0.000000       1.000000        2.000000        3.000000        4.0000005.000000        6.000000        7.000000        ========= ERROR SUMMARY: 0 errors
$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

如何将 float* 数组绑定到 cuda 中的一维纹理？的相关文章

使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不

随机推荐

窗口关闭时停止模式（Cocoa）

我当前正在使用以下代码显示模式窗口 NSApplication sharedApplication runModalForWindow mainWindow 但是当我关闭此窗口时其他窗口仍然处于非活动状态我如何运行stopModal使
在哪里可以找到 MATLAB 的形式语法？

我想编写一个词法分析器生成器将 MATLAB 语言的基本子集转换为 C C 等为了帮助我做到这一点我想找到一个包含 MATLAB 形式语法的文档花了一些时间调查这一点 Mathworks 似乎没有提供这一点有谁知道我在哪里可以找到
如何在 iOS 中验证美国或加拿大的邮政编码？

我想知道有什么方法可以验证美国或加拿大的邮政编码吗我尝试使用正则表达式就像美国一样 BOOL validateZip NSString candidate NSString emailRegex 5 4 ABCEGHJKLMNPRSTV
可以跳过幼儿园吗？

如果我知道某个值可能会在第一次遇到垃圾收集器时幸存下来是否有某种方法让 GHC 知道以便它可以直接将其分配到托儿所之外的某个地方例如如果我用一堆较小的部件建造一个大型结构我知道每个部件至少会持续到整个结构完成为止 In GHC 垃
Angular 6 材料 - 如何从 matDatepicker 获取日期和时间？

我的 html 中有这段代码
如何以编程方式设置 BIRT 报告的数据源？

我有一个连接到我们的测试数据库的 BIRT 报告在生产环境中我想提供一个由容器通过 jndi 提供的数据源如何以编程方式为给定报告设置数据源 IReportRunnable design birtEngine openReportDe
.NET Core 2.2 CORS 不允许请求

我已经检查了其他几个与此有关的线程但仍然无法弄清楚这一点我希望允许任何来源标头方法等访问我的 NET Core 2 2 API public void ConfigureServices IServiceCollection ser
python 如何解码http响应

我正在使用下面的代码登录并从 api 端点检索数据但响应似乎已编码我无法读取内容我正在使用请求 requests 0 0 1 import requests import json import os http proxy http
如何使用 Chartjs 绘制带有基于时间的 x 轴的单行彩色条

我有一些基于时间的数据我想要图形表示并希望使用 Chartjs 来绘制它数据如下所示 Time State 7am up 9am down 10 45am out 17 35 up 另外每个状态都有自己的颜色所以在使用条形图时
Laravel：PHPUnit 导致所有内容出现 404

我正在尝试使用 PHPUnit 为我的 Laravel 应用程序运行一些基本的单元测试然而所有 HTTP 请求都会返回 404 not find HTTP 状态代码因此我们在第一个障碍上失败了在互联网上搜寻后我找到了有关如何解决此
在 Java 中将 JSON 响应转换为字符串？

当我向 api 发出 API 请求时我收到 JSON 格式的响应当我这样做时我得到了这个System Out Println的响应 HTTP 1 1 200 OK Date Thu 04 Oct 2012 20 33 18 GMT Se
无法加载可部署 .jar 中的主类

我正在尝试构建一个可执行的 jar 并收到错误Error Could not find or load main class com company app Main 我已经重新启动了我的电脑并尝试清理这个项目我也尝试过使用
如何使用 Spring Boot 2.1 Webflux 定制 Netty？

我想在我的 Spring Boot Webflux 项目中自定义 Netty 在我的 POM 中我添加了 Spring Boot Webflux 和 Spring Boot Actuator 依赖项接下来我重写了 WebServerF
为什么在大多数用户代理默认样式表中
和
的字体大小比
小？

The default h5 and h6 章节标题 https www w3 org TR html5 rendering html sections and headingsHTML5 中的字体大小为0 83em and 0 67em
如何在 Web 服务调用中输入凭据（授权对象）？

我听从了建议此处提供 https stackoverflow com questions 14532299 how to design a soap call in matlab它就像一个魅力现在我正在连接到服务器并调用名为的方法获取功
如何在 PL/SQL 中以编程方式设置表名称？

我创建了以下简单的 PL SQL 存储过程示例来提出特定问题此过程将员工姓名和 ID 号插入到名为的表中employees 这下面解释 PROCEDURE hire employee emp id IN INTEGER name IN
导航抽屉中的 SeekBar

我想在导航抽屉中使用搜索栏基本上我需要左右滑动来设置搜索栏好吧你猜对了它会滑动导航抽屉我想做的是在聚焦时滑动搜索栏在未聚焦时滑动导航抽屉我该怎么做呢这是我设置项目时的代码我还没有设置搜索栏 private View onC
如何在 AMD/ATI GPU 上运行 TensorFlow？

读完本教程后https www tensorflow org guide using gpu https www tensorflow org guide using gpu我用这个简单的代码检查了 GPU 会话 import numpy
无法连接到远程 SQL 服务器

我的一个客户给了我一个完全合格的服务器名称 servername somedomain net尝试通过 VPN 连接到其 SQL Server 实例所以我尝试使用他们给我的用户名和密码没有运气我可以 ping 通但无法连接收到用户名
如何将 float* 数组绑定到 cuda 中的一维纹理？

我试图了解如何通过将纹理内存绑定到线性设备数组而不是 cudaArray 来使用它我的代码很简单如下我有一个包含 8 个数字的 float 数组我试图将其绑定到 1D 纹理然后在我的内核函数中尝试读取纹理并将值放入输出数组中但

如何将 float* 数组绑定到 cuda 中的一维纹理？

如何将 float* 数组绑定到 cuda 中的一维纹理？ 的相关文章

随机推荐

为什么在大多数用户代理默认样式表中 和 的字体大小比 小？ The default h5 and h6 章节标题 https www w3 org TR html5 rendering html sections and headingsHTML5 中的字体大小为0 83em and 0 67em

和

热门标签

如何将 float* 数组绑定到 cuda 中的一维纹理？的相关文章

为什么在大多数用户代理默认样式表中
和
的字体大小比
小？

The default h5 and h6 章节标题 https www w3 org TR html5 rendering html sections and headingsHTML5 中的字体大小为0 83em and 0 67em