cudaMemset 在 device 变量上失败

2023-11-29

我使用时遇到问题cudaMemset在设备变量上。是否可以使用对设备变量的引用cudaMemset，或者只是缺少编译器标志或库的问题。我正在使用 cuda 4.1，并且

NVRM 版本：NVIDIA UNIX x86_64 内核模块 285.05.33 周四 1 月 19 日 2012 年太平洋标准时间 14:07:02

这是我的示例代码：

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>

// device variable and kernel
__device__ float d_test;

int main() {

  if (cudaMemset(&d_test,0,sizeof(float)) !=cudaSuccess)
        printf("Error!\n");
}

其输出：

Error!

你的问题是d_test（如主机符号表中所示）不是有效的设备地址，运行时无法直接访问它。解决方案是使用cudaGetSymbolAddressAPI函数用于在运行时从上下文中读取设备符号的地址。这是演示案例的稍微扩展版本，它应该可以正常工作：

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>

// device variable and kernel
__device__ float d_test;

inline void gpuAssert(cudaError_t code, char * file, int line, bool Abort=true)
{
    if (code != cudaSuccess) {
        fprintf(stderr, "GPUassert: %s %s %d\n", cudaGetErrorString(code),file,line);
        if (Abort) exit(code);
    }       
}

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }

int main()
{

    float * _d_test;

    gpuErrchk( cudaFree(0) );
    gpuErrchk( cudaGetSymbolAddress((void **)&_d_test, "d_test") );
    gpuErrchk( cudaMemset(_d_test,0,sizeof(float)) );

    gpuErrchk( cudaThreadExit() );

    return 0;
}

这里，我们读取设备符号的地址d_test从上下文到主机指针_d_test。然后可以将其传递给主机端 API 函数，例如cudaMemset, cudaMemcpy, etc.

编辑要注意的形式cudaGetSymbolAddress此答案中显示的内容已被弃用并从 CUDA 运行时 API 中删除。对于现代 CUDA，调用将是：

gpuErrchk( cudaGetSymbolAddress((void **)&_d_test, d_test) );

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudaMemset 在 device 变量上失败的相关文章

CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
CUDA 的嵌套循环

我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
一维纹理内存访问比一维全局内存访问更快吗？

我正在测量标准纹理和 1Dtexture 内存访问之间的差异为此我创建了两个内核 global void texture1D float doarray int size int index calculate each thread
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl
为什么 CUDA 内存复制速度会这样，有一些恒定的驱动程序开销？

在我的旧 GeForce 8800GT 上使用 CUDA 内存时我总是会遇到奇怪的 0 04 毫秒开销我需要将 1 2K 传输到设备的常量内存中处理其中的数据并从设备中仅获取一个浮点值我有一个使用 GPU 计算的典型代码 alloc
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024
fork后CUDA初始化错误

调用 fork 后出现初始化错误如果我在没有 fork 的情况下运行相同的程序则一切正常 if fork 0 cudaMalloc 什么会导致这种情况呢下面是一个完整的示例如果我注释掉 cudaGetDeviceCount 调用
嵌套循环中数组的二维累积和——CUDA实现？

我一直在考虑如何使用归约在 CUDA 上执行此操作但我对如何完成它有点不知所措 C 代码如下要记住的重要部分变量预先计算的值依赖于取决于both循环迭代器另外变量ngo并不是每个值都是唯一的m 例如m 0 1 2 可能有ngo 1
CUDA 中的合作组

自 CUDA 9 发布以来显然可以将不同的线程和块分组到同一组中以便您可以一起管理它们这对我来说非常有用因为我需要启动一个包含多个块的内核并等待所有块都同步 cudaThreadSynchronize 对我来说不值得因为在线程同步
如何知道应该使用哪个 cuDNN 版本？

我计划在 Linux 上使用 cuDNN 如何知道我需要哪个 cuDNN 版本我应该始终使用最新的吗例如选择正确的 CUDA 版本依赖于取决于 https stackoverflow com a 30820690 395857Nvid

随机推荐

sqlsrv_query 是否限制一个查询中可以执行的语句数量？

我正在生成一个 SQLinsertPHP 中的语句for loop 生成的 SQL 字符串是大量单独的 SQL 语句如下所示 INSERT INTO tbl VALUES 1 2 3 INSERT INTO tbl VALUES 4 5
NHibernate 如何将交叉引用表映射到包？

我最近继承了一个包含 NHibernate 的工作项目我对它非常陌生必须对其中一个映射进行修改我已阅读文档here我仍然不确定如何做到这一点或者我的理解术语是否正确因此鉴于以下表结构我需要一个包来获取 ProjectName
需要另一个帮助才能在屏幕上动态显示文本

现在我使用 d3 js 遇到了第二个问题我自己无法解决我得到了一个动态数组路径当我点击时其长度总是会改变然后我在 svg 的起始位置 112 490 得到了一个文本变量在你们的帮助下我现在使用 for 循环根据控制台上的
为什么当 Java 执行 Windows 批处理文件时，它们没有被处理？

我有 2 个文件夹每个文件夹包含数十个批处理文件 bat 包含类似于以下任一文本的批处理文件 del f q F MEDIA IMAGE99 2010 270 z 4034 123 tif gt nul del f q F MEDIA I
如何解释机器学习模型的损失和准确性[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案当我使用 Theano 或 Tensorflow 训练我的神经网络时它们会报告每个时期的一个名为损失的变量我应该如何解释这个变量损失越高越好或越差或者它对我的神经网络的最
以安全的方式使用docker的远程API

我正在尝试找到一种有效的方法来安全地使用 docker 远程 API 我有一个在远程主机上运行的 docker 守护进程以及在另一台机器上运行的 docker 客户端我需要我的解决方案不依赖于客户端服务器操作系统以便它与任何具有 d
Python 有包/模块管理系统吗？

Python 是否有包模块管理系统类似于 Ruby 有 ruby gems 您可以这样做gem install packagename On 安装Python模块我只看到引用python setup py install 但这需要您先
SimpleXML/PHP - 无法访问对象

tmp2
如何确定对象是否是 PySpark 中的有效键值对

如果我有一个 rdd 我如何理解数据在 key value 中格式有没有办法找到相同的东西就像 type object 告诉我对象的类型我试过print type rdd take 1 但它只是说
执行处理器“org.thymeleaf.spring5.processor.SpringInputGeneralFieldTagProcessor”期间出错（模板：“index” - 第 93 行，第 69 栏）

我的主页上有一个注册表单当我尝试加载主页时出现错误 Error during execution of processor org thymeleaf spring5 processor SpringInputGeneralFieldTa
我什么时候应该在 tkInter for python 中使用 root.update()

我是 tkinter 的新手有时当我从github上读取代码时它包含这样的代码root update 当我搜索 tkinter 的文档时我通常会找到每个小部件的方法列表但找不到Tk 根对象本身另外通常当我为每个小部件设置配置时
如何修复用于“google-cloud/translate”的模块nodeJS“googleauth.js”的“child_process”和“fs”依赖关系

我想使用模块 nodejs google cloud translate 但找不到一些依赖项 Windows 10 和 ubuntu 上也有同样的问题我正在使用 nuxtjs 2 5 1 谢谢你帮助我我尝试使用文档安装该包 https
为什么“外部”存储类的功能不同？

下面的代码片段工作正常 extern int i int i int main return 0 我得到的是 i 被声明然后定义由于只有一个定义所以完全没问题 int main extern int i int i return 0 现
AS3/AIR：如果手机使用纵向，如果平板电脑使用横向？

好的我自己编写了一个简单的 DeviceCapabilites 类以便能够检查设备是否是手机或平板电脑等但我需要能够说如果用户使用手机它应该处于纵向模式如果在平板电脑上我只想使用横向模式有什么想法吗编辑为了清楚起见我想在
建立多态关联

我正在尝试向我的网站添加以下之类的功能但我无法找到使用多态关联的正确方法用户需要能够关注 3 个不同的类别这 3 个类别不会关注用户我过去曾创建过一个跟随用户的用户但事实证明这更加困难我的迁移是 class CreateRe
更改金额后 PayPal React 显示额外按钮

没有react paypal button v2 有60 KB的开销类似问题here但他们建议反应贝宝按钮 v2 我正在尝试制作一个 React PayPal 按钮来更改道具更改的计费金额我用道具价格调用以下组件每次价格变化时我想重新
python递归返回None类型[重复]

这个问题在这里已经有答案了没看懂怎么退货List代替None class foo def recursion aList if isGoal aList 1 return aList for item in anotherList ne
SQLPlus 尝试删除包两次

在 SQLPlus 中执行脚本时我遇到了一个问题 script sql 包含以下行 some pkg pks some pkg pkb drop package some pkg 打电话后 gt sqlplus 用户密码 dbname s
在 Windows 上构建支持 SSL 的 libcurl

我在 Win32 C 应用程序中使用 libcurl 我已将curlib vcproj 项目添加到我的解决方案中并将其他项目设置为依赖于它如何在启用 SSL 支持的情况下构建它这个答案已经过时了请参阅此处的实际指南https cur
cudaMemset 在 __device__ 变量上失败

我使用时遇到问题cudaMemset在设备变量上是否可以使用对设备变量的引用cudaMemset 或者只是缺少编译器标志或库的问题我正在使用 cuda 4 1 并且 NVRM 版本 NVIDIA UNIX x86 64 内核模块 285

cudaMemset 在 __device__ 变量上失败

cudaMemset 在 __device__ 变量上失败 的相关文章

随机推荐

热门标签

cudaMemset 在 device 变量上失败

cudaMemset 在 device 变量上失败的相关文章