cudaMemcpyToSymbol 的问题

2024-04-16

我正在尝试复制到恒定内存。但我不能，因为我对 cudaMemcpyToSymbol 函数的用法有误解。我正在努力追随this http://developer.download.nvidia.com/compute/cuda/4_1/rel/toolkit/docs/online/group__CUDART__MEMORY_gf268fa2004636b6926fdcd3189152a14.html

这是一些代码

__device__ __constant__ double var1;
__device__ __constant__ int var2;

int main(){

   //... some code here...

   double var1ToCopy = 10.1;
   int var2ToCopy = 1; 

   void * p1 = &var1ToCopy; 
   void * p2 = &var2ToCopy;

   cudaStatus = cudaMemcpyToSymbol((void*)&var1,p1,sizeof(double),0,cudaMemcpyHostToDevice);
   if (cudaStatus != cudaSuccess){
      return -1;
   }

   cudaStatus = cudaMemcpyToSymbol((void*)&var2,p2,sizeof(int),0,cudaMemcpyHostToDevice);
   if (cudaStatus != cudaSuccess){
      return -1;
   }


   //... and some code here...
}

我知道这是一个非常愚蠢的问题，但我花了几个小时在谷歌上搜索答案，但没有取得任何成功。

您不需要符号名称上的＆符号。符号与指针或变量不同。

而不是这个：

cudaStatus = cudaMemcpyToSymbol((void*)&var1,p1,sizeof(double),0,cudaMemcpyHostToDevice);

Do this:

cudaStatus = cudaMemcpyToSymbol(var1,&var1ToCopy,sizeof(double));

我还根据某些参数具有默认值的事实简化了上述调用，如中所示文档 http://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__MEMORY.html#group__CUDART__MEMORY_1g2a229a704ade54887f7784e2e2dbd895.

这是一个围绕代码修改版本的完整示例（需要 cc2.0+ GPU）：

$ cat t626.cu
#include <stdio.h>

__device__ __constant__ double var1;
__device__ __constant__ int var2;

__global__ void kernel(){

  printf("%f\n", var1);
  printf("%d\n", var2);
}


int main(){


   double var1ToCopy = 10.1;
   int var2ToCopy = 1;
   cudaError_t cudaStatus = cudaMemcpyToSymbol(var1,&var1ToCopy,sizeof(double));
   if (cudaStatus != cudaSuccess) {printf("fail1\n"); return 1;}

   cudaStatus = cudaMemcpyToSymbol(var2,&var2ToCopy,sizeof(int));
   if (cudaStatus != cudaSuccess) {printf("fail2\n"); return 1;}
   kernel<<<1,1>>>();
   cudaDeviceSynchronize();
   return 0;

}
$ nvcc -arch=sm_20 -o t626 t626.cu
$ ./t626
10.100000
1
$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

cudaMemcpyToSymbol 的问题的相关文章

Cuda 计算模式和“CUBLAS_STATUS_ALLOC_FAILED”

我的集群中有一台主机有 8 个Nvidia K80我想将其设置为每个设备最多可以运行 1 个进程以前如果我在主机上运行多个作业并且每个作业都使用大量内存它们都会尝试访问同一设备并失败我将所有设备设置为计算模式 3 E Proces
cuda简单应用程序适用于32位而不适用于64位

我的简单 cuda helloworld 应用程序在 Windows 10 上使用 Visual Studio 2015 社区构建 32 位时运行良好但是如果我在 64 位中构建它则不会执行 GPU 特斯拉K40c 工具包 CUDA
如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
在 python docker 镜像上使用 GPU

我正在使用一个python 3 7 4 slim busterdocker 镜像我无法更改它我想知道如何使用我的英伟达 GPU on it 我通常用一个tensorflow tensorflow 1 14 0 gpu py3并用一个简单
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
libstdc++.so.6 与 cuda 相关的链接器问题

今天我在链接我编译的 cuda 内容时遇到了问题我有一个最新的 debian 测试 w 2 6 32 3 amd64 我整天都在写我的代码不时编译没有问题但在进行了较小的代码更改后我收到以下错误 gcc o pa CUDA o h
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
Nvidia Theano docker 镜像不可用

尝试运行 docker 命令 nvidia docker run d p 8888 8888 e PASSWORD 123abcChangeThis theano secure start notebook sh Then open you
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M

随机推荐

使用 R 中的 drc 包回归多个剂量反应曲线

我试图通过我的实验数据拟合回归 4 或 5 PL 我有几种化合物可以抑制我感兴趣的酶每个都有其自己的 0 100 酶活性范围所有数据都在一个数据框中并通过指定我的化合物毒素的一列进行区分因此我想对每种毒素化合物分别进行回归
VS2015：应用程序无法正确启动（0xc000007b）

我在 Visual Studio 2015 上为 Windows 10 PC 编写了代码该应用程序主要关注 UDP 通信我使用 boost 库它工作正常但当我将代码文件夹移至 Windows 7 时我收到错误应用程序无法正确启动
SwiftUI View 协议中的EnvironmentObject

我想制定这样的协议 protocol SubscriptionManagerView View var subscriptionManager EnvironmentObject
python装饰器，嵌套函数[重复]

这个问题在这里已经有答案了我试图弄清楚为什么在使用装饰器时我需要一个嵌套函数这是一个例子 def func f def deco args kwargs return f args kwargs return deco func def
Numpy/ Pandas/ Matplotlib 安装时间太长

我已经决定安装 MacOs Big Sur 现在我必须再次重新安装所有软件包但我遇到了一些问题我没有太多使用终端的经验但安装一些数据科学库需要很长时间例如安装 numpy 花了几分钟而现在自从我开始尝试安装 pandas li
在 Jade 中使用 HTML 被认为是不好的做法吗？

Jade 看起来像一个很酷的模板引擎我想我将在下一个项目中使用它然而有些语法对我来说没有意义这样做你会得到什么 ul li a href book a Book A 代替 ul li a href book a Book A a l
为什么使用互斥量而不是布尔变量进行线程同步？

我正在尝试了解 C 中的多线程编程我有疑问既然我们使用MUTEXES来进行线程同步为什么我们不能使用布尔变量来阻塞要执行的代码的关键区域与布尔变量相比静音变量有何特点 PS 其实这个问题是在采访中问到的因此请分享您对此的了解
可用 Wifi 设备列表

我想显示可用 Wifi 设备的列表这是我的代码我不明白这里有什么错误 wifi WifiManager getSystemService Context WIFI SERVICE if wifi isWifiEnabled false
如何向 AWS 根账户 MFA 添加更多设备

我的 iPhone 中已经安装了 Google 身份验证器并且正在使用它登录我的 AWS 根账户我想添加使用我的 Android 手机通过 MFA 登录的功能并使用相应的令牌生成器 Android 应用程序是否可以添加第二个设备以及
具有多个参数的 Laravel FindOrNew

我使用 laravel FindOrNew 来获取具有两个参数的条目或创建一个新参数 option App Option findOrNew user id gt this gt id option name gt optionName
如何为一般 authError 消息定义 FlashHelper/Component 元素

将 CakePHP 从 2 6 2 更新到 2 7 2 后在创建 auth flash 消息时出现丢失密钥错误如何定义默认的元素模板authError Since SessionComponent setFlash 已经已弃用 http
向量集合上的 C++ iterator_adapter [重复]

这个问题在这里已经有答案了可能的重复展平迭代器 https stackoverflow com questions 3623082 flattening iterator 我有一个某种类型的向量比如 int 我想迭代一下在向量中的元
通过 Tweepy 获取 Twitter 中的所有关注者 ID

是否有可能获得像麦当劳这样拥有超过 100 万粉丝的帐户的完整粉丝列表我使用 Tweepy 并遵循代码 c tweepy Cursor api followers ids id McDonalds ids for page in c pa
公开应用程序秘密到底有多糟糕？

经过重大的巫术之后我终于让分数 API 正常工作了事实证明你必须设置Enhanced Auth Dialog to disabled或者 Facebook 会忽略您的publish actions允许只是提醒一下以防其他人遇到困难
创建 Facebook 应用程序请求

我试图在特定事件发生时从应用程序向用户发送消息现在我有这个代码 param array message gt XYZ shared a file with you data gt additiona string data access
Linq to SQL 中的动态表名称

大家好我有一个可怕的数据库我必须使用它而 linq to sql 是我用来检索数据的选项我试图通过根据用户选择输入不同的表名称来重用函数但据我所知无法修改 DataContext 查询中的 TEntity 或 Table 这是我
使用flash动作脚本开发网络游戏

简而言之如果我想使用 Flash 技术开发在线游戏你能告诉我一些很好的学习资源吗包括3D游戏您可以从新发布的开始Flash平台游戏技术中心 http www adobe com devnet games 在 Adob e Devne
如何在 ionic 2（搜索栏）中进行自动完成

我正在尝试在我的搜索栏中自动完成我到目前为止所做的事情我有一个包含一些字符串的数组然后我尝试在我的项目中列出我能够搜索的特定项目但我的要求不是在列表中显示项目我必须在单击搜索栏时数组中的所有字符串都应该出现并且我必须进行搜索
帮助构建 boost asio ssl 示例

我一直在研究 asio ssl 示例链接如下尽管尽了最大努力我还是无法将 openssl 链接到 boost 示例中 ld 的输出是 ld 缺少 libssl a 中的符号我无法弄清楚的是我发现 libssl a 中带有 nm 的
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t

cudaMemcpyToSymbol 的问题

cudaMemcpyToSymbol 的问题 的相关文章

随机推荐

热门标签

cudaMemcpyToSymbol 的问题的相关文章