cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

2024-04-10

我试图找出原因cudaMemcpyToSymbol不适合我。（但cudaMemcpy does.)

// symbols:
__constant__ float flt[480];   // 1920 bytes
__constant__ int   ints[160];  // 640 bytes

// func code follows:
float* pFlts;
cudaMalloc((void**)&pFlts, 1920+640);  // chunk of gpu mem  (floats & ints)

// This does NOT work properly:
cudaMemcpyToSymbol(flt,pFlts,1920,0,cudaMemcpyDeviceToDevice);  // first copy
cudaMemcpyToSymbol(ints,pFlts,640,1920,cudaMemcpyDeviceToDevice);  // second copy

第二个副本正在丢弃第一个副本 (flt) 的内容，而第二个副本不会发生。（如果我删除第二个副本，第一个副本就可以正常工作。）

Results:

GpuDumpFloatMemory<<<1,1>>>(0x500500000, 13, 320)  TotThrds=1   ** Source of 1st copy
  0x500500500: float[320]= 1.000
  0x500500504: float[321]= 0.866
  0x500500508: float[322]= 0.500
  0x50050050c: float[323]= -0.000
  0x500500510: float[324]= -0.500
  0x500500514: float[325]= -0.866
  0x500500518: float[326]= -1.000
  0x50050051c: float[327]= -0.866
  0x500500520: float[328]= -0.500
  0x500500524: float[329]= 0.000
  0x500500528: float[330]= 0.500
  0x50050052c: float[331]= 0.866
  0x500500530: float[332]= 1.000
  GpuDumpFloatMemory<<<1,1>>>(0x500100a98, 13, 320)  TotThrds=1     ** Dest of 1st copy
  0x500100f98: float[320]= 0.000
  0x500100f9c: float[321]= 0.500
  0x500100fa0: float[322]= 0.866
  0x500100fa4: float[323]= 1.000
  0x500100fa8: float[324]= 0.866
  0x500100fac: float[325]= 0.500
  0x500100fb0: float[326]= -0.000
  0x500100fb4: float[327]= -0.500
  0x500100fb8: float[328]= -0.866
  0x500100fbc: float[329]= -1.000
  0x500100fc0: float[330]= -0.866
  0x500100fc4: float[331]= -0.500
  0x500100fc8: float[332]= 0.000
  GpuDumpIntMemory<<<1,1>>>(0x500500780, 13, 0)  TotThrds=1      ** Source of 2nd copy
  0x500500780: int[0]= 1
  0x500500784: int[1]= 1
  0x500500788: int[2]= 1
  0x50050078c: int[3]= 1
  0x500500790: int[4]= 1
  0x500500794: int[5]= 1
  0x500500798: int[6]= 1
  0x50050079c: int[7]= 1
  0x5005007a0: int[8]= 1
  0x5005007a4: int[9]= 1
  0x5005007a8: int[10]= 1
  0x5005007ac: int[11]= 1
  0x5005007b0: int[12]= 0
  GpuDumpIntMemory<<<1,1>>>(0x500100818, 13, 0)  TotThrds=1      ** Dest of 2nd copy
  0x500100818: int[0]= 0
  0x50010081c: int[1]= 0
  0x500100820: int[2]= 0
  0x500100824: int[3]= 0
  0x500100828: int[4]= 0
  0x50010082c: int[5]= 0
  0x500100830: int[6]= 0
  0x500100834: int[7]= 0
  0x500100838: int[8]= 0
  0x50010083c: int[9]= 0
  0x500100840: int[10]= 0
  0x500100844: int[11]= 0
  0x500100848: int[12]= 0

以下工作正常：

cudaMemcpyToSymbol(flt,pFlts,1920,0,cudaMemcpyDeviceToDevice);  // first copy
int* pTemp;
cudaGetSymbolAddress((void**) &pTemp, ints);
cudaMemcpy(ints,pFlts+480,640,cudaMemcpyDeviceToDevice);  // second copy

Results:

  GpuDumpFloatMemory<<<1,1>>>(0x500500000, 13, 320)  TotThrds=1   ** Source of first copy
  0x500500500: float[320]= 1.000
  0x500500504: float[321]= 0.866
  0x500500508: float[322]= 0.500
  0x50050050c: float[323]= -0.000
  0x500500510: float[324]= -0.500
  0x500500514: float[325]= -0.866
  0x500500518: float[326]= -1.000
  0x50050051c: float[327]= -0.866
  0x500500520: float[328]= -0.500
  0x500500524: float[329]= 0.000
  0x500500528: float[330]= 0.500
  0x50050052c: float[331]= 0.866
  0x500500530: float[332]= 1.000
  GpuDumpFloatMemory<<<1,1>>>(0x500100a98, 13, 320)  TotThrds=1    ** Dest of first copy
  0x500100f98: float[320]= 1.000
  0x500100f9c: float[321]= 0.866
  0x500100fa0: float[322]= 0.500
  0x500100fa4: float[323]= -0.000
  0x500100fa8: float[324]= -0.500
  0x500100fac: float[325]= -0.866
  0x500100fb0: float[326]= -1.000
  0x500100fb4: float[327]= -0.866
  0x500100fb8: float[328]= -0.500
  0x500100fbc: float[329]= 0.000
  0x500100fc0: float[330]= 0.500
  0x500100fc4: float[331]= 0.866
  0x500100fc8: float[332]= 1.000
  GpuDumpIntMemory<<<1,1>>>(0x500500780, 13, 0)  TotThrds=1    ** Source of 2nd copy
  0x500500780: int[0]= 1
  0x500500784: int[1]= 1
  0x500500788: int[2]= 1
  0x50050078c: int[3]= 1
  0x500500790: int[4]= 1
  0x500500794: int[5]= 1
  0x500500798: int[6]= 1
  0x50050079c: int[7]= 1
  0x5005007a0: int[8]= 1
  0x5005007a4: int[9]= 1
  0x5005007a8: int[10]= 1
  0x5005007ac: int[11]= 1
  0x5005007b0: int[12]= 0
  GpuDumpIntMemory<<<1,1>>>(0x500100818, 13, 0)  TotThrds=1    ** Destination of 2nd copy
  0x500100818: int[0]= 1
  0x50010081c: int[1]= 1
  0x500100820: int[2]= 1
  0x500100824: int[3]= 1
  0x500100828: int[4]= 1
  0x50010082c: int[5]= 1
  0x500100830: int[6]= 1
  0x500100834: int[7]= 1
  0x500100838: int[8]= 1
  0x50010083c: int[9]= 1
  0x500100840: int[10]= 1
  0x500100844: int[11]= 1
  0x500100848: int[12]= 0

当我查看坏情况时，符号表似乎发生了一些事情。如图所示，第一个复制目的地的数据非常熟悉。不像是被覆盖了，只是移动了。就像指针错了一样。

第二个副本对我来说看起来很糟糕。您已经定义了这个数组：

__constant__ int   ints[160];  // 640 bytes

正如正确指出的那样，其长度为 640 字节。

你的第二个副本是这样的：

cudaMemcpyToSymbol(ints,pFlts,640,1920,cudaMemcpyDeviceToDevice);  // second copy

其中表示，“总共复制 640 个字节，从pFlts数组到ints数组，存储位置在ints数组从数组开头的 1920 字节开始。”

这行不通。这ints数组只有 640 字节长。您无法选择 1920 字节的位置作为目的地。

从文档中cudaMemcpyToSymbol http://docs.nvidia.com/cuda/cuda-runtime-api/index.html#group__CUDART__MEMORY_1g2a229a704ade54887f7784e2e2dbd895 :

offset- 距符号开头的偏移量（以字节为单位）

在这种情况下，符号是ints

也许你想要的是：

cudaMemcpyToSymbol(ints,pFlts+480,640,0,cudaMemcpyDeviceToDevice);  // second copy

EDIT:为了回答评论中有关错误检查的问题，我制作了这个简单的测试程序：

#include <stdio.h>

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

__constant__ int ints[160];

int main(){

  int *d_ints;
  cudaError_t mystatus;

  cudaMalloc((void **)&d_ints, sizeof(int)*160);
  cudaCheckErrors("cudamalloc fail");
  mystatus = cudaMemcpyToSymbol(ints, d_ints, 160*sizeof(int), 1920, cudaMemcpyDeviceToDevice);
  if (mystatus != cudaSuccess) printf("returned value was not cudaSuccess\n");
  cudaCheckErrors("cudamemcpytosymbol fail");

  printf("OK!\n");
  return 0;
}

当我编译并运行它时，我得到以下输出：

returned value was not cudaSuccess
Fatal error: cudamemcpytosymbol fail (invalid argument at t94.cu:26)
*** FAILED - ABORTING

这表明bothcudaMemcpyToSymbol 函数调用的错误返回值and the cudaGetLastError()方法在这种情况下返回错误。如果我在此测试用例中将 1920 参数更改为零，错误就会消失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudaMemcpyToSymbol 与 cudaMemcpy [关闭] 的相关文章

如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do

随机推荐

为什么我的 C# winforms 应用程序中的第一个 HttpClient.PostAsync 调用非常慢？

我有一个像这样的 httpclient var client new HttpClient 我像这样发布 var result client PostAsync endpointUri requestContent 并得到这样的响应 Htt
IShellLink::SetIconLocation 将我的图标路径转换为 %Program Files% 这是错误的

有谁知道如何纠正这种行为目前当我们的安装程序安装我们的应用程序时它会获得一个IShellLink 然后加载我们的快捷方式图标在开始菜单和桌面中所需的数据然后使用IPersistFile 保存写出快捷方式问题是为图标指定的路径
中缀表示法的有趣行为

有时有人试图躲在电脑屏幕后面试图摆脱女朋友然而我发现Scala有时和我的女孩一模一样这将打印两个列表之间的交集 val boys List Person John Person Kim Person Joe Person Piet
MVVM - 分离视图之间的通信

我试图弄清楚如何执行以下操作我有一个CustomerListViewModel其中包含一个ObservableCollection
在 Swift 中使用 Tab 键选择下一个 NSTextField

在 Swift 中有没有办法通过按键盘上的 Tab 来更改响应者或选择另一个文本字段笔记这是填空式申请我的 VC 创建了一个单词列表 Word 每个单词都有自己的 WordView word wordView WordView 就是
Maven 3.5.2 无法将工件部署到 Artifactory，并出现错误 417

我正在创建简单的pom项目如下
在故事板中使用 UIPageViewController

有没有一种方法可以在故事板中为 UIPageViewController 配置数据源委托和视图控制器而无需编写代码我确实在 UIPageViewController 中看到了数据源和委托的出口但无法在场景之间建立连接也无法将额外的控
Laravel 5.2：未找到 Imagick 类

我们正在将 PDF 页面转换为多个单个图像我们在stackoverflow中找到了一段代码片段并将其转换为服务类我们安装了 Imagick 它也显示在 phpinfo 中然而在我们的 Laravel 应用程序版本 5 2 中我们
如何设置 intel_idle.max_cstate=0 来禁用 c 状态？

我想在我的计算机上禁用 c 状态我在 BIOS 上禁用了 c state 但没有获得任何结果不过我找到了一个解释大多数较新的 Linux 发行版在配备 Intel 处理器的系统上使用 intel idle 驱动程序可能编译到内
如何从Python列表中的前一个值中减去该值？

我正在尝试获取列表中的值例如 1 2 3 并将它们彼此相减所以它会返回 1 1 因为第一个值是1 2第二个值是2 3 我如何在 python 中实现这一点我努力了 x y for x y in list 但这会出现需要多个值才能解包
带有数组赋值的 JavaScript 意外控制台输出；

在 webkit 浏览器 Chrome 16 0 912 77 和 Safari 5 1 2 7534 52 7 中进行数组分配后我收到意外的控制台输出这是我的函数它演示了该错误 function test var myArray c
即使用户不接受照片，相机意图 onActivityResult 代码也会保存（空白）图像

当用户单击叉号不接受照片时它会以与接受拍摄的照片时相同的方式结束意图它将文件保存到设备库但它是空白的单击叉号不应该意味着 resultCode RESULT OK 吗我还缺少一张支票吗谢谢这是代码等等我正在保存活动结果之前
如何从 zip 中打开 html 文件？

有什么方法可以从包含 html 引用的图像的 zip 文件中打开 html 文件吗我生成带有资源相对路径的 html 但浏览器不会在 zip 文件中找到它们我必须先将其提取从拉链打开它是理想的选择有什么办法可以做到吗据我所知只有
创建 Angular/React 应用程序时的 .Net 本地主机服务器

我正在使用 VS2017 2019 和 NET Core 2 1 来创建Angular or React应用程序 Angular CLI or create react app用于设置一切以下所有内容都与开发阶段有关当我们构建 NET
针对数字板难题的优化 CLP(FD) 求解器

考虑问题从https puzzling stackexchange com questions 20238 explore the square with 100 hops https puzzling stackexchange com
let* 和 set 之间的区别？在 Common Lisp 中

我正在从事一个基因编程爱好项目我有一个函数宏设置当以 setq setf 形式评估时将生成一个如下所示的列表 setq trees make trees 2 gt x abs x 然后它将绑定到 lambda 函数
如何使用 Swift 在 stderr 上打印？

我在 Linux 上使用 Swift 2 2 需要在标准错误流上编写一些调试输出目前我正在执行以下操作 import Foundation public struct StderrOutputStream OutputStreamTyp
在没有窗口的windows桌面上绘制OpenGL

我见过这样的事情我想知道这是否可能假设我运行我的应用程序它会显示其下方的渲染结果所以基本上在没有窗口的情况下在屏幕上渲染可能还是谎言注意想要在 Windows 和 C 中执行此操作可以使用您的应用程序在其他应用程序的窗口上
Perl 函数中的引用返回值是否更好？

与返回数组或哈希的引用相比返回数组或哈希有哪些优缺点对内存或执行时间有影响吗两者在功能上有何区别 sub i return an array my a push things in a return a sub i return a
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出

cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

cudaMemcpyToSymbol 与 cudaMemcpy [关闭] 的相关文章

随机推荐

热门标签