CUDA 主机和设备使用相同的 constant 内存

2024-01-07

我有使用恒定内存的设备/主机功能。它在设备上运行正常，但在主机上似乎该内存仍未初始化。

#include <iostream>
#include <stdio.h>


const __constant__ double vals[2] = { 0.0, 1000.0 };

__device__ __host__ double f(size_t i)
{
    return vals[i];
}

__global__ void kern()
{
    printf("vals[%d] = %lf\n", threadIdx.x, vals[threadIdx.x]);
}

int main() {
    std::cerr << f(0) << " " << f(1) << std::endl;
    kern<<<1, 2>>>();
    cudaThreadSynchronize();
}

打印此内容（需要 CC 2.0 或更高版本）

0 0
vals[0] = 0.000000
vals[1] = 1000.000000

问题是什么？如何同时初始化设备和主机内存常量？

由于 CygnusX1 误解了我对 MurphEngineer 答案的评论的意思，也许我应该发布我自己的答案。我什么meant是这样的：

__constant__ double dc_vals[2] = { 0.0, 1000.0 };
       const double hc_vals[2] = { 0.0, 1000.0 };

__device__ __host__ double f(size_t i)
{
#ifdef __CUDA_ARCH__
    return dc_vals[i];
#else
    return hc_vals[i];
#endif
}

这与 Cygnus 具有相同的结果，但面对实际代码更灵活：例如，它允许您在常量数组中拥有运行时定义的值，并允许您使用 CUDA API 函数，例如cudaMemcpyToSymbol/cudsaMemcpyFromSymbol on the __constant__ array.

一个更现实的完整例子：

#include <iostream>
#include <stdio.h>

__constant__ double dc_vals[2];
       const double hc_vals[2];

__device__ __host__ double f(size_t i)
{
#ifdef __CUDA_ARCH__
    return dc_vals[i];
#else
    return hc_vals[i];
#endif
}

__global__ void kern()
{
    printf("vals[%d] = %lf\n", threadIdx.x, vals[threadIdx.x]);
}

int main() {
    hc_vals[0] = 0.0;
    hc_vals[1] = 1000.0;

    cudaMemcpyToSymbol(dc_vals, hc_vals, 2 * sizeof(double), 0, cudaMemcpyHostToDevice);

    std::cerr << f(0) << " " << f(1) << std::endl;
    kern<<<1, 2>>>();
    cudaThreadSynchronize();
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 主机和设备使用相同的 constant 内存的相关文章

使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
cuda-gdb 错误消息

我尝试使用 cuda gdb 调试我的 CUDA 应用程序但遇到了一些奇怪的错误我设置了选项 g G O0构建我的应用程序我可以在没有 cuda gdb 的情况下运行我的程序但没有得到正确的结果因此我决定使用 cuda gdb 但
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成

随机推荐

“border-style: double”如何分割像素？

浏览器如何决定 3 行每行将获得多少像素以下是我的一些案例希望能帮助您理解 border 1px double black gt 1 0 0 or 0 1 0 or 0 0 1 border 2px double black gt 0
OpenGL ES - 更改纹理中颜色的色调

我正在用 OpenGL ES 为 iPhone 开发一个简单的 2D 游戏我的问题是我想使用不同的色调渲染纹理基本上我想改变我渲染的纹理中颜色的色调仅仅改变 glColor 是不行的因为它还会影响图像中没有颜色的部分有任何想法吗
r - 根据另一列中的匹配复制值

在此数据框中 Item lt c A B A A A A A B Trial lt c Fam Fam Test Test Test Test Test Test Condition lt c apple cherry Trash Tras
循环弹出混乱

有人可以告诉我如何让我的网址正确循环到window open我创建我想知道循环是否是使每个 URL 根据我的旋转的正确答案setInterval 如果是的话我想知道循环是否需要在var rotate for var i 0 i lt u
如何删除未来的子模块，但保留其历史记录（与父历史记录链接）？

假设我有一个项目它具有使用实现的依赖项git submodule 现在我正在进行更改不再需要这种依赖关系我想提交一个更改其工作原理如下如果有人检查此提交或任何后代则该子模块不存在但是如果有人签出较旧的提交或者未与此分支合并
C++11 decltype 可用于从现有函数创建函数指针的 typedef 吗？

Given struct A int foo double a std string b const 我可以像这样创建一个成员函数指针 typedef int A PFN FOO double std string const 很容易除了
访问器和修改器方法 (Python)

我正在尝试找出Python 中的封装我在 shell 中做了一个简单的小测试看看有些东西是如何工作的但它并不像我预期的那样工作我无法让它发挥作用这是我的代码 class Car def init self carMake yrMo
如何更改 createStartScripts 任务中的 unixStartScriptGenerator.template 以便 distTar 使用 build.gradle 中的自定义模板文件？

我需要修改 gradle 生成的启动脚本distTar https docs gradle org current userguide distribution plugin html任务我似乎可以设置unixStartScriptGen
Hazelcast 客户端线程安全吗？

我在中找不到这个docs http hazelcast org docs 3 2 manual html single hazelcast documentation html java client or javadocs http h
带有嵌入变量的现有字符串的 Scala 字符串插值器

我可能缺少 Scala 字符串插值机制的一些基本内容我想做的事 this could come from a config file string here to demo val brown BROWN val cow Moo val
Webkit 滚动条 CSS，始终是角落里的白框

有没有办法避免自定义样式的 webkit 滚动条上出现默认的白框仅当水平和垂直溢出时才会出现白框使用谷歌浏览器编辑我尝试过设置body背景颜色不同仍然只看到一个白色的盒子 Screenshot CSS webkit scrollb
JSON.NET 读取 JObject 时出错

我通过 AJAX 和 Web Api 向我的服务器发送 JSON 对象 var data fdsfsd Kifdsfa fsdfsa fadsf fasdfsd fadsf fasdfsd 2008 5 11 12 13 2009 20 1
无法在 GeoDjango 应用程序中同步数据库

我在设置空间数据库并将其与 GeoDjango 同步时遇到了真正的麻烦我能够根据 geodjango 文档设置空间数据库并创建一个 django 应用程序但是当我运行时 python manage py sqlall world 我明白
如何使用 RSpec 测试 ActionText？

我正在尝试编写一个 RSpec 系统测试其中涉及填写页面上的 ActionText Trix 字段好像ActionText SystemTestHelper按照定义here https github com rails rails bl
C++中“保留状态”是什么意思？

我在 MSDN 页面上阅读了此解释了解 lambda 表达式相对于函子和函数指针的优点保持状态的能力是什么意思它与通过引用或封闭范围内的值捕获某些变量的能力有关吗 http msdn microsoft com en us libr
通过服务更新 wso2 ESB 中的本地条目

有什么方法可以从 esb 服务更新本地条目我必须在全局变量中存储一个令牌并且需要在它过期时更新它我想将其保留在本地条目中看起来我无法从 ESB 服务序列更新它
未使用的 ES6 模块会影响性能吗？

我知道未使用的 Java NET 导入不会影响性能但我也知道的实现require 过去只需在编译时拉取并连接整个所需的模块文件并且import声明是一种演变实际上有什么不同吗在导入列表中忘记一个非常大的未使用的 ES6 模块会影
使用 devise_token_auth 和 active_model_serializers 解决多个用户模型的问题？

多个用户模型 User Admin 和 Master 与 devise token auth 的组合在使用非 User 模型 Admin 和 Master 登录时无法成功设置响应标头 uid token 等然而用户模型是有效的原因看起
Runtime.exec() ：在 Android 中重新启动？

我正在寻找一种可用于重新启动已取得 root 权限的设备的解决方案我知道重新启动设备对于用户来说是非常糟糕的设计如这里所述 https stackoverflow com questions 4030037 how to reboot
CUDA 主机和设备使用相同的 __constant__ 内存

我有使用恒定内存的设备主机功能它在设备上运行正常但在主机上似乎该内存仍未初始化 include

CUDA 主机和设备使用相同的 __constant__ 内存

CUDA 主机和设备使用相同的 __constant__ 内存 的相关文章

随机推荐

热门标签

CUDA 主机和设备使用相同的 constant 内存

CUDA 主机和设备使用相同的 constant 内存的相关文章