Cuda：固定内存零复制问题

2023-12-03

我尝试了这个链接中的代码CUDA 固定内存是零拷贝吗？询问者声称该程序对他来说效果很好但在我的身上效果不一样如果我在内核中操作它们，这些值不会改变。

基本上我的问题是，我的 GPU 内存不够，但我想做需要更多内存的计算。我的程序使用 RAM 内存或主机内存，并且能够使用 CUDA 进行计算。链接中的程序似乎解决了我的问题，但代码没有给出该人所示的输出。

关于零复制内存的任何帮助或任何工作示例都会很有用。

谢谢

__global__ void testPinnedMemory(double * mem)
{
double currentValue = mem[threadIdx.x];
printf("Thread id: %d, memory content: %f\n", threadIdx.x, currentValue);
mem[threadIdx.x] = currentValue+10;
}

void test() 
{
const size_t THREADS = 8;
double * pinnedHostPtr;
cudaHostAlloc((void **)&pinnedHostPtr, THREADS, cudaHostAllocDefault);

//set memory values
for (size_t i = 0; i < THREADS; ++i)
    pinnedHostPtr[i] = i;

//call kernel
dim3 threadsPerBlock(THREADS);
dim3 numBlocks(1);
testPinnedMemory<<< numBlocks, threadsPerBlock>>>(pinnedHostPtr);

//read output
printf("Data after kernel execution: ");
for (int i = 0; i < THREADS; ++i)
    printf("%f ", pinnedHostPtr[i]);    
printf("\n");
}

首先要分配ZeroCopy内存，你必须指定cudaHostAllocMapped标志作为参数cudaHostAlloc.

cudaHostAlloc((void **)&pinnedHostPtr, THREADS * sizeof(double), cudaHostAllocMapped);

依然是pinnedHostPointer仅用于从主机端访问映射内存。要从设备访问相同的内存，您必须像这样获取指向内存的设备端指针：

double* dPtr;
cudaHostGetDevicePointer(&dPtr, pinnedHostPtr, 0);

将此指针作为内核参数传递。

testPinnedMemory<<< numBlocks, threadsPerBlock>>>(dPtr);

此外，您必须将内核执行与主机同步才能读取更新的值。只需添加cudaDeviceSynchronize在内核调用之后。

链接问题中的代码正在运行，因为提出问题的人正在 64 位操作系统上运行代码，并且 GPU 具有计算能力 2.0 并启用了 TCC。此配置自动启用统一虚拟寻址GPU 的功能，其中设备将主机 + 设备内存视为单个大内存，而不是单独的内存，并且使用分配的主机指针cudaHostAlloc可以直接传递给内核。

对于您的情况，最终代码将如下所示：

#include <cstdio>

__global__ void testPinnedMemory(double * mem)
{
    double currentValue = mem[threadIdx.x];
    printf("Thread id: %d, memory content: %f\n", threadIdx.x, currentValue);
    mem[threadIdx.x] = currentValue+10;
}

int main() 
{
    const size_t THREADS = 8;
    double * pinnedHostPtr;
    cudaHostAlloc((void **)&pinnedHostPtr, THREADS * sizeof(double), cudaHostAllocMapped);

    //set memory values
    for (size_t i = 0; i < THREADS; ++i)
        pinnedHostPtr[i] = i;

    double* dPtr;
    cudaHostGetDevicePointer(&dPtr, pinnedHostPtr, 0);

    //call kernel
    dim3 threadsPerBlock(THREADS);
    dim3 numBlocks(1);
    testPinnedMemory<<< numBlocks, threadsPerBlock>>>(dPtr);
    cudaDeviceSynchronize();

    //read output
    printf("Data after kernel execution: ");
    for (int i = 0; i < THREADS; ++i)
        printf("%f ", pinnedHostPtr[i]);    
    printf("\n");

    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Cuda：固定内存零复制问题的相关文章

插入多重集中：在该值第一次出现之前而不是最后一次出现之后

正如标题所示 multiset 在所有相同值的范围末尾插入一个值例如在多重集中插入 21 2 2 3做到了1 2 2 new 2 3 如何在所有相同值的范围开头插入新值例如在多重集中插入 21 2 2 3应该使1 new 2 2 2
动态库使用静态库，出现未定义的符号

我一直在寻找解决问题的方法只是得到了一些线索但我找不到任何一致的解决方案我有一个动态库 libdyna so 的代码它使用3个静态库 libone a libtwo a lib Three a 和log4cpp库的功能当我第一次构
具有自动返回类型推导的 Friend 函数模板无法访问私有成员

抱歉这个问题的标题太复杂了我试图描述我为这个问题构建的最小 SSCCE 我有以下代码 include
是否有任何替代方法来实现 WebRTC SFU，只有 1 个上传流？

我有一个服务器能够将 WebRTC 媒体数据从 A 中继到 B 对于视频会议如果我们采用 P2P 方法则会创建一个网状网络当P2P不起作用的时候我们就可以拥有这个中继服务器主要问题是在网状网络中对于N个参与者来说上传链路的数
嵌套绑定表达式

这是一个后续问题我之前的问题 https stackoverflow com questions 2735294 templates function pointers and c0x include
C++ 构造函数根据参数类型调用另一个构造函数

我有这门课 class XXX public XXX struct yyy XXX std string private struct xxx data 第一个构造函数使用结构很容易实现第二我可以将一个字符串以特定的格式分开解析
如何防止 Parallel.ForEach 循环在运行时更改任务数量？

我正在使用Parallel ForEach循环做一些工作我用localInit像这样 localInit gt new foo new Foo bars CreateBars 根据文档 https learn microsoft com
C#：如何计算纵横比

我对编程比较陌生我需要根据给定尺寸例如 axb 计算纵横比 16 9 或 4 3 我如何使用 C 来实现这一点任何帮助将不胜感激 public string AspectRatio int x int y code am lookin
清除指针向量[重复]

这个问题在这里已经有答案了假设我定义了一个这样的类 class foo private std vector lt int gt v public void bar1 for int i 0 i lt 10 i int a new int
ofstream::operator<<(streambuf) 是一种复制文件的缓慢方法

我需要一种跨平台无需外部库的复制文件的方式在我的第一遍中我想出了省略错误处理 char buffer LEN ifstream src srcFile ios in ios binary ofstream dest destFile
在实体框架中不使用 Dispose 或 using()

我一路上正在编写一个网络应用程序并学习实体框架如果我做错了什么我很好奇我在查询时没有使用过 dispose 或 using 语句我的存储库示例 public User GetUserById int sessionId var us
COM Interop 挂起会冻结整个 COM 系统。如何取消COM调用

我正在使用通过 COM Interop 包装器公开的第三方 dll 然而其中一个 COM 调用经常冻结至少不会返回为了至少让我的代码更加健壮我异步包装了调用 getDeviceInfoWaiter is a ManualResetE
boost::bind 会导致开销吗？

我目前正在从事网络软件方面的工作它有一个主要类 server这显然代表一个服务器实例 A server实例可以发送请求并通过回调通知用户响应代码如下 class server public typedef boost function
作为服务运行时，URLDownloadToFile() 将对象写入缓存中

我有一个软件可以将图像下载到工作目录中然后对其进行处理以创建视频之后这些文件将被独立脚本删除问题是它还将文件写入以下目录该软件作为系统服务运行 C Windows SysWOW64 config systemprofile Ap
在方法签名中使用 new 关键字通常只是为了可读性吗？

我读过关于new关键词在方法签名中并看到了下面的例子this https stackoverflow com questions 1014295 c sharp new keyword in method signature发帖了但还是不
如何在迭代时从地图中删除？

迭代时如何从地图中删除喜欢 std map
实现多个接口的 Service Fabric Actor 接口

我正在构建一个应用程序其中有多个不同的参与者类型这些参与者类型对于某些不同的数据对象具有相同类型的行为 CRUD 为了更轻松地创建处理此问题的代码我尝试创建一个这些参与者可以实现的接口这意味着我有一个看起来像这样的参与者界面 pub
TPL架构问题

我目前正在开展一个项目我们面临并行处理项目的挑战到目前为止没什么大不了的现在来说说问题我们有一个 ID 列表我们定期每 2 秒为每个 ID 调用一个 StoredProcedure 需要单独检查每个项目的 2 秒因为它们是在
SQlite 查询 - 如何检索多列数据？

我很难在网上找到一个关于使用 xcode 和 cocos2dx 从 SQlite DB 获取多个值的工作示例这是我的sql查询 char sql query 100 sprintf sql query SELECT FROM SQList
从 C# 调用 C++ DLL

我想使用 C 中的 C DLL C DLL 是win32 控制台应用程序我已成功调用它并希望在 C 中处理来自 C 的数据然而 C 应用程序在执行 DLL 后退出即这一行 GetArrayFromDLL 我是 C 和 Visual

随机推荐

计算双精度数组中所有元素的总和

我在使用数组进行递归时有点困惑有人可以纠正我的错误吗新更新根据所需的问题某些行无法编辑 double sum of array double x int size static double sum lt can be edit i
如何创建多个本地通知

我试图在我的应用程序中创建多个本地通知但由于某种原因只有第一个通知弹出其余的不起作用这是我的代码我有一个名为克里亚警报它负责创建通知在该类中我有以下方法 void setarNotificacao NSInteger quan
我可以通过通话事件启动我的应用程序吗？

当用户通过 iPhone 拨打电话时如何启动我的应用程序为此应用程序是否需要始终作为服务运行或者即使它关闭我也可以从调用中运行它吗在 iOS 中无法启动应用程序来响应呼叫
在返回向量的函数上使用 Numpy Vectorize

numpy vectorize接受函数 f a gt b 并将其转换为 g a gt b 当a and b是标量但我想不出为什么它不能与 b 作为标量一起使用的原因ndarray或列表即 f a gt b 和 g a gt b 例如 i
CNUI 错误设置了选择谓词，但委托未实现 contactPicker:didSelectContact:

我尝试使用新的iOS 9 0CNContactPickerViewController在 Objective C 中选择联系人我设置了委托并实施CNCContactPickerDelegate方法 import ContactsUI im
IE 11 兼容性视图

我的网站在 IE11 中无法正常工作我们发现它由于 XSLTProcessor 和 XPathEvaluator 而被破坏因为 IE 不再支持它们我做了一些研发发现 IE9 和 IE10 也不支持它但我的网站在 IE9 和 IE1
如何在 WKWebView 中禁用 iOS 11 和 iOS 12 拖放功能？

长按图片或链接WKWebView在 iOS 11 和 12 上启动拖放会话用户可以拖动图像或链接我怎样才能禁用它我确实找到了一个涉及方法调配的解决方案但也可以在 WKWebView 中禁用拖放而无需任何调整注意请参阅下面针对 i
Java 类链接解析步骤或初始化是否会导致加载其他解析的类？

我正在浏览 JVM 规范文档和 JLS 了解 java 中的类加载机制这是我的理解首先当主类被要求加载时它查看该类的二进制表示是否已经存在是否已加载如果没有类加载器将从中加载类文件磁盘联动步骤验证准备和解决初始化
如何绑定CallScreeningService？

我想获取通话详细信息并阻止通话如果需要由于 TelecomManager endCall 方法已被弃用并且根据文档建议使用 CallScreeningService https developer android com refer
如何计算a^b^c mod p？

我正在尝试计算一些正整数 a b c p 的 a b c mod p 一种可能的也是显而易见的方法是使用快速模幂它将运行在O log b c clog b 虽然我不介意这里的效率但这种方法的明显缺点是您需要一个显式的二进制表示b c
SSIS获取执行Sql任务结果集对象

我有一个执行 sql 任务项它从存储过程中获取多行数据声明了一个变量ObjShipment在变量表下并使用以下信息将其分配到结果集下 Result Set Full result set Result Name 0 Variable N
ExtJS grid：在控制器中处理操作列的点击事件

我有一个视图 EmployeeList 里面有一个网格我需要处理来自控制器的操作列的单击事件这是视图 Ext define ExtApp view Employees extend Ext panel Panel alias widge
在 PHP 中使用表达式（连接字符串）初始化类成员变量

我想使用表达式初始化类成员 var 通过连接字符串为什么以下不可能 class aClass const COMPANY NAME A Company var COPYRIGHT TEXT Copyright 2011 COMPANY N
有 Xamarin xaml 文件的设计器吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我目前正在启动 Xamarin 应用程序现在我想知道是否有任何形式的 UI 设计器这样我就不必在设计时一遍又一遍地启动应用程序来测试 UI 可惜
在 CSS 中使用多个 @font-face 规则

我怎样才能使用超过 font face我的 CSS 规则我已将其插入到我的样式表中 body background fff url images body bg corporate gif repeat x padding bottom
在 Laravel 5.5 中处理 PostTooLargeException

我正在尝试处理PostTooLargeException在我的 Laravel 5 5 应用程序中当我尝试通过表单上传太大的文件时我收到PostTooLargeException我成功地抓住了app Exceptions Handler
检查对象是否是构造函数 - IsConstructor

我想检查 JavaScript 值是否是构造函数即它是否具有 Construct 内部方法 ECMAScript 定义是构造函数它正是这样做的但这是一个内部操作所以我想效仿一下我考虑过尝试在一个实例化或子类化try声明但两者都不
实体框架：路径中存在非法字符。（连接字符串）(MVC3)

我就是无法解决这个问题我正在尝试在我的 MVC3 项目中使用实体框架但每次我打电话Entities context new Entities 我收到此错误路径中存在非法字符我确实知道这与我的连接字符串有关如下所示 metadata
将图像发布到 asp.net API 2 和 Angular 2

i get 415 不支持的媒体类型当我尝试将图像发布到 ASP Net API 2 时此资源不支持请求实体的媒体类型 multipart form data exceptionMessage 没有 MediaTypeFormatter
Cuda：固定内存零复制问题

我尝试了这个链接中的代码CUDA 固定内存是零拷贝吗询问者声称该程序对他来说效果很好但在我的身上效果不一样如果我在内核中操作它们这些值不会改变基本上我的问题是我的 GPU 内存不够但我想做需要更多内存的计算我的程序使用 RA

Cuda：固定内存零复制问题

Cuda：固定内存零复制问题 的相关文章

随机推荐

热门标签

Cuda：固定内存零复制问题的相关文章