将 2D 数组复制到已知可变宽度的 GPU

2023-12-11

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中。

int rows = 1000;
int cols;
int** host_matrix = malloc(sizeof(*int)*rows);
int *d_array;
int *length;

...

Each host_matrix[i]可能有不同的长度，我知道length[i]，这就是问题开始的地方。我想避免复制虚拟数据。有更好的方法吗？

根据这个thread，这不是一个聪明的方法：

cudaMalloc(d_array, rows*sizeof(int*));  
for(int i = 0 ; i < rows ; i++)    {  
    cudaMalloc((void **)&d_array[i], length[i] * sizeof(int)); 
}

但我想不出任何其他方法。还有其他更聪明的方法吗？可以使用 cudaMallocPitch 和 cudaMemCpy2D 改进吗？

在 CUDA 中为 GPU 分配指针数组的正确方法是这样的：

int **hd_array, **d_array;
hd_array = (int **)malloc(nrows*sizeof(int*));
cudaMalloc(d_array, nrows*sizeof(int*));  
for(int i = 0 ; i < nrows ; i++)    {  
    cudaMalloc((void **)&hd_array[i], length[i] * sizeof(int)); 
}
cudaMemcpy(d_array, hd_array, nrows*sizeof(int*), cudaMemcpyHostToDevice);

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）

这个想法是你在中组装设备指针数组的副本host首先内存，然后将其复制到设备。对于 1000 行的假设情况，这意味着 1001 次调用cudaMalloc然后拨打 1001cudaMemcpy只需设置设备内存分配并将数据复制到设备中。那是一个enormous开销处罚，我建议不要尝试；表现将非常糟糕。

如果你有very锯齿状数据并且需要将其存储在设备上，我是否可以建议借鉴所有锯齿状数据问题的根源 - 大型、非结构化稀疏矩阵 - 并为您的数据复制一种稀疏矩阵格式。使用经典压缩稀疏行格式化为模型你可以这样做：

int * data, * rows, * lengths;

cudaMalloc(rows, nrows*sizeof(int));
cudaMalloc(lengths, nrows*sizeof(int));
cudaMalloc(data, N*sizeof(int));

在此方案中，将所有数据存储在单个线性内存分配中data。锯齿状数组的第 i 行开始于data[rows[i]]每行的长度为length[i]。这意味着您只需要三个内存分配和复制操作即可将任意数量的数据传输到设备，而不是nrows在你当前的计划中，即。它将开销从 O(N) 减少到 O(1)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 2D 数组复制到已知可变宽度的 GPU 的相关文章

cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
如何在使用 GPU 支持编译的 macOS 上安装 Xgboost？

我尝试在过去 3 天的 MacOS Mojave 10 14 6 上安装集成了 GPU 支持的 xgboost 但是没有成功我尝试了两种方法 pip 安装 xgboost xgboost 安装在这里并且在没有 GPU 选项的情况下成功运
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
错误：NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信

NVIDIA SMI 抛出此错误 NVIDIA SMI 失败因为无法与 NVIDIA 通信司机确保安装了最新的 NVIDIA 驱动程序并且跑步我清除了 NVIDIA 并按照提到的步骤重新安装了它here https askubun
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
如何使用 Tensorflow-GPU 和 Keras 修复低易失性 GPU-Util？

我有一台 4 GPU 机器在上面运行带有 Keras 的 Tensorflow GPU 我的一些分类问题需要几个小时才能完成 nvidia smi returns Volatile GPU Util which never exceeds

随机推荐

避免身份列中的空白

我有一张桌子在MS SQL SERVER 2008我已经设置了它primary key自动递增但如果我从此表中删除任何行并在表中插入一些新行它将从下一个标识值开始这会在标识值中创建间隙我的程序要求所有身份或密钥按顺序排列喜欢分配
JavaScript 使用过滤器和循环从数组中删除多个值

我是新来的需要一些编写函数的帮助destroyer 从数组中删除多个值 destroyer 函数传入一个数组和附加数字作为参数这个想法是从数组中删除数字 E g destroyer 1 2 3 1 2 3 2 3 Output 1 1
如何转换Big Endian以及如何翻转最高位？

我正在使用 TStream 读取二进制数据感谢这篇文章如何使用 TFileStream 将二维矩阵读入动态数组我的下一个问题是数据是大端字节序根据我的阅读 Swap 方法似乎已被弃用我如何交换以下类型 16 bit two s c
为ARM处理器编译基本C文件

我正在使用 GCC 工具链的 Yagarto 重新编译我正在尝试编译这个简单的程序以获得 elf可执行文件 int main void return 0 当输入命令时arm none eabi gcc main c我收到错误消息 c ya
类型错误：无法在“URL”上执行“createObjectURL”：未找到与提供的签名匹配的函数

我有一个 Angular 8 应用程序我用 jasmine karma 做了一些单元测试这是 component ts export class DossierPersonalDataComponent implements OnIni
如何在 IndexedDB 中保存对象？

我想将我的API数据存储在浏览器的indexedDB中我本想尝试本地存储但它的限制为 5MB 但我的 JSON 数据超过 7MB 我想保存在indexedDB中以便更快地访问我想以 JSON 格式保存整个数据但不知道如何设置索引数据
Java Tab顺序：如何在java swing表中设置Tab顺序

我是 java 语言新手我想在其中设置制表符顺序JTable在java摇摆中我们如何在java swing中设置Tab顺序我假设您指的是 FocusTraversalPolicy 不确定这是否很容易在 JTable 内部处理但是这里
为什么在等待方法之后的代码中没有使用初始线程？

我不明白使用 async await 时如何将控制返回给调用者因为当我执行此代码时第一个线程在等待方法内调用任务时实际上被销毁并且给出结果的线程执行所有剩余代码下面我也画了一个我认为执行的图但似乎是错误的根据将控制权返回给调用者
Python 中的方法解析顺序

我是Python新手我正在使用 Python 2 7 我正在使用一个小片段来完成方法顺序解析如下所示 class A object attr A class B A pass class C A attr C class D B C p
使用 objshell.run 时找不到文件 -- vbscript

当我尝试运行脚本时它会抛出文件不存在的错误在脚本上它确实回显文件存在曾尝试过 objshell run apppath 但没有运气请帮忙 Set objFSO CreateObject Scripting FileSystemObj
PySide 将信号从 QThread 传递到另一个 QThread 中的槽

我通过移动解决了我的问题mySubQThread run 进入myQThread run 也就是说我仍然想知道为什么我之前尝试的方法不起作用我对线程很陌生我遇到了这个问题我认为我可能处理问题的方式是错误的无论如何我对不同的方法持
安装 psycopg2 时，在 venv 上使用 pip 时，“错误：--plat-name 必须是 ('win32'、'win-amd64'、'win-arm32'、'win-arm64') 之一”

点版本 23 1 1 Python版本 3 9 11 操作系统 Windows 11 我的python项目已创建并使用env作为虚拟环境 psycopg2 安装失败根据日志 psycopg2 构建轮子失败并且还显示不推荐使用许可证文
MGO：无法规范化查询：BadValue 未知运算符：$meta

我正在使用 MGO 与 mongodb 进行通信我想在集合中搜索并按搜索分数对结果进行排序 collection Find bson M text bson M search mysearch score bson M meta tex
当位置发生变化时如何获取位置

我想知道有没有一种方法可以在位置发生变化时获取位置我知道android提供了这个http developer android com training location receive location updates html获取位置更
Oracle - 修改现有表以自动增加列

我有一个包含以下列的表 NOTEID NUMBER NOT NULL 出于所有意图和目的此列是主键该表有几千行每行都有一个唯一的 ID 以前应用程序会从表中 SELECT MAX 值加一然后将其用作下一个值这是一个可怕的解决方
Android Studio ActionBar 宽度/图标位置

I have a problem with my ActionBar that results in my menu icon being pressed up against the edge of the screen 下面是我调整过的
从价格中删除无效字符

我有一个场景我必须使用 C 从价格字符串中删除某些字符我正在寻找一个正则表达式来删除这些字符或比这更好的东西例如如果价格字符串是 3 950 000 Ex TAX 我想删除 Ex TAX 从字符串中基本上我必须从字符串中删除除数字
v-for prop 值未通过引导模式更新

我有以下代码片段 div class list group item media div
计算在 Apple 地图中完成旅程所需的时间

我正在 MKMapView 上工作以获取两个位置之间的方向有什么方法可以获取完成此旅程所需的时间是否有任何内置属性MKRoute or MKDirection可以为我提供时间来完成这段旅程的课程吗任何帮助将不胜感激谢谢维卡斯 Y
将 2D 数组复制到已知可变宽度的 GPU

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each

将 2D 数组复制到已知可变宽度的 GPU

将 2D 数组复制到已知可变宽度的 GPU 的相关文章

随机推荐

热门标签