CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

2024-03-18

Thrust 库可用于对数据进行排序。该调用可能如下所示（带有键和值向量）：

thrust::sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin());

在 CPU 上调用，d_keys and d_values位于CPU内存中；大部分执行都发生在 GPU 上。

但是我的数据已经在GPU上了？如何使用 Thrust 库直接在 GPU 上执行高效排序，即调用sort_by_key来自内核的函数？

另外，我的数据由以下键组成unsigned long long int or unsigned int和始终存在的数据unsigned int。我应该如何对这些类型进行推力调用？

正如 Talonmies 链接的问题中所述，您不能从 CUDA 函数调用 Thrust（例如__device__ or __global__）。但是，这并不意味着您不能通过 Thrust 使用设备内存中已有的数据。相反，您可以使用包装原始数据的推力向量从主机调用所需的推力函数。例如

//raw pointer to device memory
unsigned int * raw_data;
unsigned int * raw_keys;
//allocate device memory for data and keys
cudaMalloc((void **) &raw_data, N_data * sizeof(int));
cudaMalloc((void **) &raw_keys, N_keys * sizeof(int));

//populate your device pointers in your kernel 
kernel<<<...>>>(raw_data, raw_keys, ...);

...

//wrap raw pointer with a device_ptr to use with Thrust functions
thrust::device_ptr<unsigned int> dev_data_ptr(raw_data);
thrust::device_ptr<unsigned int> dev_keys_ptr(raw_keys);

//use the device memory with a thrust call
thrust::sort_by_key(d_keys, d_keys + N_keys, dev_data_ptr);

指向的设备内存raw_data and raw_keys当您用以下命令包装它们时，它们仍在设备内存中Thrust::device_ptr，因此当您从主机调用 Thrust 函数时，它不必将任何内存从主机复制到设备，反之亦然。也就是说，您可以使用设备内存直接在 GPU 上进行排序；唯一的开销是启动 Thrust 内核并包装原始设备指针。

当然，如果您之后需要在常规 CUDA 内核中使用它们，您可以取回原始指针：

unsigned int * raw_ptr = thrust::raw_pointer_cast(dev_data_ptr);

至于使用unsigned long long int or unsigned int作为你的钥匙与数据unsigned int，这不是问题，因为 Thrust 是模板化的。也就是说，签名为sort_by_key is

template<typename RandomAccessIterator1 , typename RandomAccessIterator2 >
void thrust::sort_by_key(           
    RandomAccessIterator1   keys_first,
    RandomAccessIterator1   keys_last,
    RandomAccessIterator2   values_first )

这意味着您可以使用不同类型的键和数据。只要给定调用的所有键类型都是同质的，Thrust 就应该能够自动推断类型，并且您无需执行任何特殊操作。希望这是有道理的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制] 的相关文章

如何使用java按上次更新时间对SFTP文件进行排序？

I am having a set of text files in my FTP server 我想阅读今天之前上传的所有文件其中我必须打印最后三个上传文件的属性名称上传时间大小现在我将能够打印 FTP 服务器中存在的文件的名称
我可以合法地写入常量向量指向的数据吗？把它分类？

我有一个常量整数向量const vector
按属性值对结构体数组进行排序

我在 C 中有一个任务使用 qsort 对结构进行排序 struct user enum SEX m f sex char name 32 char phonenr 32 typedef struct user User 用户将存储在一个
使用 List.Sort(Comparison Comparison 在 C# 中对列表进行排序

我创建了一个类如下所示 public class StringMatch public int line num public int num of words 我创建了一个列表 List
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
根据两个元素对元组列表进行排序[重复]

这个问题在这里已经有答案了我有一个元组列表如下所示 a 4 2 a 4 3 a 7 2 a 7 3 b 4 2 b 4 3 b 7 2 b 7 3 我知道例如要按第二个元素对它们进行排序我可以使用 sorted unsorted k
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
如何使用 jq 对可能不存在的数组进行排序？

给定以下 JSON alice items foo bar bob items bar foo charlie items foo bar 我可以排序items数组如下 jq lt users json map items sort ite
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
Google Sheets - 如何将过滤功能与过滤视图结合起来

我一直在处理一个包含 100 多行的电子表格并发现了一种巧妙的方法来合并隐藏复选框该复选框将隐藏 C 列与框旁边指定的特定值建筑类型匹配的任何行为此我首先创建了一个如下函数 FILTER Data A1 OR Data C1
JS 按特定排序顺序排序

我需要按特定顺序对数据进行排序如下所示 const sortBy b a c e d const data a d e 我知道如何按升序降序排序 console log data sort a b gt a gt b a d e con
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
如何在 PHP 中对数组和数据进行排序？

这个问题旨在作为有关 PHP 中数组排序问题的参考人们很容易认为您的特定案例是独特的并且值得提出新问题但大多数实际上只是此页面上的解决方案之一的微小变化如果您的问题因与此问题重复而被关闭请仅在您能解释为什么它与以下所有问题显着不同的
按序列大小对 fasta 进行排序

我目前想按序列大小对 hudge fasta 文件 10 8 行和序列进行排序 fasta 是生物学中用于存储序列遗传或蛋白质的明确定义的格式 gt id1 序列 1 可以位于多行 gt id2 序列2 我运行了一个提供 tsv 格式
如何按名字和姓氏排序，然后按 SamAccountName 排序，其中并非所有姓名都有名字和姓氏？

目前我有以下内容来自 LDAP Get context based on currently logged on user PrincipalContext domainContext new PrincipalContext Cont
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
一起使用“过滤”和“排序”的 Google 表格

这是我的第一个问题我希望一切都好我是使用谷歌表格的新手但我正在慢慢进步我正在尝试构建一个工作表其中包含工作表 1 中的所有数据在工作表 2 上我想过滤工作表 2 中 D 列中标有数字 1 的所有数据为此我正在使用 FILT
C - 对浮点数组进行排序，同时跟踪索引

我有一个包含 3 个浮点值的数组 float norms 3 norms 0 0 4 norms 1 3 2 norms 2 1 7 我想按降序对这个数组进行排序同时跟踪数组中值的原始索引换句话说给定数组norms 0 4 3 2 1
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我

随机推荐

android.support.design.widget.TextInputLayout 无法实例化

我想整合android support design widget TextInputLayout在我的安卓应用程序中我已经复制了jar文件android support design jar从 sdk 到我的应用程序 lib 文件夹我
将 UserControl 绑定到其自己的 dependencyProperty 不起作用

我遇到一个问题当父级将该对象设置为数据绑定时我无法创建使用自定义对象的属性的用户控件尝试解释一下我在这里的意思是代码自定义对象 public class MyObj public string Text get set public
向 Django 管理添加自定义字段

我已经用各个领域定义了我的模型其中一些是自定义字段我使用应用程序的 fields py 文件来验证信用卡数据来源是here https github com bryanchow django creditcard fields cla
Unicorn 与 Ruby 2.4.1 导致奇怪的崩溃

我正在从 Ruby 2 3 1 升级到 Ruby 2 4 1 这样做后 Unicorn 似乎与新版本不兼容我收到以下错误我正在使用 Unicorn 5 1 0 并尝试了 Unicorn 5 3 1 无济于事我需要使用不同的库而不是 X
树形视图验证

树视图有叶节点复选框我需要验证树视图如果至少检查了一个节点并且用户可以选择的节点数量不超过特定例如 3 个节点注意 Treeview是asp net树视图不是ajax树视图好吧既然你没有提到你想要什么类型的验证我将同时进行
Google 驱动器 - WSL2 中的虚拟驱动器安装

有谁知道我是否可以在win10系统中的wsl2中安装Google驱动器虚拟驱动器谢谢 sudo mount t drvfs G mnt g 第一次这样做时运行sudo mkdir mnt g first
等待 QueueUserWorkItem 完成

如果我将作业添加到线程池中QueueUserWorkItem 在所有工作完成之前如何阻止我的计划继续进行我知道我可以添加一些逻辑来阻止应用程序运行直到所有作业完成但我想知道是否有类似的东西Thread Join 或者是否有任何方法可
.NET Core 中的程序集绑定重定向

如何在 NET Core 中进行程序集绑定重定向我发现这个问题被问了几次但没有提供解决方案情况微不足道我有一个引用版本 10 中的程序集 A 的包我想使用版本 12 中的程序集 A 在标准 NET 中它可以完美地与此配合使用
在运行时隐藏水晶报表中的列？

如何在运行时隐藏水晶报表中的列感谢您的任何建议选项 1 使用条件抑制逻辑隐藏显示冗余字段使用参数字段来驱动所需字段的抑制公式如果您想消除字段之间的空格则需要将字段堆叠在一起并适当地抑制它们在您的示例中第 2 列将包含 fie
通过 CSS 根据高度设置元素宽度

我有一组元素要求它们的最小宽度等于它们的高度但高度没有明确设置目前我可以通过设置 css 来实现这一点min width通过 jQuery 属性 document ready function myClass each functio
Asp.net 图像大小调整质量

我有这段代码用于调整和保存用户发布的文件的大小问题是当我调整到 480px 宽度时图像质量会下降很多而且大小以 kb 为单位仍然很大例如当我使用 Paint 之类的软件手动将同一图像的大小调整为 480px 时质量仍
如何在全日历中将事件的背景颜色更改为不同的颜色？

我正在使用最新版本fullcalendar 我查看了文档如何更改背景颜色事件但我不知道如何处理不同的事件我需要带有红色蓝色绿色事件的代码示例如下图所示我在文档网站上看到了这段代码但我无法应用两种颜色 calendar full
在 check_box_tag 的 onclick 函数中传递 Rails 变量

我正在使用 Rails 3 0 在我看来我试图拥有一个每行都有一个复选框的表以及一个带有特定参数 rails 变量的 onclick 事件函数 table tr td gt td tr table 我尝试了很多方法但没有成功我知道
使用 slick 3.0.0 流结果和 Postgresql 的正确方法是什么？

我正在尝试弄清楚如何使用流畅的流媒体我使用 slick 3 0 0 和 postgres 驱动程序情况如下服务器必须向客户端提供按大小以字节为单位限制的数据块分割的数据序列因此我编写了以下巧妙的查询 val sequences
获取 Jenkins Pipeline 插件中工作区目录的绝对路径

我目前正在对 Jenkins Pipeline 插件以前称为 Workflow 插件进行一些评估阅读文档我发现我目前无法使用以下命令检索工作区路径env WORKSPACE 目前以下变量在工作流程脚本中不可用节点标签工作空间 S
使用 .NET RegEx 检索第二个“-”之后的字符串部分

这是我的第一条堆栈消息希望你能帮忙我有几个字符串需要分解以供以后使用这里有几个例子来说明我的意思 fred 064528 NEEDED frederic 84728957 NEEDED sam 028 NEEDED 正如您在上面看到的
有没有办法跨模块使用局部变量？

我有一个带有模块和用户窗体的 VBA 项目我想在我的用户表单中使用模块中的一些变量我是否有必要在全局声明这些变量我不喜欢全局变量因为它们在代码执行后保留在内存中并且我必须在宏开始时一一重置这些变量我无法使用关键字 End 从内存
电子邮件中的 Message-ID 有什么用？

据我所知每个消息 ID 都必须是唯一的但是如果我们强制标头具有固定值则可能会创建重复的消息 ID 所以我不明白他们说 Message ID 应该是唯一的有什么意义但他们很容易创建重复项如果任何有一点阅读和基本编程知识的人都可以轻松
使用 Keras 加载之前保存的重新训练的 VGG16 模型时出现 ValueError

我在 Keras 中使用 VGG16 架构我通过以下方式对其进行了重新训练以满足我的需求 vgg16 model keras applications vgg16 VGG16 model Sequential for layer in v
CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

这个问题在这里已经有答案了 Thrust 库可用于对数据进行排序该调用可能如下所示带有键和值向量 thrust sort by key d keys begin d keys end d values begin 在 CPU 上调用 d

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制] 的相关文章

随机推荐

热门标签