thrust库学习（一） —— cub::DeviceRadixSort

2023-11-10

1.cub::DeviceRadixSort

1.1 介绍

DeviceRadixSort提供设备范围内的并行操作，用于跨驻留在设备可访问内存中的数据项序列计算基数排序。基数排序方法按升序（或降序）排列项目。该算法依赖于键的位置表示，即每个键由从最低有效到最高有效指定的有序符号序列（例如，数字、字符等）组成。对于给定的键输入序列和一组指定符号字母表总顺序的规则，基数排序方法生成这些键的字典顺序。
DeViCaldixSo排序可以对所有内置的C++数字基元类型（无符号char、int、双等）以及CUDA的半精度浮点类型进行排序。尽管直接基数排序方法只能应用于无符号整数类型，但DeviceRadixSort能够通过简单的位转换对有符号和浮点类型进行排序，以确保字典键排序。
基数排序的工作复杂度与输入大小呈线性关系，导致性能吞吐量稳定，问题大小足以使GPU饱和。下表说明了DeviceRadixSort:：SortKeys在统一随机uint32密钥的不同CUDA体系结构中的性能。其他场景的性能图可在下面的详细方法描述中找到…

1.2 Static Public Methods

1.2.1 KeyT-value pairs

1.2.1.1 ascending order

在这里插入图片描述

以上两种不同的函数声明，调用时传参存在少许不同（是否使用DoubleBuffers包装设备指针），函数功能相同，详见下列内容。

第一种（未使用Doublebuffer）

static CUB_RUNTIME_FUNCTION cudaError_t cub::DeviceRadixSort::SortPairs	(	
   						void * 	d_temp_storage,
   						size_t & 	temp_storage_bytes,
   						const KeyT * 	d_keys_in,
   						KeyT * 	d_keys_out,
   						const ValueT * 	d_values_in,
   						ValueT * 	d_values_out,
   						int 	num_items,
   						int 	begin_bit = 0,
   						int 	end_bit = sizeof(KeyT) * 8,
   						cudaStream_t 	stream = 0,
   						bool 	debug_synchronous = false )	
{
   	//  排序操作不会改变输入数据的内容
   	//  [begin_bit, end_bit)可以指定区分密钥位的可选位子范围。这可以减少整体排序开销并产生相应的性能改进
   	//  此操作需要分配一个为O ( N+P)的临时设备存储，其中N是输入的长度，P是设备上的流式多处理器数量。
   	// 当d_temp_storage是NULL时，不做任何工作并返回所需的分配大小temp_storage_bytes
   	.........
}

下面的代码片段说明了int键的设备向量与关联的int值向量的排序。
在这里插入图片描述
2. 第二种（使用Doublebuffer）

下面的代码片段说明了int键的设备向量与关联的int值向量的排序。

1.2.1.2 decending order

函数声明（共两个，区别：是否使用DoubleBuffers包装设备指针）
在这里插入图片描述

第一种（未使用Doublebuffer）
第二种（使用Doublebuffer）

在这里插入图片描述

1.2.2 Keys-only

此类函数只是对keys进行升序和降序排列，其用法与3.2.1类似。

1.2.2.1 ascending order

在这里插入图片描述

1.2.2.1 decending order

在这里插入图片描述

此博文内容可详见官方文档。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

thrust库学习（一） —— cub::DeviceRadixSort 的相关文章

最大流算法 - 标号法

标号法求最大流图论中网络的相关概念见上篇博客算法基本思想从某个初始流开始重复地增加流的值到不能再改进为止则最后所得的流将是一个最大流为此不妨将每条边上的流量设置为0作为初始流量为了增加给定流量的值我们必须找出从发点到收点的
python3.11安装，解决pip is configured with locations that require TLS/SSL问题

系统 centos7 4 虚拟机 python版本本机自带的2 7 5 以及参考python安装的python3 11 pip版本本机自带的8 1 2 参考pip安装升级升级到了20 3 4 pip3版本为22 3 1 openssl
FPGA实战小项目2

基于FPGA的贪吃蛇游戏基于FPGA的贪吃蛇游戏基于fpga的数字密码锁ego1 基于fpga的数字密码锁ego1 基于fpga的数字时钟 basys3 基于fpga的数字时钟 basys3
正点原子STM32(基于HAL库)4

目录 ADC 实验 ADC 简介单通道ADC 采集实验 ADC 寄存器硬件设计程序设计下载验证单通道ADC 采集 DMA 读取实验 ADC DMA 寄存器硬件设计程序设计下载验证多通道ADC 采集 DMA 读取实验 A
图的邻接矩阵与邻接表的建立，c/c++描述

图里数据节点是多对多的关系一个节点有多个前驱也有多个后继甚至还有无向图不区分前驱和后继只需要节点之间有邻接关系即可因此描述这种数据关系需要新的数据结构图有顶点集和边集组成顶点代表一个数据节点边代表数据顶点间的邻接关系
impdp参数+impdp交互模式的命令列表

impdp参数 1 help 是否显示用于导入的联机帮助 2 exclude 排除特定的对象豢型 3 directory 让转储文件日志文件和sql文件使用的目录对象 4 dumpfile 需要导入的转储文件的列表 5 include 包
c语言如何定义标识符常量变量,标识符、常量和变量

该楼层疑似违规已被系统折叠隐藏此楼查看此楼 1 单选题 C语言主要是借助以下哪个功能来实现程序模块化 A 定义函数 B 定义常量和外部变量 C 三种基本结构语句 D 丰富的数据类型参考答案 A 参考解析 C语言用函数实现软件的模块化设计
小程序原理

开发过一段时间小程序了对于我们现在使用的业务来说使用小程序开发上手很快所以反思了一下那么小程序的原理到底是怎么样的呢我自己总结一下小程序的架构官网原话当小程序基于 WebView 环境下时 WebView 的 JS 逻辑 D
deepfake教程

https github com iperov DeepFaceLab 首先下载根据不同系统不同显卡分类下载对应版本能在文件夹下看到以下命令一 clear workspace 重置一提取帧 extract images from v
k8s占用的端口号用 kubectl get svc 和lsof -i、netstat 命令都查不到

如果你使用了 kubectl get svc 和 lsof i 或 netstat 命令查看端口却没有查到 Kubernetes 的服务有可能是因为 Kubernetes 服务运行在容器内部在这种情况下你可以通过以下步骤来查看 Ku
音视频 ffmpeg ffplay ffprobe命令行

ffmpeg工具命令格式 ffmpeg 全局选项输入选项 i input url 输出选项 output url 帮助命令查看解封装帮助 dhav ffmpeg4 2才有 ffmpeg h demuxer dhav ffmpeg h
黄广斌谈ELM进展：为深度学习提供理论支持，将勾连生物学习

强大的深度神经网络仍有很多待解决的问题超限学习机 ELM 发明人新加坡南阳理工大学副教授黄广斌认为 ELM能够有效地拓展神经网络的理论和算法近日黄广斌发表文章超限学习机筑梦普适学习和普适智能 Extreme learning
【数据结构】堆的向上调整和向下调整以及相关方法

文章目录一堆的概念二堆的性质三堆的分类 1 大根堆 2 小根堆四说明五堆的结构六堆的向上调整 1 图示 2 代码实现 3 时间复杂度分析七堆的向下调整 1 思路 2 代码实现八删除根 1 思路 2 代码实现
CentOS6 YUM 源失效问题解决办法

问题描述 Yum 源失效无法正常使用 Yum 错误信息如下 http mirrors aliyun com centos 6 updates x86 64 repodata repomd xml Errno 14 PYCURL ERROR
CentOs 6.5下java 安装

我们下载jdk 的rpm包到要安装的服务器上然后要进行下面的工作 1 移除系统自带的jdk 1 查找系统自带的jdk版本输入命令 rpm qa grep jdk 2 移除系统自带的jdk 输入命令 yum y remove java 1
fatal: Not a git repository (or any of the parent directories): .git

问题描述解决方案
js之事件委托

在js的事件流模型中事件的触发分为3个阶段 1 捕获阶段由外向内传播寻找目标元素 2 目标阶段找到事件触发的目标元素 3 冒泡阶段事件由内向外冒泡事件委托也被称为事件代理那么是事件委托呢用一个例子来说明 div div di
万字详解：Activiti 工作流引擎

点击上方芋道源码选择设为星标管她前浪还是后浪能浪的浪才是好浪每天 10 33 更新文章每天掉亿点点头发源码精品专栏原创 Java 2021 超神之路很肝中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网
BART论文要点解读：看这篇就够了

全称 Denoising Sequence to Sequence Pre training for Natural Language Generation Translation and Comprehension BART来源于Bidi
java晋级赛深入并发编程

根据黑马java并发编程学习做的笔记传送门 https www bilibili com video BV16J411h7Rd p 15 java晋级赛深入并发编程一多线程基础进程与线程创建线程的方式及运行原理创建线程的方式

随机推荐

进程调度的控制—文件锁

前言在进程之间我们不能决定应该先去调度哪一个进程这时候我们就需要对一个文件加锁来要求那个先来执行整体文件锁 int flock int fd int operation fd 文件描述符 operation 定义的宏也就是选项
STL标准模板库学习笔记一（STL序列容器）

目录 STL 容器 STL迭代器 array vector deque功能 list 和 forward list 功能 vector emplace back 和push back 的区别 vector插入函数insert和emplace
ST7796S MIPI单通道， 320x480初始化代码

ST7796S MIPI单通道接口 320x480分辨率初始化代码代码示例 loadWidthSet 320 loadHeightSet 480 loadHBPSet 180 loadVBPSet 20 loadHFPSet 20 loa
【C语言】统计素数并求和

改名字了 2022 2 26之前叫回到正题由题可知题目要求在用户自己输入的定整数M和N区间内求出素数的个数并且对他们求和要想解决编程题目首先要知道题目问的是什么素数一般指质数质数是指在大于1的自然数中除了1和它本身以外不再
版本控制之最佳实践（Git版）

现如今应该每个开发者都在使用版本控制工具了吧然而如果你理解版本控制的基本规则你便能更好地发挥它的效用在此我们汇总了一些最佳实践希望你在使用Git做版本控制时能够了然于心得心应手 1 相关的改动才放一起提交一次提交 git
hi35 web服务器

在hi3516A上移植好的boa嵌入式web服务器代码 boa有61k 一次只能处理一个请求 https download csdn net download ganxiaoyagn000 9239729 appweb Appweb 6 1
android 11 存储权限,Android 11存储权限强制申请

private static final int REQUEST CODE 1024 private void requestPermission if Build VERSION SDK INT gt Build VERSION CODE
OC中的基本容器和基本数据类型

基本数据类型 NSRange 是一个结构体里面有两个数据成员数据类型都为NSUInteger 就是c语言中的无符号整形一个是location表示集合的起始地址另外一个变量是length表示从起始地址开始算多少个元素 NSRange的三
CTF-web 简介

web部分是CTF的重要组成部分之一素有WEB大魔王之称题目种类繁多关键是如何发现漏洞的类型和怎样构造特殊的负载绕过过滤 CTF分为三种模式解题模式攻防模式混合模式在线工具 https www ctftools com dow
JVM运行时数据区

文章目录 JVM内存结构图 1 运行时数据区域 JDK 1 7 JDK 1 8 1 线程栈虚拟机栈 2 本地方法栈 3 程序计数器 4 方法区元空间 5 堆 6 运行时常量池 Runtime Constant Pool 7 直接内存 D
新版MetaMask如何获取当前账户地址

window addEventListener load async gt Modern dapp browsers if window ethereum let ethereum window ethereum window web3 n
C语言中 -＞和 . 的区别

在C语言中 gt 和都是用于访问结构体 struct 成员的运算符但它们的使用场景略有不同 1 gt 运算符用于访问结构体指针的成员当你有一个指向结构体的指针时你可以使用 gt 运算符来访问该结构体的成员例如 struct Per
Linux使用第三方库链接的使用方式——静态式

目录二第三方库为静态库时方法1 两个窗口去分别模拟两个窗口公司A 客户端公司B 服务端的视角案例实现提前插播一条指令生成静态库文件的指令方法2 优化该方法在上述方法1的第10步后开始进行这里强调一个问题今天我们来学习将
记录一个AFR去嵌S参数异常的案例。

最近在使用AFR去嵌一个S参数的时候遇到了如下问题首先介绍一下这个S参数一端是MCIO连接器另一端是CEM连接器所以测试的时候一端接MCIO测试治具一端接CEM测试治具再通过线缆将测试治具连接到VNA上我大概画了一个简图如下
Java 输出机制数据类型基本数据类型转换基本数据类型和String类型的转换

目录一输出机制 1 print和println的差别 2 可接收不同类型参数 3 输出函数中符号的使用二数据类型 1 整型类型 2 浮点类型 3 字符类型三基本数据类型转换 1 自动类型转换 2 强制类型转换 3 练习题四
目标检测算法回顾之发展概览

目标检测算法的发展时间线发展历史轴时间轴线图算法方法概览思维导图说明本文仅供学习发展历史轴时间轴线图目标检测的算法发展可以追溯到很久之前这里我根据前两年的综述论文加上这两年的发展也画了两个部分的相关模型发展轴可以看到
linux命令之ssh详解

ssh openssh套件中的客户端连接工具 Linux在线工具 linux命令在线工具个人博客网站博客 Java17中文文档 JDK17中文手册 Gradle8 1 1中文文档 Gradle中文文档补充说明 ssh命令是opens
（转载）Linux 系统内核的调试

调试是软件开发过程中一个必不可少的环节在 Linux 内核开发的过程中也不可避免地会面对如何调试内核的问题但是 Linux 系统的开发者出于保证内核代码正确性的考虑不愿意在 Linux 内核源代码树中加入一个调试器他们认为内核中的调
PHP实现微信小程序状态检测（违规、暂停服务、维护中、正在修复）

实现原理进入那些状态不正常的小程序会被重定向至一个Url 使用抓包软件抓取这个Url 剔除不必要参数使用cURl函数请求网页获得HTML内容根据内容解析出当前APPID的小程序的状态代码
thrust库学习（一） —— cub::DeviceRadixSort

1 cub DeviceRadixSort 1 1 介绍 DeviceRadixSort提供设备范围内的并行操作用于跨驻留在设备可访问内存中的数据项序列计算基数排序基数排序方法按升序或降序排列项目该算法依赖于键的位置表示即每个键

thrust库学习（一） —— cub::DeviceRadixSort

1.cub::DeviceRadixSort

1.1 介绍

1.2 Static Public Methods

1.2.1 KeyT-value pairs

1.2.1.1 ascending order

1.2.1.2 decending order

1.2.2 Keys-only

1.2.2.1 ascending order

1.2.2.1 decending order

thrust库学习（一） —— cub::DeviceRadixSort 的相关文章

随机推荐

热门标签