CUDA - 为什么基于扭曲的并行减少速度较慢？

2024-03-27

我有关于基于扭曲的并行减少的想法，因为根据定义，扭曲的所有线程都是同步的。

因此，我们的想法是输入数据可以减少 64 倍（每个线程减少两个元素），而无需任何同步。

与 Mark Harris 的原始实现相同，减少应用于块级，数据位于共享内存上。http://gpgpu.org/static/sc2007/SC07_CUDA_5_Optimization_Harris.pdf http://gpgpu.org/static/sc2007/SC07_CUDA_5_Optimization_Harris.pdf

我创建了一个内核来测试他的版本和我的基于扭曲的版本。
内核本身完全相同地将 BLOCK_SIZE 元素存储在共享内存中，并在输出数组中的唯一块索引处输出其结果。

该算法本身运行良好。用完整的数组进行测试以测试“计数”。

实现的函数体：

/**
 * Performs a parallel reduction with operator add 
 * on the given array and writes the result with the thread 0
 * to the given target value
 *
 * @param inValues T* Input float array, length must be a multiple of 2 and equal to blockDim.x
 * @param targetValue float 
 */
__device__ void reductionAddBlockThread_f(float* inValues,
    float &outTargetVar)
{
    // code of the below functions
}

1.他的版本的实现：

if (blockDim.x >= 1024 && threadIdx.x < 512)
    inValues[threadIdx.x] += inValues[threadIdx.x + 512];
__syncthreads();
if (blockDim.x >= 512 && threadIdx.x < 256)
    inValues[threadIdx.x] += inValues[threadIdx.x + 256];
__syncthreads();
if (blockDim.x >= 256 && threadIdx.x < 128)
    inValues[threadIdx.x] += inValues[threadIdx.x + 128];
__syncthreads();
if (blockDim.x >= 128 && threadIdx.x < 64)
    inValues[threadIdx.x] += inValues[threadIdx.x + 64];
__syncthreads();

//unroll last warp no sync needed
if (threadIdx.x < 32)
{
    if (blockDim.x >= 64) inValues[threadIdx.x] += inValues[threadIdx.x + 32];
    if (blockDim.x >= 32) inValues[threadIdx.x] += inValues[threadIdx.x + 16];
    if (blockDim.x >= 16) inValues[threadIdx.x] += inValues[threadIdx.x + 8];
    if (blockDim.x >= 8) inValues[threadIdx.x] += inValues[threadIdx.x + 4];
    if (blockDim.x >= 4) inValues[threadIdx.x] += inValues[threadIdx.x + 2];
    if (blockDim.x >= 2) inValues[threadIdx.x] += inValues[threadIdx.x + 1];

    //set final value
    if (threadIdx.x == 0)
        outTargetVar = inValues[0];
}

资源：

使用 4 个同步线程
12 使用 if 语句
11 读+加+写操作
1最终写操作
5 寄存器的使用

表现：

五次测试运行平均值：~ 19.54 ms

2. 基于扭曲的方法：（与上面相同的函数体）

/*
 * Perform first warp based reduction by factor of 64
 *
 * 32 Threads per Warp -> LOG2(32) = 5
 *
 * 1024 Threads / 32 Threads per Warp = 32 warps
 * 2 elements compared per thread -> 32 * 2 = 64 elements per warp
 *
 * 1024 Threads/elements divided by 64 = 16
 * 
 * Only half the warps/threads are active
 */
if (threadIdx.x < blockDim.x >> 1)
{
    const unsigned int warpId = threadIdx.x >> 5;
    // alternative threadIdx.x & 31
    const unsigned int threadWarpId = threadIdx.x - (warpId << 5);
    const unsigned int threadWarpOffset = (warpId << 6) + threadWarpId;

    inValues[threadWarpOffset] += inValues[threadWarpOffset + 32];
    inValues[threadWarpOffset] += inValues[threadWarpOffset + 16];
    inValues[threadWarpOffset] += inValues[threadWarpOffset + 8];
    inValues[threadWarpOffset] += inValues[threadWarpOffset + 4];
    inValues[threadWarpOffset] += inValues[threadWarpOffset + 2];
    inValues[threadWarpOffset] += inValues[threadWarpOffset + 1];
}

// synchronize all warps - the local warp result is stored
// at the index of the warp equals the first thread of the warp
__syncthreads();

// use first warp to reduce the 16 warp results to the final one
if (threadIdx.x < 8)
{
    // get first element of a warp
    const unsigned int warpIdx = threadIdx.x << 6;

    if (blockDim.x >= 1024) inValues[warpIdx] += inValues[warpIdx + 512];
    if (blockDim.x >= 512) inValues[warpIdx] += inValues[warpIdx + 256];
    if (blockDim.x >= 256) inValues[warpIdx] += inValues[warpIdx + 128];
    if (blockDim.x >= 128) inValues[warpIdx] += inValues[warpIdx + 64];

    //set final value
    if (threadIdx.x == 0)
        outTargetVar = inValues[0];
}

资源：

使用 1 个同步线程
7 if 语句
10 读加写操作
1最终写操作
5 寄存器的使用

5 位移位
1 add
1 sub

表现：

五次测试运行平均值：~ 20.82 ms

在 a 上多次测试两个内核Geforce 8800 GT 512 MB with 256mb 浮点值。并运行内核每块 256 个线程（100% 入住率）。

基于扭曲的版本是〜1.28慢几毫秒。

如果未来的卡允许更大的块大小，基于扭曲的方法仍然不需要进一步的同步语句，因为最大值为 4096，它减少到 64，最终扭曲减少到 1

为什么它不更快？或者这个想法、内核的缺陷在哪里？

从资源使用来看，扭曲方法应该领先吗？

Edit1：更正了内核，仅一半线程处于活动状态，不会导致越界读取，添加了新的性能数据

我认为你的代码比我的代码慢的原因是在我的代码中，第一阶段每个 ADD 的活动扭曲数量只有一半。在您的代码中，所有扭曲在第一阶段的所有时间内都处于活动状态。因此，总的来说，您的代码执行更多的扭曲指令。在 CUDA 中，重要的是要考虑执行的总“warp 指令”，而不仅仅是一个 warp 执行的指令数。

另外，只使用一半的扭曲是没有意义的。启动扭曲只是为了让它们评估两个分支并退出会产生开销。

另一个想法是使用unsigned char and short实际上可能会降低你的性能。我不确定，但它肯定不会保存寄存器，因为它们没有打包到单个 32 位变量中。

另外，在我的原始代码中，我用模板参数 BLOCKDIM 替换了 blockDim.x，这意味着它只使用了 5 个运行时 if 语句（第二阶段的 if 被编译器消除了）。

顺便说一句，一种更便宜的计算方式threadWarpId is

const int threadWarpId = threadIdx.x & 31;

你可能会检查以获得更多想法。

EDIT:这是另一种基于扭曲的块减少。

template <typename T, int level>
__device__
void sumReduceWarp(volatile T *sdata, const unsigned int tid)
{
  T t = sdata[tid];
  if (level > 5) sdata[tid] = t = t + sdata[tid + 32];
  if (level > 4) sdata[tid] = t = t + sdata[tid + 16];
  if (level > 3) sdata[tid] = t = t + sdata[tid +  8];
  if (level > 2) sdata[tid] = t = t + sdata[tid +  4];
  if (level > 1) sdata[tid] = t = t + sdata[tid +  2];
  if (level > 0) sdata[tid] = t = t + sdata[tid +  1];
}

template <typename T>
__device__
void sumReduceBlock(T *output, volatile T *sdata)
{
  // sdata is a shared array of length 2 * blockDim.x

  const unsigned int warp = threadIdx.x >> 5;
  const unsigned int lane = threadIdx.x & 31;
  const unsigned int tid  = (warp << 6) + lane;

  sumReduceWarp<T, 5>(sdata, tid);
  __syncthreads();

  // lane 0 of each warp now contains the sum of two warp's values
  if (lane == 0) sdata[warp] = sdata[tid];

  __syncthreads();

  if (warp == 0) {
    sumReduceWarp<T, 4>(sdata, threadIdx.x);
    if (lane == 0) *output = sdata[0];
  }
}

这应该会快一点，因为它使用在第一阶段启动的所有扭曲，并且在最后阶段没有分支，代价是额外的分支、共享加载/存储和__syncthreads()在新的中期阶段。我还没有测试过这段代码。如果你运行它，请告诉我它的性能如何。如果您在原始代码中使用 blockDim 模板，它可能会更快，但我认为这段代码更简洁。

注意临时变量t使用是因为 Fermi 及之后的架构使用纯加载/存储架构，所以+=从共享内存到共享内存会导致额外的负载（因为sdata指针必须是易失性的）。显式加载到临时一次性中可以避免这种情况。在 G80 上，这不会对性能产生影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA - 为什么基于扭曲的并行减少速度较慢？的相关文章

C++ AMP 目前的状况如何

我正在使用 C 编写高性能代码并且一直在使用 CUDA 和 OpenCL 最近还使用我非常喜欢的 C AMP 然而我有点担心它没有得到发展和扩展并且会消亡让我产生这个想法的是即使是 MS C AMP 博客也已经沉默了大约一年查看
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
Flow Shop 到布尔可满足性 [多项式时间缩减]

我联系您是为了了解如何将流水车间调度问题转化为布尔可满足性我已经对 N N 数独 N 皇后和班级调度问题进行了此类简化但我对如何将流水车间转换为 SAT 有一些问题 SAT 问题如下所示目标是使用不同的布尔变量找到每个变量的影
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1

随机推荐

ASP.NET MVC Html 帮助程序

我尝试创建一些 Html Helpers 它们将具有开始标记和结束标记其中将包含其他内容如 Html BeginForm 那样例如在 Razor 中我们可以使用 Html BeginForm 帮助器其语法如下 using Htm
如何将外部JS脚本添加到VueJS组件中？

我必须为支付网关使用两个外部脚本现在两者都被放入index html file 但是我不想在开始时加载这些文件仅当用户打开特定组件时才需要支付网关 using router view 有办法实现这个目标吗 Thanks 解决这个问题的
如何手动填充 ViewModel（不使用 AutoMapper！）

我知道有很多关于这个主题的帖子但我找不到一个可以帮助我做我想做的事情我知道我最终会使用 Automapper 但在开始使用它之前我想学习如何手动执行操作我想创建一个 ViewModel 通过存储库用我的实体中的值填充它并将其发送到我
从 Mathematica 中的 Web 设置用户代理导入

当我使用 Mathematica 连接到我的网站时 Import mysite Data 并查看我的 Apache 日志我看到 99 XXX XXX XXX 22 May 2011 19 36 28 0200 GET HTTP 1 1 2
我可以向 JLabel 添加操作侦听器吗？

我想用 JLabel 替换 JButton 并且希望我的代码在单击 JLabel 时执行某些操作当我拥有 JButton 时我使用操作侦听器来处理按钮上的点击 myButton addActionListener new clicksL
如何在Robot Framework中将图像添加到html日志中？

如何将图像添加到机器人框架的html日志中我想在 Robot Framework 的 html 日志中添加一些图片有人可以对此有一些想法吗 Keyword Log来自内置库有html参数可能可以满足您的需要参见文档 http robo
DDD：通过身份引用聚合根内的实体

我一直在寻找正确的参考方式entities位于一个聚合根当我们只得到他们的身份来自 URL 参数我问了一个上一个问题 https stackoverflow com questions 7196820 update an entity
C++ 方法调用中前导“::”的目的是什么[重复]

这个问题在这里已经有答案了我一直在使用 Boost 库在 Boost Exception 中我注意到如下代码 define BOOST THROW EXCEPTION x boost throw exception x 只是出于好奇
避免控制台消息形式封装函数

我正在使用一个包函数 coreenv 来自 seewave 它在控制台中创建一条请稍候消息正如我反复所说的那样该消息非常烦人所以我需要一种方法从我的代码中暂时禁止控制台消息 OR 访问功能代码并取消消息行以下不是我的真实代
为什么 JSON 比 XML 更轻量？

我发现 JSON 和 XML 之间的区别因为两者都是为了系统之间的数据交换但是JSON和XML之间有一个很大的区别即JSON比XML更轻量级但我无法找到 JSON 轻量级的真正原因是什么让 JSON 变得轻量级我发现的一个答案
在 Mac OS X 上使用 pip 安装 pycrypto 时出现 Broken Pipe 错误

我正在尝试通过 pip 在 OS X 上安装 pycrypto 版本 2 3 当编译器尝试编译 MD2 c 时我收到 Broken pipeline 错误使用 easy install 时我遇到了非常类似的错误这是我收到的错误 bas
在 Three.js 中针对“子场景”进行光线投射

因此我正在使用 Three js 示例中的 webgl interactive cubes html 并且我有一个相对简单的问题是否可以测试光线与对象的子对象的相交例如如果我做类似的事情 for var i 0 i lt 2000
IPython 的历史向后搜索未按预期工作

IPython 的history search backward功能是我最喜欢的功能之一 history search backward允许您键入命令的一部分然后在阅读行历史记录中向后搜索以该命令的该部分开头的命令默认情况下我相信这
Kafka分区中消息分布不均匀

我有一个主题有 10 个分区 1 个消费者组有 4 个消费者工作线程大小为 3 我可以看到分区中的消息分布不均匀一个分区有太多数据而另一个分区是空闲的如何让我的生产者将负载均匀分配到所有分区以便所有分区都得到正确利用根据De
VBscript 正则表达式替换

我不知道为什么这仅适用于找到的最后一个实例而不是我所期望的所有实例任何帮助表示赞赏输入字符串 a href http www scirra com target blank http www scirra com a br br a
Windows 应用程序认证失败通用 Windows 应用程序 10

我使用 Html CSS 和 JS 开发了一个 Windows 10 通用应用程序为了允许内联脚本我使用 ms appx web 上下文并将 ms appx web login html 设置为清单中的起始页我已在清单文件中添加了
从 firebase 函数连接到 MongoDB Atlas

我正在尝试从 firebase 函数连接到 mongodb atlas 例如 export default async gt try const url mongodb srv foo email protected cdn cgi l e
解组到相同的结构但不同的 json 名称

我正在尝试解组特定的 json 数据执行一些数据转换然后编组数据并发送它但是我想用不同的 json 变量名称来编组它我可以将数据编组到另一个 json 名称例如使用 xyz 而不是 abc abc 1 to xyz 1 packa
日历控件 - 以编程方式突出显示日期

我正在摆弄日历控件但似乎无法完成对日期进行着色的简单任务如果用户输入 7 个日期我想在日历上对这些日期进行阴影处理以便用户知道它们已被选择本质上我想做 Calendar HighlightDate 5 1 11 gt 想象的哈哈我
CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h

CUDA - 为什么基于扭曲的并行减少速度较慢？

CUDA - 为什么基于扭曲的并行减少速度较慢？ 的相关文章

随机推荐

热门标签

CUDA - 为什么基于扭曲的并行减少速度较慢？的相关文章