cuda中的count3非常慢

2024-04-08

我在 CUDA 中编写了一个小程序，用于计算 C 数组中有多少个 3 并打印它们。

#include <stdio.h>
#include <assert.h>
#include <cuda.h>
#include <cstdlib>

__global__ void incrementArrayOnDevice(int *a, int N, int *count)
{
    int id = blockIdx.x * blockDim.x + threadIdx.x;

    //__shared__ int s_a[512]; // one for each thread
    //s_a[threadIdx.x] = a[id];

    if( id < N )
    {
        //if( s_a[threadIdx.x] == 3 )
        if( a[id] == 3 )
        {
            atomicAdd(count, 1);
        }
    }
}

int main(void)
{
    int *a_h;   // host memory
    int *a_d;   // device memory

    int N = 16777216;

    // allocate array on host
    a_h = (int*)malloc(sizeof(int) * N);
    for(int i = 0; i < N; ++i)
        a_h[i] = (i % 3 == 0 ? 3 : 1);

    // allocate arrays on device
    cudaMalloc(&a_d, sizeof(int) * N);

    // copy data from host to device
    cudaMemcpy(a_d, a_h, sizeof(int) * N, cudaMemcpyHostToDevice);

    // do calculation on device
    int blockSize = 512;
    int nBlocks = N / blockSize + (N % blockSize == 0 ? 0 : 1);
    printf("number of blocks: %d\n", nBlocks);

    int count;
    int *devCount;
    cudaMalloc(&devCount, sizeof(int));
    cudaMemset(devCount, 0, sizeof(int));

    incrementArrayOnDevice<<<nBlocks, blockSize>>> (a_d, N, devCount);

    // retrieve result from device
    cudaMemcpy(&count, devCount, sizeof(int), cudaMemcpyDeviceToHost);

    printf("%d\n", count);

    free(a_h);
    cudaFree(a_d);
    cudaFree(devCount);
}

我得到的结果是：真实0m3.025s 用户0m2.989s 系统0m0.029s

当我在 4 个线程的 CPU 上运行它时，我得到：实际0m0.101s 用户0m0.100s 系统0m0.024s

请注意，GPU 是旧的 - 我不知道确切的型号，因为我没有 root 访问权限，但它运行的 OpenGL 版本是使用 MESA 驱动程序的 1.2。

难道我做错了什么？我该怎么做才能使它运行得更快？

注意：我尝试为每个块使用存储桶（因此每个块的atomicAdd() 都会减少），但我得到了完全相同的性能。我还尝试将分配给该块的 512 个整数复制到共享内存块（您可以在注释中看到它），并且时间再次相同。

这是为了回答您的问题“我该怎么做才能让它运行得更快？”正如我在评论中提到的，计时方法（可能）存在问题，我对速度改进的主要建议是使用“经典并行缩减”算法。以下代码实现了更好的（在我看来）计时测量，并且还将您的内核转换为缩减风格的内核：

#include <stdio.h>
#include <assert.h>
#include <cstdlib>


#define N (1<<24)
#define nTPB 512
#define NBLOCKS 32

__global__ void incrementArrayOnDevice(int *a, int n, int *count)
{
  __shared__ int lcnt[nTPB];
  int id = blockIdx.x * blockDim.x + threadIdx.x;
  int lcount = 0;
  while (id < n) {
    if (a[id] == 3) lcount++;
    id += gridDim.x * blockDim.x;
    }
  lcnt[threadIdx.x] = lcount;
  __syncthreads();
  int stride = blockDim.x;
  while(stride > 1) {
    // assume blockDim.x is a power of 2
    stride >>= 1;
    if (threadIdx.x < stride) lcnt[threadIdx.x] += lcnt[threadIdx.x + stride];
    __syncthreads();
    }
  if (threadIdx.x == 0) atomicAdd(count, lcnt[0]);
}

int main(void)
{
    int *a_h;   // host memory
    int *a_d;   // device memory
    cudaEvent_t gstart1,gstart2,gstop1,gstop2,cstart,cstop;
    float etg1, etg2, etc;

    cudaEventCreate(&gstart1);
    cudaEventCreate(&gstart2);
    cudaEventCreate(&gstop1);
    cudaEventCreate(&gstop2);
    cudaEventCreate(&cstart);
    cudaEventCreate(&cstop);

    // allocate array on host
    a_h = (int*)malloc(sizeof(int) * N);
    for(int i = 0; i < N; ++i)
        a_h[i] = (i % 3 == 0 ? 3 : 1);

    // allocate arrays on device
    cudaMalloc(&a_d, sizeof(int) * N);

    int blockSize = nTPB;
    int nBlocks = NBLOCKS;
    printf("number of blocks: %d\n", nBlocks);

    int count;
    int *devCount;
    cudaMalloc(&devCount, sizeof(int));
    cudaMemset(devCount, 0, sizeof(int));

    // copy data from host to device
    cudaEventRecord(gstart1);
    cudaMemcpy(a_d, a_h, sizeof(int) * N, cudaMemcpyHostToDevice);
    cudaMemset(devCount, 0, sizeof(int));
    cudaEventRecord(gstart2);
    // do calculation on device

    incrementArrayOnDevice<<<nBlocks, blockSize>>> (a_d, N, devCount);
    cudaEventRecord(gstop2);

    // retrieve result from device
    cudaMemcpy(&count, devCount, sizeof(int), cudaMemcpyDeviceToHost);
    cudaEventRecord(gstop1);

    printf("GPU count = %d\n", count);
    int hostCount = 0;
    cudaEventRecord(cstart);
    for (int i=0; i < N; i++)
      if (a_h[i] == 3) hostCount++;
    cudaEventRecord(cstop);

    printf("CPU count = %d\n", hostCount);
    cudaEventSynchronize(cstop);
    cudaEventElapsedTime(&etg1, gstart1, gstop1);
    cudaEventElapsedTime(&etg2, gstart2, gstop2);
    cudaEventElapsedTime(&etc, cstart, cstop);

    printf("GPU total time   = %fs\n", (etg1/(float)1000) );
    printf("GPU compute time = %fs\n", (etg2/(float)1000));
    printf("CPU time         = %fs\n", (etc/(float)1000));
    free(a_h);
    cudaFree(a_d);
    cudaFree(devCount);
}

当我在相当快的 GPU（Quadro 5000，比 Tesla M2050 慢一点）上运行时，我得到以下结果：

number of blocks: 32
GPU count = 5592406
CPU count = 5592406
GPU total time   = 0.025714s
GPU compute time = 0.000793s
CPU time         = 0.017332s

我们发现 GPU 的计算部分比这种（简单的单线程）CPU 实现要快得多。当我们添加传输数据的成本时，GPU 版本会更慢，但不会慢 30 倍。

通过比较，当我对你的原始算法进行计时时，我得到了这样的数字：

GPU total time   = 0.118131s
GPU compute time = 0.093213s

我的系统配置是 Xeon X5560 CPU、RHEL 5.5、CUDA 5.0、Quadro5000 GPU。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cuda中的count3非常慢的相关文章

金特 + XNA (C#)

是否可以使用jint http jint codeplex com操作使用 XNA C 创建的 3D 环境并向该环境添加功能再次使用 jint 作为 Jint 的贡献者我会推荐你Jint http jint codeplex com
WebClient.DownloadDataAsync 冻结了我的 UI

我在 Form 构造函数中的 InitializeComponent 之后有以下代码 using WebClient client new WebClient client DownloadDataCompleted new Downloa
如何使用 ASP.NET MVC 编辑多选列表？

我想编辑一个如下所示的对象我希望用 UsersGrossList 中的一个或多个用户填充 UsersSelectedList 使用 mvc 中的标准编辑视图我只得到映射的字符串和布尔值下面未显示我在 google 上找到的许多示例都
叮当错误？命名空间模板类的朋友

以下代码在 clang 下无法编译但在 gcc 和 VS 下可以编译 template
如果 JSON.NET 中的值为 null 或空格，则防止序列化

我有一个对象需要以这样的方式序列化即 null 和空白空或只是空格值都不会序列化我不控制对象本身因此无法设置属性但我知道所有属性都是字符串环境NullValueHandling显然忽略只能让我找到解决方案的一部分它似
将下拉列表与字典绑定

我将字典绑定到下拉列表举例来说我的字典中有以下项目 Test1 123 Test2 321 我希望下拉文本采用以下格式 Test1 Count 123 Test2 Count 321 我沿着以下路径走但没有运气 MyDropDown
在 C++11 中移出 stdpriority_queue 的元素

最小的工作示例 include
如何使用 Roslyn 通过扩展方法、静态类中的方法以及带有 ref/out 参数的方法来访问调用

我正在致力于创建一个开源项目用于创建 NET UML 序列图该项目利用名为 js sequence diagrams 的 javascript 库我不确定 Roslyn 是适合这项工作的工具但我想我应该尝试一下所以我整理了一些概念
如何在win32中使用GetSaveFileName保存文件？

我编写此代码是为了获取 fileName 来保存我的文件 include stdafx h include
在 C# 中何时使用 ArrayList 而不是 array[]？

我经常使用一个ArrayList而不是正常 array 当我使用时我感觉好像我在作弊或懒惰 ArrayList 什么时候可以使用ArrayList在数组上数组是强类型的并且可以很好地用作参数如果您知道集合的长度并且它是固定的则
用于连接 DataTable 上的动态列的动态 LINQ

我目前遇到的情况不确定如何继续我有两个从数据库填充的数据表我还有一个可用的列名称列表可用于将这两个数据表连接在一起我希望编写一组 LINQ 查询这些查询将显示两个数据表中的行内部联接用于从一个数据表更新另一个数据表显示一个
Resharper：IEnumerable 的可能多重枚举

我正在使用新的 Resharper 版本 6 在我的代码中的几个地方它给一些文本加了下划线并警告我可能存在IEnumerable 可能的多重枚举我理解这意味着什么并在适当的情况下采纳了建议但在某些情况下我不确定这实际上是一个大问
无法为 wsdl 文件创建服务引用

I have wsdl文件和xsd我本地机器上的文件我想在项目中添加服务引用我没有网络服务我只有wsdl file 我收到以下错误 The document was understood but it could not be pro
doxygen c++：记录由“using”声明公开的私有继承成员

作为一个例子我有以下课程 class A public void methodOne class B private A public Brief description using A methodOne 我还没有找到强制 doxyge
使用 xslt 将 xml 转换为 xsl-fo 时动态创建超链接？

我想使用 xsl 文件在 PDF 报告中创建标题如果源文件包含超链接则应将其呈现为超链接否则呈现为纯文本例如我的 xml 如下所示 a href http google com target blank This is the h
浮点字节序？

我正在为实时海上模拟器编写客户端和服务器并且由于我必须通过套接字发送大量数据因此我使用二进制数据来最大化可以发送的数据量我已经了解整数字节顺序以及如何使用htonl and ntohl为了规避字节顺序问题但我的应用程序与几乎所有模拟
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
C 语言中的 Alpha 混合 2 RGBA 颜色[重复]

这个问题在这里已经有答案了可能的重复如何快速进行阿尔法混合 https stackoverflow com questions 1102692 how to do alpha blend fast 对 2 个 RGBA 整数颜色进行
Linq.Select() 中的嵌套表达式方法调用

I use Select i gt new T 每次手动点击数据库后将我的实体对象转换为 DTO 对象以下是一些示例实体和 DTOS 用户实体 public partial class User public int Id get set
如何将 int 作为“void *”传递给线程启动函数？

我最初有一个用于斐波那契变量数组的全局变量但发现这是不允许的我需要进行基本的多线程处理并处理竞争条件但我无法在 pthread 创建中将 int 作为 void 参数提供我尝试过使用常量指针但没有成功由于某些奇怪的原因 void

随机推荐

为 Matlab 编译 MEX 文件时如何忽略 `mexopts.sh`？

The f命令行参数mex允许指定的位置mexopts sh我们希望使用的但是有没有办法告诉Matlab忽略mexopts sh 为了编译特定的 MEX 文件我需要指定CC CFLAGS等调用时直接在命令行mex 已给出的值mexop
在 Eclipse 中调试（Java）；中断查看值时无法将鼠标悬停在变量上

我正在使用 Eclipse 编写 Java 代码适用于 Android 并尝试像平常一样调试代码不过我通常使用 C 据我所知在 Eclipse 中调试非常糟糕我不知道我是否做错了什么但这似乎很糟糕这是正在运行的代码我收到某种异
SQL 更新 WHERE xx AND 最近记录

我需要做一些看似非常简单的事情 bdd gt query UPDATE mytable SET aaa aaa bbb bbb WHERE name name 我的问题我有多个记录与此 WHERE 匹配并且我只想更新最新的记录我有一个
仅捕获 UIView 2 手指 UIPanGestureRecognizer

我有几个UIScrollViews 在我的视图控制器中我想覆盖一个捕获 2 根手指滑动的视图UIPanGestureRecognizer这不会记录UIScrollView滑动手势当我使用 2 根手指平移手势在内容上放置透明视图时不会检
该脚本的安全性（强化程度）如何？

下面的脚本 test php 旨在放置在我所有 WordPress 站点的特定目录中它的目的是抓取下面 source地址处的文件并将其解压到它所在的目录中这就是它的全部目的例如我的中央服务器上将有一个仪表板界面其中列出了存在此脚本
用于静态管理的包装组件

我想创建一个新组件其中包含Inputs and Fields from aor并用在
如何使用urllib3下载文件？

这是基于该网站上的另一个问题使用 urllib3 下载文件的最佳方式是什么 https stackoverflow com questions 17285464 whats the best way to download file us
Python仅枚举反向索引

我正在尝试反转给出的索引enumerate同时保留被枚举列表的原始顺序假设我有以下内容 gt gt range 5 0 1 2 3 4 如果我列举这一点我会得到以下结果 gt gt list enumerate range 5 0 0
如何可靠地检查工作站上当前用户的 Windows 域 ID

我正在使用 C 和 Net Framework 4 我正在寻找一种万无一失的方法来获取当前登录的 Windows 用户的登录 ID 该方法不易被假冒或黑客攻击我正在以以下形式查找此内容域名用户名例如某个域 JohnDoe 目前我拥有
限制 Django 的 inlineformset_factory 只创建新对象

我正在使用 django 的内联表单集工厂要使用文档中的示例 author Author objects get pk 1 BookFormSet inlineformset factory Author Book formset Boo
如何使用一个 R 包中被另一包屏蔽的函数？ [复制]

这个问题在这里已经有答案了我想用recode来自car包裹但如果我有Hmisc加载后它掩盖了car版本可能有一种方法可以调用屏蔽函数也许还有一种方法可以强制一个包成为主导包你可能会遇到更深层次的问题但在顶层car recode
在 Angular / Typescript 中对包含整数和字母字母的数组进行排序

我打算做什么我尝试像这样对数组进行排序 1 2 2 a 2 b 2 b AsimpleName 2 b NameWithN 3 4 4 a 在 Angular2 中我当前的代码成分 this streetDetailRef this
在 Yosemite 上编译 caffe

我正在尝试在 Yosemite 上安装 caffe 但我的 C 不是最强的这是我的错误 Alis MacBook Pro caffe ali make all NVCC src caffe layers absval layer cu u
Carbon Emacs 不粘贴 Microsoft Word 复制的内容

不确定 Stackoverflow 是否是正确的站点我在 mac ox 10 6 7 上使用 Carbon emacs 22 0 971 和 MS Word 12 2 8 我在 MS Word 中有一些文本我想将其复制并粘贴到 emac
python将文件发送到作为服务运行的tika

参考这个问题 https stackoverflow com questions 16251436 unable to run java command from cgi我想将 MS Word doc 文件发送到作为服务运行的 tika 应
将子目录分离（移动）到单独的 Git 存储库中

我有一个Git http en wikipedia org wiki Git 28software 29存储库其中包含许多子目录现在我发现其中一个子目录与另一个子目录无关应该分离到一个单独的存储库如何在保留子目录中文件的历史记录的同
创建自定义 ODBC 驱动程序

在我目前的工作中我们希望实现自己的 odbc 驱动程序以允许许多不同的应用程序能够作为数据源连接到我们自己的应用程序现在我们正在尝试权衡根据实施规范开发我们自己的驱动程序的选项这是巨大的 or使用允许程序员填充数据特定部分并允许
Docker 链接容器、Docker 网络、Compose 网络 - 我们现在应该如何“链接”容器

我有一个现有的应用程序由在同一主机上运行的 4 个 docker 容器组成它们已通过以下方式连接在一起link命令然而在对docker进行了一些升级之后 link行为已被弃用并且似乎发生了变化我们遇到的问题是容器现在失去了彼此的
如何使用带有 ARRAY 关键字的 Postgresql GIN 索引

我想创建GIN使用标量文本列上的索引ARRAY 表达式如下 CREATE TABLE mytab scalar column TEXT CREATE INDEX idx gin ON mytab USING GIN ARRAY scalar
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include

cuda中的count3非常慢

cuda中的count3非常慢 的相关文章

随机推荐

热门标签

cuda中的count3非常慢的相关文章