CUDA 素数生成器性能低下

2024-01-09

我正在用 CUDA 编写我的第一个程序。它是一个素数生成器。它可以工作，但只比同等的单线程 C++ 代码快 50%。 CPU版本100%使用一个核心。 GPU版本仅使用20%的GPU。 CPU 是 i5 (2310)。 GPU是GF104。

如何提高该算法的性能？

我的完整程序如下。

int* d_C;

using namespace std;

__global__ void primo(int* C, int N, int multi)
{
  int i = blockIdx.x*blockDim.x + threadIdx.x;
  if (i < N) 
  {
    if(i%2==0||i%3==0||i%5==0||i%7==0)
    {
      C[i]=0;           
    }
    else
    {
      C[i]=i+N*multi;
    }
  }
}

int main()
{
  cout<<"Prime numbers \n";
  int N=1000;
  int h_C[1000];
  size_t size=N* sizeof(int);
  cudaMalloc((void**)&d_C, size);

  int threadsPerBlock = 1024;
  int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
  vector<int> lista(100000000);
  int c_z=0;

  for(int i=0;i<100000;i++)
  {
    primo<<<blocksPerGrid, threadsPerBlock>>>(d_C, N,i);    
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);         
    for(int c=0;c<N;c++)
    {   
      if(h_C[c]!=0)
      {
        lista[c+N*i-c_z]=h_C[c];
      }
      else
      {
        c_z++;
      }
    }   
  }
  lista.resize(lista.size()-c_z+1);
  return(0);
}

我尝试使用二维数组和for在内核中循环，但无法得到正确的结果。

欢迎来到堆栈溢出。

以下是一些潜在的问题：

N = 1000 太低。既然你有1024threadsPerBlock，您的内核将只运行一个块，这不足以利用 GPU。尝试 N = 1000000，以便您的内核启动接近 1000 个块。
您在 GPU 上所做的工作非常少（每个测试数字 4 次模运算）。因此，在 CPU 上执行这些操作可能比从 GPU（通过 PCIe 总线）复制它们更快。

为了值得使用 GPU 来查找素数，我认为您需要在 GPU 上实现整个算法，而不仅仅是模数运算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 素数生成器性能低下的相关文章

将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
cuda-gdb 错误消息

我尝试使用 cuda gdb 调试我的 CUDA 应用程序但遇到了一些奇怪的错误我设置了选项 g G O0构建我的应用程序我可以在没有 cuda gdb 的情况下运行我的程序但没有得到正确的结果因此我决定使用 cuda gdb 但
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下

随机推荐

html5和xamarin有什么区别？

我是一名 C NET 开发人员我想开发可以在 iPhone Android 和 Windows Phone 上运行的移动应用程序到目前为止我发现www xamarin com提供了一个可以使用C 开发iphone和android的解决
如何禁用复选框抖动

我在 ListTile 中使用 Checkbox 如下所示 ListTile leading Checkbox value isChecked onChanged v setState isChecked isChecked title T
正则表达式查找代码中的空注释

我正在寻找一个正则表达式它只能找到空的java注释如下所示 Eclipse 创建这些时例如生成序列版本 ID 还有另一个thread https stackoverflow com questions 1657066 java reg
angularjs 过滤器不适用于 $http

我是 angular js 的新手但我不知道如何制作 filter xxx 处理通过 http 服务生成的数据在下面的代码中我根本无法让过滤器处理 http 生成的数据当我在输入框中键入内容时它根本不执行任何操作但是如果我在
如何在 PHP 中按日期对文件进行排序

我目前有一个脚本它允许我输出同一目录中的文件列表输出显示名称然后我使用filemtime 函数显示文件修改日期如何对输出进行排序以显示最新修改的文件这就是我现在所拥有的 if handle opendir while false
使用 NextJS 动态添加变量到外部 js 脚本

我里面有这个外部 hotjar 脚本 static js of my nextjs应用 function h o t j a r h hj h hj function h hj q h hj q push arguments h hjSet
端口 443 上出现 SSL 错误，页面未显示并导致错误 404

我最近必须找到一种方法来为我的域名获取 SSL 证书正如您可能知道的那样 Facebook 要求在 10 月 1 日之前提供此证书因此我在我的服务器上签署并安装了startssl 证书现在我的问题是当我尝试访问我的 https 站
将 XML 发送到 Android 中的 Web 服务

我想将其作为 XML 发送到我的 Web 服务我该怎么做呢
动画滚动顶部在 Firefox 中不起作用

这个功能运行良好它将主体滚动到所需容器的偏移量 function scrolear destino var stop destino offset top var delay 1000 body animate scrollTop sto
如何将动画渐变添加到 svg 路径？

我有一个像这样的 heart svg 路径
从 ndb.KeyProperty() 添加、更新、删除 - Google Cloud Datastore NDB

这是我的多对多关系 models class ModelA ndb Model name ndb StringProperty required true model b ndb KeyProperty kind ModelB repeat
无法为数据库添加种子；由于连接被拒绝而无法工作？

当我尝试为我的应用程序播种时出现错误无法建立连接因为目标机器主动拒绝连接连接 2 我相信原因是因为我遇到了 mysql2 的问题所以我将它与 MySQL 5 5 服务器一起卸载然后切换到 sqlite3 我认为 mysql2
列表推导式替代 Python 中的 reduce()

以下 python 教程说列表推导式完全替代 lambda 函数以及函数map filter and reduce http python course eu python3 list compressive php http pytho
如何为 JavaFX 应用程序的窗口设置图标？

我在 Netbeans 上制作了一个 JavaFX 应用程序并放置了用于将图标设置到窗口的代码 primaryStage getIcons add new Image file sicadcam png 当我从 Netbeans 运行该项
通过 Google Drive API 从本地 CSV 文件转换并创建 Google Drive 电子表格

我正在尝试将本地 CSV 文件上传到 Google 云端硬盘并像 Google 电子表格一样显示它但是当我转到 Google 云端硬盘并单击文件链接时我只能下载它而不能将其作为电子表格查看我尝试使用 convert true 但文
自定义 Facebook 之类的链接？

是否可以添加自定义 facebook 之类的图标我希望它成为 ul 我真的不想加载另一个库他们的 SDK 或所有标签有人实现了自定义的按钮吗我不需要他们的按钮提供的计数器等说实话它们很丑在过去的两个小时里我一直在四处寻找但没
如何在 Python 中创建常量？

如何在 Python 中声明常量在 Java 中我们这样做 public static final String CONST NAME Name 在 Python 中不能将变量或值声明为常量 To indicate对于程序员来说变量是
重复排列：避免溢出

背景 Given n球使得 a balls are of colour GREEN b balls are of colour BLUE c balls are of colour RED 当然a b c n 这些球可以排列的排列数量由下式
如果只需要结果的低位部分，可以使用哪种 2 的补码整数运算而无需将输入中的高位清零？

在汇编编程中想要从寄存器的低位计算某些内容是相当常见的但不能保证其他位清零在 C 等高级语言中您只需将输入转换为小尺寸然后让编译器决定是否需要分别将每个输入的高位清零或者是否可以在事实 This is especially co
CUDA 素数生成器性能低下

我正在用 CUDA 编写我的第一个程序它是一个素数生成器它可以工作但只比同等的单线程 C 代码快 50 CPU版本100 使用一个核心 GPU版本仅使用20 的GPU CPU 是 i5 2310 GPU是GF104 如何提高该算法的性

CUDA 素数生成器性能低下

CUDA 素数生成器性能低下 的相关文章

随机推荐

热门标签

CUDA 素数生成器性能低下的相关文章