异步执行 CUDA 内存副本和 cuFFT

2024-02-08

我有一个 CUDA 程序，用于计算 FFT，比如说大小50000。目前，我将整个数组复制到 GPU 并执行 cuFFT。现在，我正在尝试优化程序，NVIDIA Visual Profiler 告诉我通过并行计算的并发来隐藏内存副本。我的问题是：

例如，是否可以复制第一个5000元素，然后开始计算，然后并行复制下一组数据以进行计算等？

由于 DFT 基本上是时间值乘以复杂指数函数的总和，因此我认为应该可以“按块”计算 FFT。

袖口支持这个吗？一般来说，这是一个很好的计算想法吗？

EDIT

更清楚地说，我不想在不同的阵列上并行计算不同的 FFT。假设我在时域中有大量正弦信号，我想知道信号中有哪些频率。例如，我的想法是将信号长度的三分之一复制到 GPU，然后将下一个三分之一复制到 GPU，并使用已复制的输入值的前三分之一并行计算 FFT。然后复制最后三分之一并更新输出值，直到处理完所有时间值。因此最终应该有一个输出阵列，其峰值位于正弦频率处。

请考虑上述评论，特别是：

如果您计算 FFTNpartial元素，你将得到一个输出Npartial元素；
（跟随 Robert Crovella）在启动 cuFFT 调用之前，cuFFT 所需的所有数据必须驻留在设备上，这样您就无法将数据分成单个 cuFFT 操作的片段，并在之前开始该操作所有部分都在 GPU 上；此外，cuFFT 调用是不透明的；

考虑到以上两点，我认为如果你正确使用，你只能“模仿”你想要实现的目标零填充按照下面代码所示的方式。正如你将看到的，让N为数据大小，将数据除以NUM_STREAMS chunks，代码执行NUM_STREAMS零填充 and streamedcuFFT 调用大小N。 cuFFT 之后，您必须合并（求和）部分结果。

#include <stdio.h>

#include <cufft.h>

#define BLOCKSIZE 32
#define NUM_STREAMS 3

/**********/
/* iDivUp */
/*********/
int iDivUp(int a, int b) { return ((a % b) != 0) ? (a / b + 1) : (a / b); }

/********************/
/* CUDA ERROR CHECK */
/********************/
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess) 
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

/******************/
/* SUMMING KERNEL */
/******************/
__global__ void kernel(float2 *vec1, float2 *vec2, float2 *vec3, float2 *out, int N) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    if (tid < N) {
        out[tid].x = vec1[tid].x + vec2[tid].x + vec3[tid].x;
        out[tid].y = vec1[tid].y + vec2[tid].y + vec3[tid].y;
    }

}


/********/
/* MAIN */
/********/
int main()
{
    const int N = 600000;
    const int Npartial = N / NUM_STREAMS;

    // --- Host input data initialization
    float2 *h_in1 = new float2[Npartial];
    float2 *h_in2 = new float2[Npartial];
    float2 *h_in3 = new float2[Npartial];
    for (int i = 0; i < Npartial; i++) {
        h_in1[i].x = 1.f;
        h_in1[i].y = 0.f;
        h_in2[i].x = 1.f;
        h_in2[i].y = 0.f;
        h_in3[i].x = 1.f;
        h_in3[i].y = 0.f;
    }

    // --- Host output data initialization
    float2 *h_out = new float2[N];

    // --- Registers host memory as page-locked (required for asynch cudaMemcpyAsync)
    gpuErrchk(cudaHostRegister(h_in1, Npartial*sizeof(float2), cudaHostRegisterPortable));
    gpuErrchk(cudaHostRegister(h_in2, Npartial*sizeof(float2), cudaHostRegisterPortable));
    gpuErrchk(cudaHostRegister(h_in3, Npartial*sizeof(float2), cudaHostRegisterPortable));

    // --- Device input data allocation
    float2 *d_in1;          gpuErrchk(cudaMalloc((void**)&d_in1, N*sizeof(float2)));
    float2 *d_in2;          gpuErrchk(cudaMalloc((void**)&d_in2, N*sizeof(float2)));
    float2 *d_in3;          gpuErrchk(cudaMalloc((void**)&d_in3, N*sizeof(float2)));
    float2 *d_out1;         gpuErrchk(cudaMalloc((void**)&d_out1, N*sizeof(float2)));
    float2 *d_out2;         gpuErrchk(cudaMalloc((void**)&d_out2, N*sizeof(float2)));
    float2 *d_out3;         gpuErrchk(cudaMalloc((void**)&d_out3, N*sizeof(float2)));
    float2 *d_out;          gpuErrchk(cudaMalloc((void**)&d_out, N*sizeof(float2)));

    // --- Zero padding
    gpuErrchk(cudaMemset(d_in1, 0, N*sizeof(float2)));
    gpuErrchk(cudaMemset(d_in2, 0, N*sizeof(float2)));
    gpuErrchk(cudaMemset(d_in3, 0, N*sizeof(float2)));

    // --- Creates CUDA streams
    cudaStream_t streams[NUM_STREAMS];
    for (int i = 0; i < NUM_STREAMS; i++) gpuErrchk(cudaStreamCreate(&streams[i]));

    // --- Creates cuFFT plans and sets them in streams
    cufftHandle* plans = (cufftHandle*) malloc(sizeof(cufftHandle)*NUM_STREAMS);
    for (int i = 0; i < NUM_STREAMS; i++) {
        cufftPlan1d(&plans[i], N, CUFFT_C2C, 1);
        cufftSetStream(plans[i], streams[i]);
    }

    // --- Async memcopyes and computations
    gpuErrchk(cudaMemcpyAsync(d_in1, h_in1, Npartial*sizeof(float2), cudaMemcpyHostToDevice, streams[0]));
    gpuErrchk(cudaMemcpyAsync(&d_in2[Npartial], h_in2, Npartial*sizeof(float2), cudaMemcpyHostToDevice, streams[1]));
    gpuErrchk(cudaMemcpyAsync(&d_in3[2*Npartial], h_in3, Npartial*sizeof(float2), cudaMemcpyHostToDevice, streams[2]));
    cufftExecC2C(plans[0], (cufftComplex*)d_in1, (cufftComplex*)d_out1, CUFFT_FORWARD);
    cufftExecC2C(plans[1], (cufftComplex*)d_in2, (cufftComplex*)d_out2, CUFFT_FORWARD);
    cufftExecC2C(plans[2], (cufftComplex*)d_in3, (cufftComplex*)d_out3, CUFFT_FORWARD);

    for(int i = 0; i < NUM_STREAMS; i++) gpuErrchk(cudaStreamSynchronize(streams[i]));

    kernel<<<iDivUp(BLOCKSIZE,N), BLOCKSIZE>>>(d_out1, d_out2, d_out3, d_out, N);
    gpuErrchk(cudaPeekAtLastError());
    gpuErrchk(cudaDeviceSynchronize());

    gpuErrchk(cudaMemcpy(h_out, d_out, N*sizeof(float2), cudaMemcpyDeviceToHost));

    for (int i=0; i<N; i++) printf("i = %i; real(h_out) = %f; imag(h_out) = %f\n", i, h_out[i].x, h_out[i].y);

    // --- Releases resources
    gpuErrchk(cudaHostUnregister(h_in1));
    gpuErrchk(cudaHostUnregister(h_in2));
    gpuErrchk(cudaHostUnregister(h_in3));
    gpuErrchk(cudaFree(d_in1));
    gpuErrchk(cudaFree(d_in2));
    gpuErrchk(cudaFree(d_in3));
    gpuErrchk(cudaFree(d_out1));
    gpuErrchk(cudaFree(d_out2));
    gpuErrchk(cudaFree(d_out3));
    gpuErrchk(cudaFree(d_out));

    for(int i = 0; i < NUM_STREAMS; i++) gpuErrchk(cudaStreamDestroy(streams[i]));

    delete[] h_in1;
    delete[] h_in2;
    delete[] h_in3;
    delete[] h_out;

    cudaDeviceReset();  

    return 0;
}

这是上述代码在 Kepler K20c 卡上运行时的时间线。正如您所看到的，计算与异步内存传输重叠。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

异步执行 CUDA 内存副本和 cuFFT 的相关文章

使用 C# 读取数百万个小文件

我有数百万个每天生成的日志文件我需要读取所有这些文件并将其放在一起作为单个文件以便在其他应用程序中对其进行一些处理我正在寻找最快的方法来做到这一点目前我正在使用线程任务和并行如下所示 Parallel For 0 files L
分布式张量流中的并行进程

我有带有训练参数的张量流神经网络它是代理的策略网络正在核心程序的主张量流会话的训练循环中进行更新在每个训练周期结束时我需要将该网络传递给几个并行进程工作人员这些进程将使用它来从代理策略与环境的交互中收集样本我需要并行执行因
使用并行的 parLapply：无法访问并行代码中的变量

我最近得到了一台具有多个核心的计算机并且正在学习使用并行计算我相当熟练lapply并被告知parLapply工作原理非常相似但我没有正确操作它看来我必须明确地将所有内容放入parLapply使其工作即要使用的函数变量等和lap
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
Random 并行生成数字 1 的次数超过 90% [重复]

这个问题在这里已经有答案了考虑以下程序 public class Program private static Random rnd new Random private static readonly int ITERATIONS 50
将 R 包函数导出到 R 包内的并行集群

有一些功能比如function1 在我正在开发的 R 包中它依赖于辅助函数例如h function1 and h function2 在我的包裹里我正在并行化重复调用function1在我的包中的另一个函数中目前在我的包中我正在
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
使用 Scoop 编程 DEAP

我在 python 中使用 DEAP 库来解决多目标优化问题我想使用多个处理器来完成这项任务但是我遇到了一些麻烦为了提供一些背景信息我将 networkx 与 DEAP 结合使用我还定义了适应度函数交叉和变异函数由于某些原因
OpenMP 线程映射到物理内核

于是我在网上查了一段时间没有结果我是 OpenMP 的新手所以不确定这里的术语但是有没有办法从 OMPThread 由 omp get thread num 给出和线程将运行的物理核心找出特定机器的映射我还对 OMP 分配线程的精
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
处理异步并行任务的多个异常

Problem 多个任务并行运行所有任务没有任务或其中任何任务都可能抛出异常当所有任务完成后必须报告所有可能发生的异常通过日志电子邮件控制台输出等等预期行为我可以通过 linq 使用异步 lambda 构建所有任务然后
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
使用 TestNG 运行并行测试时捕获 WebDriver 屏幕截图

我目前正在通过分别重写 TestListenerAdapter 方法 onTestFailure 和 onTestSuccess 来捕获 TestNG 中失败和成功的屏幕截图为此您需要指定要截取屏幕截图的驱动程序我的问题在方法级别并
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
有没有一种简单的方法来准备 Fortran 代码以进行并行调用

我想使用 OpenMP 在 C 程序中并行求解多个大型 ODE 系统由于某些原因我需要使用 ODE 求解器但我只能找到 Fortran 90 子例程而且代码太大无法简单地将其转换为 C 我知道 Fortran 广泛使用静态内存因

随机推荐

直接应用 numpy 梯度结果与使用 xarray.apply_ufunc 应用的结果之间的差异

我正在尝试使用 xarray 的apply ufunc包装 numpy 的gradient函数以便沿一维获取梯度然而 apply ufunc返回一个与使用的数组形状不同的数组np gradient直接返回 import xarray a
C 中构造函数和析构函数的命名约定 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
不要在管理中通过电子邮件 opencart 2.3.0.2 向客户发送电子邮件

我想为客户电子邮件发送电子邮件但显示消息成功但不为 yahoo 或 gmail 发送电子邮件我的开放式购物车是2 3 0 2 安全 SSL TLS 设置推荐 Username email protected cdn cgi l em
我正在尝试使用 System.Reflection.Emit 编写 .NET 编译器，如何进行类型解析？

我有一个从引用的 dll 解析类型的策略我一直在尝试解析正在编译的程序集中定义的类型我使用的是 System Reflection Emit api 没有第三方库例如 class A class B public A AnInstan
HTML5 视频控件 - 放大吗？

我知道您可以自定义视频控件来制作自己的按钮布局但是有什么方法可以使默认控件更大不是以跨浏览器的方式但控件是用影子 DOM http www html5rocks com en tutorials webcomponents shad
VSCode 无法加载插件找不到模块“eslint-plugin-prettier”

我正在安装eslint and Prettier在我的项目中并尝试通过 VSCode 自动进行代码格式化当我转到 React 文件时我发现 ESLint 出现错误因此我打开 ESLint 控制台在其中看到无法加载 js esli
在Python和C#之间传递数据而不写入文件

我想在 Python 和 C 之间传递二进制信息我假设您可以打开一个标准的输入输出通道并像文件一样读取和写入该通道但是有很多移动部件而且我不太了解 C 我想做这种事情但不写文件 python code with open DATA
Python 相同的字符不等于

我的数据库中有文本我从 xhr 发送一些文本到我的视图函数 find 未找到某些 unicode 字符我想使用以下方法查找选定的文本 text find selection 但有时变量选择包含这样的字符 in xhr unichr
FieldValue.arrayRemove() 根据属性值从对象数组中删除对象

我有一个具有以下结构的文档 email email protected cdn cgi l email protection value 100 children email email protected cdn cgi l email
JavaScript 检查时间范围是否重叠

我有例如一个包含 2 个对象的数组 myObject1 和 myObject2 等现在当我添加第三个对象时我将检查时间范围是否重叠实际上我不知道如何以高性能的方式做到这一点 var myObjectArray var myObjec
用于本地（非远程）命令执行的 ssh 隧道

我想创建一个 Linux shell bash 脚本该脚本创建 SSH 隧道运行使用该隧道的本地命令最后关闭隧道和周围的 SSH 连接为了使解释起来更容易请考虑有一个名为 remoteserver 的主机的本地 SSH 配置其中
正确使用 stacktrace 进行调试

以下代码行导致我出现异常 plug Instance AddDocuments new Int32 val pid val ptype val doccat val subcat val doctype val notes val summ
删除 QML 网格的子项

我想循环遍历 QML 网格的子级并使用 Javascript 销毁它们中的每一个 Grid id contentGrid spacing 10 ImageItem imageSource file foo jpeg destroy this
如何将img放置在div的右下角

替代文本 http img190 imageshack us img190 7514 unbenanntax jpg http img190 imageshack us img190 7514 unbenanntax jpg 这就是我想做的
由于 mysql 错误，Magento 站点关闭一般错误：1030 来自存储引擎的错误 -1

我什至删除了 log visitor 表中的所有记录但仍然遇到同样的问题以下是我得到的堆栈 SQLSTATE HY000 一般错误 1030 来自存储引擎的错误 1 0 home site public html lib Varien
Rouge gem 最小示例不显示格式？

我部分遵循了简单的说明A of this https stackoverflow com a 37721539 5783745回答该代码可以在浏览器中看到但其格式不符合预期当我查看源代码时我可以看到正在生成 css 类但它似乎没有
Python html 解析确实有效

我正在尝试用Python 解析一些html 以前有一些方法确实有效但现在如果没有解决方法我实际上无法使用任何方法 SGMLParser 消失后 beautifulsoup 出现问题 html5lib 无法解析外面的一半内容 lxm
使用 EncryptedSharedPreferences 获取 KeyStoreException 和 GeneralSecurityException，我该如何解决这些问题？

背景在我开发的一个应用程序中我将重要的内容令牌存储到 EncryptedSharedPreferences 中取自here https developer android com jetpack androidx releases
最长的链对

你被给予n数字对在每一对中第一个数字总是小于第二个数字一双 c d 可以按照 a b 当且仅当b小于c 可以以这种方式形成成对的链找到形成的最长链对我在接受亚马逊采访时遇到了这个问题但无法找出答案只是它与信息系统问题 http
异步执行 CUDA 内存副本和 cuFFT

我有一个 CUDA 程序用于计算 FFT 比如说大小50000 目前我将整个数组复制到 GPU 并执行 cuFFT 现在我正在尝试优化程序 NVIDIA Visual Profiler 告诉我通过并行计算的并发来隐藏内存副本我的问题

异步执行 CUDA 内存副本和 cuFFT

异步执行 CUDA 内存副本和 cuFFT 的相关文章

随机推荐

热门标签