使用 CUDA 进行逐元素向量乘法

2024-05-04

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量-向量乘法。内核代码插入如下（multiplyElementwise）。它工作正常，但由于我注意到其他看似简单的操作（如缩放向量）在 CUBLAS 或 CULA 等库中进行了优化，我想知道是否可以通过库调用替换我的代码？令我惊讶的是，CUBLAS 和 CULA 都没有这个选项，我试图通过将其中一个向量作为对角矩阵向量乘积的对角线来伪造它，但结果非常慢。

作为最后的手段，我尝试自己优化这段代码（参见multiplyElementwiseFast下面）通过将两个向量加载到共享内存中，然后从那里开始工作，但这比我的原始代码慢。

所以我的问题是：

是否有进行元素向量-向量乘法的库？
如果没有，我可以加速我的代码吗（multiplyElementwise)?

任何帮助将不胜感激！

__global__ void multiplyElementwise(cufftComplex* f0, cufftComplex* f1, int size)
{
    const int i = blockIdx.x*blockDim.x + threadIdx.x;
    if (i < size)
    {
        float a, b, c, d;
        a = f0[i].x; 
        b = f0[i].y;
        c = f1[i].x; 
        d = f1[i].y;
        float k;
        k = a * (c + d);
        d =  d * (a + b);
        c =  c * (b - a);
        f0[i].x = k - d;
        f0[i].y = k + c;
    }
}

__global__ void multiplyElementwiseFast(cufftComplex* f0, cufftComplex* f1, int size)
{
    const int i = blockIdx.x*blockDim.x + threadIdx.x;
    if (i < 4*size)
    {
        const int N = 256;
        const int thId = threadIdx.x / 4;
        const int rem4 = threadIdx.x % 4;
        const int i4 = i / 4;

        __shared__ float a[N];
        __shared__ float b[N];
        __shared__ float c[N];
        __shared__ float d[N];
        __shared__ float Re[N];
        __shared__ float Im[N];

        if (rem4 == 0)
        {
            a[thId] = f0[i4].x;
            Re[thId] = 0.f;
        }
        if (rem4 == 1)
        {
            b[thId] = f0[i4].y;
            Im[thId] = 0.f;
        }
        if (rem4 == 2)
            c[thId] = f1[i4].x;
        if (rem4 == 0)
            d[thId] = f1[i4].y;
        __syncthreads();

        if (rem4 == 0)
            atomicAdd(&(Re[thId]), a[thId]*c[thId]);        
        if (rem4 == 1)
            atomicAdd(&(Re[thId]), -b[thId]*d[thId]);
        if (rem4 == 2)
            atomicAdd(&(Im[thId]), b[thId]*c[thId]);
        if (rem4 == 3)
            atomicAdd(&(Im[thId]), a[thId]*d[thId]);
        __syncthreads();

        if (rem4 == 0)
            f0[i4].x = Re[thId];
        if (rem4 == 1)
            f0[i4].y = Im[thId];
    }
}

如果您想要实现的是具有复数的简单元素级乘积，那么您似乎确实在执行一些额外的步骤multiplyElementwise增加寄存器使用的内核。您尝试计算的是：

f0[i].x = a*c - b*d;
f0[i].y = a*d + b*c;

since (a + ib)*(c + id) = (a*c - b*d) + i(a*d + b*c)。通过使用改进的复数乘法，您可以将 1 次乘法换成 3 次加法和一些额外的寄存器。这是否合理可能取决于您使用的硬件。例如，如果您的硬件支持FMA http://en.wikipedia.org/wiki/Multiply%E2%80%93accumulate_operation（融合乘加），那种优化可能效率不高。您应该考虑阅读这份文档：“精度和性能： NVIDIA GPU 的浮点和 IEEE 754 合规性 https://developer.nvidia.com/sites/default/files/akamai/cuda/files/NVIDIA-CUDA-Floating-Point.pdf”这也解决了浮点精度的问题。

不过，您应该考虑使用Thrust http://thrust.github.io/。该库提供了许多可在主机和设备向量上操作的高级工具。您可以在此处查看一长串示例：https://github.com/thrust/thrust/tree/master/examples https://github.com/thrust/thrust/tree/master/examples。这会让你的生活变得更加轻松。

更新的代码

在你的情况下，你可以使用这个例子 https://github.com/thrust/thrust/blob/master/examples/dot_products_with_zip.cu并将其调整为这样的：

#include <thrust/host_vector.h>
#include <thrust/device_vector.h>
#include <time.h>

struct ElementWiseProductBasic : public thrust::binary_function<float2,float2,float2>
{
    __host__ __device__
    float2 operator()(const float2& v1, const float2& v2) const
    {
        float2 res;
        res.x = v1.x * v2.x - v1.y * v2.y;
        res.y = v1.x * v2.y + v1.y * v2.x;
        return res;
    }
};

/**
 * See: http://www.embedded.com/design/embedded/4007256/Digital-Signal-Processing-Tricks--Fast-multiplication-of-complex-numbers%5D
 */
struct ElementWiseProductModified : public thrust::binary_function<float2,float2,float2>
{
    __host__ __device__
    float2 operator()(const float2& v1, const float2& v2) const
    {
        float2 res;
        float a, b, c, d, k;
        a = v1.x;
        b = v1.y;
        c = v2.x;
        d = v2.y;
        k = a * (c + d);
        d =  d * (a + b);
        c =  c * (b - a);
        res.x = k -d;
        res.y = k + c;
        return res;
    }
};

int get_random_int(int min, int max)
{
    return min + (rand() % (int)(max - min + 1));
}

thrust::host_vector<float2> init_vector(const size_t N)
{
    thrust::host_vector<float2> temp(N);
    for(size_t i = 0; i < N; i++)
    {
        temp[i].x = get_random_int(0, 10);
        temp[i].y = get_random_int(0, 10);
    }
    return temp;
}

int main(void)
{
    const size_t N = 100000;
    const bool compute_basic_product    = true;
    const bool compute_modified_product = true;

    srand(time(NULL));

    thrust::host_vector<float2>   h_A = init_vector(N);
    thrust::host_vector<float2>   h_B = init_vector(N);
    thrust::device_vector<float2> d_A = h_A;
    thrust::device_vector<float2> d_B = h_B;

    thrust::host_vector<float2> h_result(N);
    thrust::host_vector<float2> h_result_modified(N);

    if (compute_basic_product)
    {
        thrust::device_vector<float2> d_result(N);

        thrust::transform(d_A.begin(), d_A.end(),
                          d_B.begin(), d_result.begin(),
                          ElementWiseProductBasic());
        h_result = d_result;
    }

    if (compute_modified_product)
    {
        thrust::device_vector<float2> d_result_modified(N);

        thrust::transform(d_A.begin(), d_A.end(),
                          d_B.begin(), d_result_modified.begin(),
                          ElementWiseProductModified());
        h_result_modified = d_result_modified;
    }

    std::cout << std::fixed;
    for (size_t i = 0; i < 4; i++)
    {
        float2 a = h_A[i];
        float2 b = h_B[i];

        std::cout << "(" << a.x << "," << a.y << ")";
        std::cout << " * ";
        std::cout << "(" << b.x << "," << b.y << ")";

        if (compute_basic_product)
        {
            float2 prod = h_result[i];
            std::cout << " = ";
            std::cout << "(" << prod.x << "," << prod.y << ")";
        }

        if (compute_modified_product)
        {
            float2 prod_modified = h_result_modified[i];
            std::cout << " = ";
            std::cout << "(" << prod_modified.x << "," << prod_modified.y << ")";
        }
        std::cout << std::endl;
    }   

    return 0;
}

这将返回：

(6.000000,5.000000)  * (0.000000,1.000000)  = (-5.000000,6.000000)
(3.000000,2.000000)  * (0.000000,4.000000)  = (-8.000000,12.000000)
(2.000000,10.000000) * (10.000000,4.000000) = (-20.000000,108.000000)
(4.000000,8.000000)  * (10.000000,9.000000) = (-32.000000,116.000000)

然后，您可以比较两种不同乘法策略的时序，并选择最适合您的硬件的策略。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 CUDA 进行逐元素向量乘法的相关文章

指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
Golang调用CUDA库

我正在尝试从 Go 代码中调用 CUDA 函数我有以下三个文件 test h int test add void test cu global void add int a int b int c c a b int test add v
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
在 MATLAB 中数值计算复值函数的导数

我想在 MATLAB 中以数值方式计算复值函数全纯函数的导数我已经计算了复平面上网格中的函数并且尝试使用柯西黎曼关系来计算导数鉴于 u 实数 f v imag f x 实数点 y imag 点导数应由下式给出 f du dx
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje

随机推荐

@Autowired jdbcTemplate 和 h2 内存数据库多次执行 runscript

我继承了一个项目并试图针对内存中的 h2 数据库运行一组集成测试为了让他们传递一些表格需要创建关系和参考数据我可以看到问题在于引用的脚本RUNSCRIPT被执行多次因此生成Index XXX IDX already exists错
Windows 批处理文件中的 SQL 语句

有没有办法让Windows批处理文件直接输入SQL语句而不需要调用脚本我希望批处理文件登录SQL 然后直接输入语句 EDIT 我正在使用 Oracle v10g 对于单个命令您可以使用以下技巧 echo select from dual
JSON 中的换行符

我们使用 WCM 工具进行内容输入内容编辑器将在该工具中输入包含文本和 html 的内容为了将内容转换为 JSON 我们使用 newton JSON 如下所示我们传递简单的键和值字典 string output JsonConvert
使用 R 中的 ggplot2 在分类散点图中添加水平线

我正在尝试为 3 个组绘制一个简单的散点图每个组具有不同的水平线线段例如组 a 的 hline 为 3 组 b 的 hline 为 2 5 hline 为组 b c 组为 6 library ggplot2 df lt data f
在所有应用程序之上绘制 Android 画布？

考虑到 Android 的本质我怀疑这是不可能的但是有没有办法创建一个显示在所有应用程序之上的各种视图也许使用 Canvas 对象我对这个项目的意图并不是恶意的我创建了一些简单的彩色滤镜软件 http www musatcha c
使用鼠标功能时出错：没有什么可以估算的

我尝试将 NA 数据填充到数据框中我做了简单的数据 library mice first lt c 1 2 3 4 5 NA 7 8 9 NA second lt c 1 2 NA 4 5 6 7 NA 9 10 sample data
如何替换 R.drawable."someString"

我的项目中有一些图像图像的名称存储在字符串中我想 setImageResource R drawable 与图像名称的字符串但问题是这不起作用我怎样才能做到这一点这不是正确的语法您必须得到编译时错误在更改图像资源之前您必须知道
使用 PHP Mcrypt 加密并使用 MySQL aes_decrypt 解密？

是否可以使用 PHP 加密数据mcrypt并用MySQL在数据库中解密AES DECRYPT 目前我正在使用RIJNDAEL 128 for mcrypt关于 PHP 我还确保数据库中的加密字段具有数据类型blob Yet AES DEC
.Resx 和 .Resources 文件类型有什么区别？

我有很多 resources 文件需要打开并查看我下载了Zeta 资源编辑器 http www zeta resource editor com 但它仅适用于 Resx 文件有区别吗我可以打开 Resources 文件并提取其内容吗
Postgresql 上的 Castle Activerecord 错误是“关系不存在”？

ActiveRecord 映射 ActiveRecord JobTitle Schema public public class JobTitle ActiveRecordValidationBase
如何让 Visual Studio Code 在调试时退出时暂停

尽我所能我找不到让 Visual Studio Code 在调试结束时暂停的方法控制台窗口就消失了并带走了所有输出如果我一遍又一遍地运行该程序我可以看到一些文本闪烁但我无法在它出现的毫秒内读取它 I can启动时暂停这样可行
Javascript 将 CSV 文件加载到数组中

我正在 WordPress 中开发一个网页该网页需要有一个包含所有县的组合框我有一个 csv 格式的数据集其中包含所有这些县的约 10k 行当用户在下拉列表中选择一个县时我只想在网页中显示所选县的数据这是我的要求在 WordP
Rails 缓存过期

我有一个 Rails 应用程序因为我使用简单的 Rails 缓存我的测试如下 Rails cache write temp Date today expires in gt 60 seconds 我可以读完Rails cache rea
使用 Jackson 与 Java Mongo DBObject 进行高效 POJO 映射

虽然类似于使用 MongoDB Java 驱动程序将 DBObject 转换为 POJO https stackoverflow com questions 7684223 convert dbobject to a pojo using
我可以使用.NET Reflector快速修改和重新编译代码吗？

是否可以使用 NET反射器 http en wikipedia org wiki NET Reflector 或其他工具修改并重新编译代码quickly 也就是说不转储源然后使用视觉工作室 http en wikipedia org w
如何使用 python 显示当前用户的进程列表？

我知道它与 proc 有关但我不太熟悉它教科书的答案是使用psutil像这样的模块 import psutil getpass os user name getpass getuser process dict proc pid pro
orpd等SSE2指令有什么意义？

The orpd指令是压缩双精度浮点值的按位逻辑或这不是做完全相同的事情吗por 按位逻辑或如果是这样拥有它还有什么意义呢请记住 SSE1orps https www felixcloutier com x86 orps首先实
Android 上的 GStreamer

谁能给我一些关于让 GStreamer 在 Android 上工作的提示我以前从未使用过它我想将它与 FFmpeg 一起使用我已经编译了 FFmpeg 并且在 Android 上运行良好我只是想使用 GStreamer 来帮助完成一
有没有办法在指定标题的同时将数据附加到谷歌表格？

在谷歌表格中我有一个包含很多列的时间序列数据 date mcdonalds kfc anw tacobell 2017 08 01 432 65 543 543 2017 08 02 76 53 74 32 2017 08 03 76 2
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了

使用 CUDA 进行逐元素向量乘法

更新的代码

使用 CUDA 进行逐元素向量乘法 的相关文章

随机推荐

热门标签

使用 CUDA 进行逐元素向量乘法的相关文章