OpenMP、MPI、CUDA总结

2023-11-09

文章目录

一、OpenMP
二、MPI (Message Passing Interface)
三、 CUDA

一、OpenMP

OpenMP是由OpenMP Architecture Review Board牵头提出的，并已被广泛接受的，用于共享内存并行系统的多线程程序设计的一套指导性注释(Compiler Directive)。OpenMP支持的编程语言包括C语言、C++和Fortran；而支持OpenMP的编译器包括Sun Compiler，GNU Compiler和Intel Compiler等。
OpenMP提供了对并行算法的高层的抽象描述，程序员通过在源代码中加入专用的pragma来指明自己的意图，由此编译器可以自动将程序进行并行化，并在必要之处加入同步互斥以及通信。当选择忽略这些pragma，或者编译器不支持OpenMP时，程序又可退化为通常的程序(一般为串行)，代码仍然可以正常运作，只是不能利用多线程来加速程序执行。

OpenMP提供的这种对于并行描述的高层抽象降低了并行编程的难度和复杂度，这样程序员可以把更多的精力投入到并行算法本身，而非其具体实现细节。对基于数据分集的多线程程序设计，OpenMP是一个很好的选择。同时，使用OpenMP也提供了更强的灵活性，可以较容易的适应不同的并行系统配置。线程粒度和负载平衡等是传统多线程程序设计中的难题，但在OpenMP中，OpenMP库从程序员手中接管了这两方面的部分工作，提高程序员们的开发效率。
　　但是，作为高层抽象，OpenMP并不适合需要复杂的线程间同步和互斥的场合。OpenMP的另一个缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上，MPI使用较多。

1.1 多执行绪的概念

OpenMP是作为共享存储标准而问世的。它是为在多处理机上编写并行程序而设计的一个应用编程接口。它包括一套编译指导语句和一个用来支持它的函数库。
　　目前双核、四核、六核的 CPU 当道，而八核的CPU也已经面世多时，所以在多处理机上编写、运行并行程序会变得相当普遍。
　　对於一般单一执行绪（single thread）的程式，多核心的处理器并没有办法提升它的处理效能；不过对於多执行绪（multi thread）的程式，就可以透过不同的核心同时计算，来达到加速的目的了！简单的例子，以单执行绪的程式来说，一件事做一次要十秒的话，要做十次，都丢给同一颗核心做的话，自然就是10 秒 * 10 次，也就是 100 秒了；但是以多执行绪的程式来说，它可以把这一件事，分给两颗核心各自做，每颗核心各做 5 次，所以所需要的时间就只需要 50 秒！
　　当然，多执行绪的程式实际上没这么简单。在工作的切割、结合上，也是要多花时间的，所以在现实中，即使最佳状况，双核心的效能也不会是 1 + 1 = 2 这样的理想化。除此之外，也不是所有工作都是可以切割的！很多工作是有关联性的，这样如果直接切割给不同的处理核心各自去平行运算，出来的结果是肯定有问题的。而且，多执行绪的程式在编写、维护上，也都比单一执行绪的程式复杂上不少。
　　不过，如果电脑本身是多处理器、多核心处理器，或是处理器拥有像 Intel Hyper-Threading Technology
这类的能在同一个时间处理多个执行绪的功能的话，那把各自独立的工作由单一执行绪改成多执行绪，在执行的效率上，大多还是会有增进的！

1.2 多执行绪的程式

写程式的时候该怎么去写多执行绪的程式呢？一般的方法，就是真的利用 thread 的控制，去实际在程式中去产生其他的 thread 来处理。像 POSIX Threads 这套 library，就是用来产生、控制执行绪的函式库。而像 Microsoft VisualStudio 2005 中，也有提供控制thread 的功能。这种方法，大多就是产生多个 thread，而再由主要的 thread 把工作拆开，分给各 thread 去运算，最後再由主要的 thread 回收结果、整合。
　　但是，实际上要去控制 thread 是满麻烦的～在程式的编写上，也会复杂不少；而如果我们只是想要把一些简单的回圈平行化处理，用 thread library 来控制，实在有点杀鸡用牛刀的感觉。这时候，用 OpenMP 就简单多了！OpenMP 是一种能透过高阶指令，很简单地将程式平行化、多执行绪化的API；在最简单的情形，甚至可以只加一行指令，就可以将回圈内的程式平行化处理了！

1.3 OpenMP 的基本使用

在编写使用OpenMP的程序时，则需要先include OpenMP的头文件：omp.h。
而要将 for 回圈平行化处理，该怎么做呢？非常简单，只要在前面加上一行#pragma omp parallel for就够了！
　　也可以实际用一段简单的程序，来弄清楚它的运作方式。

#include <stdio.h>
#include <stdlib.h>
void Test(int n) {
　　for (int i = 0; i < 10000; ++i){
　　//do nothing, just waste time
　　}
　　printf("%d, ", n);
}
int main(int argc, char* argv[]){
　　for (int i = 0; i < 10; ++i)
　　Test(i);
　　system("pause");
　　return 0;
}

上面的程序，在 main() 是一个很简单的回圈，跑十次，每次都会调用Test()这个函数，并把是回圈的执行次数(i)传进Test() 并打印出来。想当然，它的结果会是：
　　 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
　　而如果想利用 OpenMP把 main() 里面的回圈平行化处理呢？只需要修改成下面的样子：

#include <omp.h>
#include <stdio.h>
#include <stdlib.h>
void Test (int n) {
　 for (int i = 0; i < 10000; ++i) {
　　//do nothing, just waste time
　　}
　　printf("%d, ", n);
}
int main(int argc, char* argv[]) {
　　#pragma omp parallel for
　　 for (int i = 0; i < 10; ++i)
　　Test( i );
　　system("pause");
　　return 0;
}

        够简单吧？重头到尾，只加了两行！而执行后，可以发现结果也变了！
　　                                                0, 5, 1, 6, 2, 7, 3, 8, 4, 9,
        可以从结果很明显的发现，他没有照着0到9的顺序跑了！而上面的顺序怎么来的？其实很简单，OpenMP只是把回圈 0 - 9 共十个步骤，拆成 0 - 4, 5 - 9 两部份，丢给不同的执行绪去跑，所以数字才会出现这样交错性的输出～
        而要怎么确定真的有跑多执行绪呢？如果本来有多处理器、多核心处理器或有 Hyper Thread 的话，一个单执行绪程序，最多只会把一颗核心的使用量吃完；像比如说在 Pentium 4 HT 上跑，单一执行绪的程序，在工作管理员中看到的 CPU 使用率最多就是50%。而利用 OpenMP 把回圈进行平行化处理后，就可以在执行回圈时，把两颗核心的 CPU 都榨光了！也就是CPU 使用率是100%。

1.4 OpenMP使用详解

由于内容太多，笔者就此内容单独写了一个博客《OpenMP使用详解》，点击左侧链接进入。

二、MPI (Message Passing Interface)

对MPI的定义是多种多样的，但不外乎下面三个方面，它们限定了MPI的内涵和外延：　　
1、MPI是一个库，而不是一门语言。许多人认为，MPI就是一种并行语言，这是不准确的。但是，按照并行语言的分类，可以把FORTRAN+MPI或C+MPI看作是一种在原来串行语言基础之上扩展后得到的，并行语言MPI库可以被FORTRAN77/C/Fortran90/C++调用，从语法上说，它遵守所有对库函数/过程的调用规则，和一般的函数/过程没有什么区别；　　
2、MPI是一种标准或规范的代表，而不特指某一个对它的具体实现，迄今为止，所有的并行计算机制造商都提供对MPI的支持，可以在网上免费得到MPI在不同并行计算机上的实现，一个正确的MPI程序可以不加修改地在所有的并行机上运行；　　
3、MPI是一种消息传递编程模型，并成为这种编程模型的代表。事实上，标准MPI虽然很庞大，但是它的最终目的是服务于进程间通信这一目标的；（解释来源于《高性能计算之并行编程技术——MPI并行程序设计》都志辉编著）

MPI是多点接口(Multi Point Interface)的简称，是西门子公司开发的用于PLC之间通讯的保密的协议。MPI通讯是当通信速率要求不高、通信数据量不大时，可以采用的一种简单经济的通讯方式。MPI通信可使用PLC S7-200/300/400、操作面板TP/OP及上位机MPI/PROFIBUS通信卡，如CP5512/CP5611/CP5613等进行数据交换。（解释来源于《西门子工业网络通信指南》（上册）崔坚主编）
　　MPI的实现包括MPICH、LAM、IBM MPL等多个版本，最常用和稳定的是MPICH，曙光天潮系列的MPI以MPICH为基础进行了定制和优化。
　　MPICH含三层结构，最上层是MPI的API，基本是点到点通信，和在点到点通信基础上构造的集群通信（Collective Communication）；中间层是ADI层（Abstract Device Interface），其中device可以简单地理解为某一种底层通信库，ADI就是对各种不同的底层通信库的不同接口的统一标准；底层是具体的底层通信库，例如工作站机群上的p4通信库、曙光1000上的NX库、曙光3000上的BCL通信库等。
　　MPICH的1.0.12版本以下都采用第一代ADI接口的实现方法，利用底层device提供的通信原语和有关服务函数实现所有的ADI接口，可以直接实现，也可以依靠一定的模板间接实现。自1.0.13版本开始，MPICH采用第二代ADI接口。

三、 CUDA

CUDA(Compute Unified Device Architecture)，显卡厂商NVidia推出的运算平台。
CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA™架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA™的处理器上以超高性能运行。还支持其它语言，包括FORTRAN以及C++。

CUDA（Compute Unified Device Architecturem，统一计算设备架构）这一编程模型，是想在应用程序中充分利用CPU和GPU各自的优点。现在，该架构现已应用于GeForce®（精视™）、ION™（翼扬™）、Quadro以及Tesla GPU（图形处理器）上，对应用程序开发人员来说，这是一个巨大的市场。
　　在消费级市场上，几乎每一款重要的消费级视频应用程序都已经使用CUDA加速或很快将会利用CUDA来加速，其中不乏Elemental Technologies公司、MotionDSP公司以及LoiLo公司的产品。
　　在科研界，CUDA一直受到热捧。例如，CUDA现已能够对AMBER进行加速。AMBER是一款分子动力学模拟程序，全世界在学术界与制药企业中有超过60,000名研究人员使用该程序来加速新药的探索工作。
　　在金融市场，Numerix以及CompatibL针对一款全新的对手风险应用程序发布了CUDA支持并取得了18倍速度提升。Numerix为近400家金融机构所广泛使用。
　　CUDA的广泛应用造就了GPU计算专用Tesla GPU的崛起。全球财富五百强企业现在已经安装了700多个GPU集群，这些企业涉及各个领域，例如能源领域的斯伦贝谢与雪佛龙以及银行业的法国巴黎银行。

3.1 CUDA发展历程

随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA，让显卡可以用于图像计算以外的目的。
　　目前只有G80、G92、G94、G96、GT200、GF100平台（即Geforce 8~Gecorce GTX480）的NVidia显卡才能使用CUDA，工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU，因此非常适合并行计算，而且数值计算的速度远远优于CPU。
　　CUDA的SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2005集成在一起。

3.2 CUDA体系结构

从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动。
　　开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。
　　运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。

3.3 CUDA工具包

是一种针对支持CUDA功能的GPU（图形处理器）的C语言开发环境。CUDA开发环境主要包括:Linux、WinAll。

3.4 nvcc C语言编译器

CUDA的本质是NVIDIA为自家的GPU编写了一套编译器NVCC极其相关的库文件。CUDA的应用程序扩展名可以选择是.cu，而不是.cpp等。NVCC是一个预处理器和编译器的混合体。当遇到CUDA代码的时候，自动编译为GPU执行的代码，也就是生成调用CUDA Driver的代码。如果碰到Host C++代码，则调用平台自己的C++编译器进行编译，比如Visual Studio C++自己的Microsoft C++ Compiler。然后调用Linker把编译好的模块组合在一起，和CUDA库与标准C/C++库链接成为最终的CUDA Application。由此可见，NVCC模仿了类似于GCC一样的通用编译器的工作原理(GCC编译CC++代码本质上就是调用cc和g++)。整个CUDA平台是通过运用显卡内的流处理器进行数学运算，并通过GPU内部的缓存共享数据，流处理器之间甚至可以互相通信，同时对数据的存储也不再约束于以GPU的纹理方式，存取更加灵活，可以充分利用统一架构的流输出(stream out)特性，大大提高应用效率。

3.5 CUDA的运算

目前的CUDA所用的运算方法是分开的，一部分由CPU负责，而另一部分通过CUDA编译器使用GPU进行运算。在CUDA的架构下，一个程序分为两个部份：Host 端和Device 端。Host 端是指在CPU 上执行的部份，而device 端则是在显示芯片上执行的部份。Device端的程序又称为 “kernel”。通常host端程序会将数据准备好后，复制到显卡的内存中，再由显示芯片执行device端程序，完成后再由host端程序将结果从显卡的内存中取回。
由于显示芯片大量并行计算的特性，它处理一些问题的方式，和一般CPU是不同的。比如在内存存取latency 的问题上，CPU 通常使用cache 来减少存取主内存的次数，以避免内存latency 影响到执行效率，而显示芯片则多半没有cache(或很小)，而利用并行化执行的方式来隐藏内存的latency(即，当第一个 thread 需要等待内存读取结果时，则开始执行第二个thread，依此类推)，效率提高不少。正如 NVIDIA(英伟达)公司Tesla GPU计算事业部高级产品经理Sumit Gupta先生曾经推过一个形象的例子，CPU的顺序指令执行操作好比是一间办公室里的多个职员，如果每人需要将杯子里的水倒入同一个桶内时，他们需要排成长队按顺序进行。而对于GPU来说，这些职员无需排队，只要同时走到桶前将水倒入即可。所以，最适合利用CUDA处理的问题，是可以大量并行化的问题，才能有效隐藏内存的latency，并有效利用显示芯片上的大量执行单元。使用CUDA
时，同时有上千个thread在执行是很正常的。因此，如果不能大量并行化的问题，使用CUDA就没办法达到最好的效率了

3.6 GPU并行计算过程

而NVIDIA(英伟达)在6月17日GeForce GTX 200系列发布之时也推出了CUDA 2.0，加入双精度运算支持，为应用提供更准确的运算结果，而这项技术源自于多重处理器的专用单元。
多重处理器的专用单元框架
　　每一个多重处理器都包含了8个主要的FMAD处理器和8个MUL处理器来实现一些特殊功能的计算等。这样，一个64位的FMAD处理器就产生了。但是这样的处理器对于64位的计算能力相当低下，8X的低速FMAD和16X的低速FMUL都是导致计算能力低下的原因。这个支持64位也意味着可以以它为模板为将来的更高级和新一代的GPU发展提供代码或者应用程序的支持，从而得到更好的甚至超过一个以上的64位处理器。每一个多重处理器都具有两个流处理线，这样就不必依赖周期而同时处理两个信号。
　　引入双精度运算能力，可以在一定程度上增强GT200在科学计算领域的适用性.尽管在实际的相关领域中其实有部分甚至只需要16位精度就足够了，但GTX200核心的每一个SM都包括了一个双精度64Bit浮点运算单元，所以每个周期GT200能达成1MAD*30SM=30MAD，在1.5GHz的shader频率下可以达到90 GFLOPS(MAD)的双精度浮点性能， NVIDIA(英伟达)对其称之为可以与8核Xeon处理器(我想应该是指45nm Hypertown内核Xeon E5440 2.83GHz)的水平。不过需要注意的是，Xeon每个内核的浮点单元组合是每两个周期完成一个ADDPD或者一个周期完成一个MULPD，在双精度浮点峰值性能上"含金量"方面似乎要比GT200每个SM单周期MAD高一些。
NVIDIA(英伟达)的对手AMD在RV670上实现了硬件(非模拟)的FP64支持，双精度MAD性能为单精度MAD的1/5，GT200架构的双精度浮点支持应该是 NVIDIA(英伟达)迈向双精度浮点加速器的第一步，未来的架构很可能会把浮点双精度的性能做到单精度的1/2水平，这将是非常可观的。
　2007年可以说是GPU发展史上翻天覆地的一年，在这一年微软推出了DirectX 10 API标准，将传统的Pixel Shader（顶点着色器）、Vertex Shader（像素着色器）和Geometry Shader（几何着色器），三种硬件逻辑被整合为一个全功能的统一着色器Shader。
　　这种API发展思路背后是微软和NVIDIA、AMD对于整个GPU发展历程的思考与转型。它标志着微软开始支持GPU走向更强的可编程性，也标志着Intel等传统CPU制造厂商在未来几年将要面对GPU的强硬挑战，越来越多的高性能计算机和超级计算机已经开始以GPU作为其运算能力提升的重要配件。
天河一号-A所采用的NVIDIA Tesla GPU
　　2007年同样是NVIDIA值得回忆的一年，NVIDIA公司在这一年正式推出了CUDA整套方案，它是一个完整的通用计算产品。CUDA是Compute Unified Device Architecture（统一计算架构）的简称，是建立在GPU基础之上的通用计算开发平台，它是一个全新的软硬件架构，可以将GPU视为一个并行数据计算的设备，对所进行的计算进行分配和管理。
简单分析可知，CUDA是一种以C语言为基础的平台，主要是利用显卡强大的浮点运算能力来完成以往需要CPU才可以完成的任务。这种整套方案的提出意味着程序员再也不用去钻研繁杂的底层汇编程序，而是在C语言的基础上稍加学习就能掌握CUDA并通过它来调用GPU强大的浮点运算能力。
这一版本的CUDA大幅度降低了编程难度，同时提升了GPU的编程和执行效率。CUDA 4.0主要的功能能够在Fermi架构的最新GPU上被发挥出来，同时它可以让G80、G92、GT200架构的GPU也拥有编程方式上的飞跃。
上图描述了NVIDIA CUDA发布以来，从1.0版本官方大力宣传和爱好者尝试，到2.0版专用领域开始应用CUDA进行编程开发，3.0版本已经引来整个行业的关注，大量软件开始基于CUDA进行基于GPU的加速开发，到今天推出4.0版本继续降低开发难度提升开发效率。
　　除了上述叙述之外，我们通过资料得到CUDA 4.0架构版本还包含大量其它特性与功能，其中包括：
　　1、MPI与CUDA应用程序相结合——当应用程序发出MPI收发调用指令时，例如OpenMPI等改编的MPI软件可通过Infiniband与显卡显存自动收发数据。
　　2、GPU多线程共享——多个CPU主线程能够在一颗GPU上共享运行环境，从而使多线程应用程序共享一颗GPU变得更加轻松。　　
　　3、单CPU线程共享多GPU——一个CPU主线程可以访问系统内的所有GPU。开发人员能够轻而易举地协调多颗GPU上的工作负荷，满足应用程序中“halo”交换等任务的需要。
　　4、全新的NPP图像与计算机视觉库——其中大量图像变换操作让开发人员能够快速开发出成像以及计算机视觉应用程序。
　　5、全新、改良的功能
　　Visual Profiler中的自动性能分析功能
　　Cuda-gdb中的新特性以及新增了对MacOS的支持
　　新增了对C++特性的支持，这些特性包括新建/删除以及虚拟等功能
　　全新的GPU二进制反汇编程序
　　目前CUDA能够有效利用GPU强劲的处理能力和巨大的存储器带宽进行图形渲染以外的计算，广泛应用于图像处理、视频传播、信号处理、人工智能、模式识别、金融分析、数值计算、石油勘探、天文计算、流体力学、生物计算、分子动力学计算、数据库管理、编码加密等领域，并在这些领域中对CPU获得了一到两个数量级的加速，取得了令人瞩目的成绩。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)