OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

2024-04-18

我观察到我正在编写的 openmp 代码出现了意外的（对我来说！）行为。代码结构如下：

#pragma omp parallel for
for(int i=0;i<N;i++){ 
 // lots of calculations that produce 3 integers i1,i2,i3 and 3 doubles d1,d2,d3 
 #pragma omp atomic 
 J1[i1] += d1;
 #pragma omp atomic
 J2[i2] += d2; 
 #pragma omp atomic
 J3[i3] += d3; 
}

我编译了该代码的三个不同版本：

1) 使用 openmp (-fopenmp)

2）没有openmp

3）使用openmp，但没有3个原子操作（只是作为测试，因为原子操作是必要的）

当我使用环境变量 OMP_NUM_THREADS=1 运行版本 1) 时，我观察到版本 2) 的速度显着下降；而版本 3) 的运行速度与版本 2) 一样快。

我想知道这种行为的原因（为什么即使是单线程，原子操作也会减慢代码速度？！）以及是否可以以版本 1）运行速度一样快的方式编译/重写代码版本 2)。

我在问题末尾附上一个显示上述行为的工作示例。我编译了 1)：

g++ -fopenmp -o toy_code toy_code.cpp -std=c++11 -O3

2) with:

g++ -o toy_code_NO_OMP toy_code.cpp -std=c++11 -O3

3) 与：

g++ -fopenmp -o toy_code_NO_ATOMIC toy_code_NO_ATOMIC.cpp -std=c++11 -O3

编译器的版本是gcc版本5.3.1 20160519（Debian 5.3.1-20）。 3个版本的执行时间分别为：

1) 1 分 24 秒

2) 51 秒

3）51秒

预先感谢您的任何建议！

// toy_code.cpp 
#include <stdio.h>
#include <iostream>
#include <stdlib.h>
#include <cmath>
#include <omp.h>
#define Np 1000000
#define N 1000

int main (){
        double* Xp, *Yp, *J,*Jb;
        Xp = new double[Np];
        Yp = new double[Np];  
        J = new double [N*N];
        Jb = new double [N*N];

        for(int i=0;i<N*N;i++){
            J[i]=0.0;
            Jb[i]=0.0;
        }

        for(int i=0;i<Np;i++){
            Xp[i] = rand()*1.0/RAND_MAX - 0.5;
            Yp[i] = rand()*1.0/RAND_MAX - 0.5;
        }

        for(int n=0; n<2000; n++){
        #pragma omp parallel for
        for(int p=0;p<Np;p++){
            double rx = (Xp[p]+0.5)*(N-1);
            double ry = (Yp[p]+0.5)*(N-1);
            int xindex = (int)floor(rx+0.5);
            int yindex = (int)floor(ry+0.5);
            int k;
            k=xindex*N+yindex;

            #pragma omp atomic
            J[k]+=1;
            #pragma omp atomic
            Jb[k]+=1;
         }
         }

        delete[] Xp;
        delete[] Yp;
        delete[] J;
        delete[] Jb;

return 0;
}

如果启用 OpenMP，gcc 必须生成适用于仅在运行时已知的任意数量线程的不同代码。

在这种特殊情况下，看一下输出gcc -S（通过标签稍微缩短）。

没有 OpenMP：

.loc 1 38 0 discriminator 2  # Line 38 is J[k]+=1;
movsd   8(%rsp), %xmm1
cvttsd2si   %xmm0, %edx
cvttsd2si   %xmm1, %eax
movsd   .LC3(%rip), %xmm0
imull   $1000, %eax, %eax
addl    %edx, %eax
cltq
salq    $3, %rax
leaq    0(%r13,%rax), %rdx
.loc 1 40 0 discriminator 2   # Line 40 is Jb[k]+=1;
addq    %r12, %rax
.loc 1 29 0 discriminator 2
cmpq    $8000000, %r15
.loc 1 38 0 discriminator 2
addsd   (%rdx), %xmm0
movsd   %xmm0, (%rdx)
.loc 1 40 0 discriminator 2
movsd   .LC3(%rip), %xmm0
addsd   (%rax), %xmm0
movsd   %xmm0, (%rax)

循环展开使得这变得相当复杂。

With -fopenmp:

movsd   (%rsp), %xmm2
cvttsd2si   %xmm0, %eax
cvttsd2si   %xmm2, %ecx
imull   $1000, %ecx, %ecx
addl    %eax, %ecx
movslq  %ecx, %rcx
salq    $3, %rcx
movq    %rcx, %rsi
addq    16(%rbp), %rsi
movq    (%rsi), %rdx
movsd   8(%rsp), %xmm1
jmp .L4
movq    %rax, %rdx
movq    %rdx, (%rsp)
movq    %rdx, %rax
movsd   (%rsp), %xmm3
addsd   %xmm1, %xmm3
movq    %xmm3, %rdi
lock cmpxchgq   %rdi, (%rsi)
cmpq    %rax, %rdx
jne .L9
.loc 1 40 0
addq    24(%rbp), %rcx
movq    (%rcx), %rdx
jmp .L5
.p2align 4,,10
.p2align 3
movq    %rax, %rdx
movq    %rdx, (%rsp)
movq    %rdx, %rax
movsd   (%rsp), %xmm4
addsd   %xmm1, %xmm4
movq    %xmm4, %rsi
lock cmpxchgq   %rsi, (%rcx)
cmpq    %rax, %rdx
jne .L10
addq    $8, %r12
cmpq    %r12, %rbx
jne .L6

我不会尝试解释或理解这里发生的所有细节，但这对于消息来说不是必需的：编译器必须使用可能更昂贵的不同原子指令，尤其是lock cmpxchgq.

除了这个基本问题之外，OpenMP 可能会以任何可以想象的方式干扰优化器，例如干扰展开。我还看到了一个奇怪的案例，英特尔编译器实际上为 OpenMP 循环生成了更高效的串行代码。

附：认为自己很幸运——情况可能会更糟。如果编译器无法将原子指令映射到硬件指令，则必须使用锁，这会更慢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

openmp

atomic

pragma

singlethreaded

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题的相关文章

C#中如何检测字符串是否为货币

通常当我需要转换时currency string 如 1200 55 z 或 1 249 到十进制值我这样做 if currencyString Contains z decimal value Decimal Parse dataToCh
处理 LINQ sum 表达式中的 null

我正在使用 LINQ 查询来查找列的总和并且在少数情况下该值有可能为空我现在使用的查询是 int score dbContext domainmaps Where p gt p SchoolId schoolid Sum v gt v
.NET 可移植类库中的 .ToShortDateString 发生了什么

我想知道为什么没有 ToShortDateString在 NET 可移植类库中我有 2 个项目 Silverlight 和常规 NET 类库使用相同的代码并且代码涉及调用 ToShortDateString on a DateTime
当我单击 GridView 项时返回 ImageView 实例

当我点击GridView项时如何返回ImageView实例我为 ItemClick 创建自定义绑定事件 public class ItemClickSquareBinding MvxBaseAndroidTargetBinding pri
阅读 Stack Overflow RSS 源

我正在尝试获取未回答问题的列表the feed https stackoverflow com feeds 但我在阅读时遇到困难 const string RECENT QUESTIONS https stackoverflow com f
C++ 在 Vector 中使用不可分配的对象

我想将对象列表存储在std vector 但对象包含引用且无法分配给但是我可以复制构造该对象我能想到的唯一选择是使用指针来包装对象并在需要分配指针时重新设置指针但这样做的语法会显着降低可读性特别是在使用迭代器时我更喜欢另一种选择
控制台应用程序 .net Core 2.0 的配置

在 net Core 1 中我们可以这样做 IConfiguration config new ConfigurationBuilder AddJsonFile appsettings json true true Build 这样就可以使
C中有const吗？

这个问题可能很幼稚但是有没有constC 中的关键字从哪个版本开始之间有任何语义和或句法差异吗const在 C 和 C 中 C 和 C 之间在语法上没有差异const关键字除了一个相当晦涩的关键字在 C 中自 C99 起您
通过 mpi 发送 c++ std::vector

我知道存储一个std vector
C#：如何使用 SHOpenFolderAndSelectItems [重复]

这个问题在这里已经有答案了有人可以举例说明如何使用 shell 函数吗SH打开文件夹并选择项目 http msdn microsoft com en us library bb762232 VS 85 aspx来自 C 我不太明白如何使用
标准 C 中的 sizeof 与 sizeof()？ [复制]

这个问题在这里已经有答案了我看到一些直接使用 sizeof 的代码想知道它是否是标准 C 令我惊讶的是它运行得很好这是一个例子 include
如何使用 Clang 查找内存泄漏

我在我的机器 ubuntu 中安装了 Clang 以便发现我的 C 代码中的内存泄漏我编写了一个示例代码来检查它的工作情况如下所示 File hello c for leak detection include
如何从枚举中选择随机值？

给定 C 中的任意枚举如何选择随机值我没有找到这个非常基本的问题我会在一分钟内发布我的答案作为任何人的参考但请随意发布你自己的答案 Array values Enum GetValues typeof Bar Random rand
为什么我不能在扩展 List 的类中调用 OrderBy？

我有一堂课 Deck 其中包含一个名为的方法Shuffle 我正在致力于重构Deck延长List
在 unix 中编译 dhrystone 时出错

我是使用基准测试和 makefile 的新手我已经从下面的链接下载了 Dhrystone 基准测试我正在尝试编译它但我遇到了奇怪的错误我尝试解决它但没有成功有人可以帮助我运行 dhrystone 基准测试吗以下是我尝试编译的两
宏观评价[重复]

这个问题在这里已经有答案了可能的重复未定义的行为和序列点 https stackoverflow com questions 4176328 undefined behavior and sequence points 我无法理解以下宏
有没有办法让 VS2010 在我的方法中扩展或收缩 try 块？

我的代码有很多 try catch finally 块与我在 VS2010 中的方法不同除了添加区域之外我无法在开发时扩展或收缩这些区域来隐藏内容 try vm R vm Qu vm T vm D vm Fil vm Type vm
如何仅更改 DateTime 的日期部分，同时保留时间部分？

我在代码中使用了很多 DateTime 我想将这些日期时间更改为我的特定日期并保留时间 1 2012 02 02 06 00 00 gt 2015 12 12 06 00 00 2 2013 02 02 12 00 00 gt 2015
Windows 上 libcurl 的静态库[重复]

这个问题在这里已经有答案了如何将此库 libcurl 静态链接到 exe 我努力了 disable share enable static 没有帮助我使用的是MingW32 有没有一种简单的方法来静态链接这个库这样我的应用程序就不再有
当我读取 500MB FileStream 时出现 OutOfMemoryException

我使用 Filestream 读取大文件 gt 500 MB 但出现 OutOfMemoryException 任何有关它的解决方案我的代码是 using var fs3 new FileStream filePath2 FileMode

随机推荐

创建自定义表格表示的函数

我使用下面的代码来概述我的部分数据从以下代码中创建函数的最佳方法是什么它将采用 dataList 以及一些图形选项例如颜色作为参数并返回自定义的表格表示形式如下所示 overviewtheData Text Grid Map R
Symfony 2 FOS 用户捆绑包 Bootstrap 模式 AJAX 登录

有没有人已经使用 Symfony 2 和 FOS User Bundle 在 Bootstrap 模式中构建了登录表单这是我现在所拥有的 src Webibli UserBundle Resources config service ym
使用 PHP 生成 Windows .lnk 文件

我正在开发一个项目其中涉及运行 ProFTPd 的 FTP 服务器和为用户创建帐户的 PHP MySQL 后端创建帐户后系统会向用户发送电子邮件其中包含其帐户详细信息以及下载 FileZilla 或 Cyber Duck 的说明具
Publish 不是改造 web.config 吗？

我制造了一个web config 完整文件 http pastebin com rYreaVyP 它不显示 XML 错误
如何从 HttpInputStream 获取 docx 文件的字节数组？

我正在使用这篇文章第一个答案中的方法如何从 HttpPostedFile 创建字节数组 https stackoverflow com questions 359894 how to create byte array from http
如何写入 stdIn (JAVA) [重复]

这个问题在这里已经有答案了我想通过使用一些输入例如 join 8 对我的 P2P 系统进行一些测试 8 是节点号对于我的系统命令 join 8 是从标准输入读取的但我不想将其键入数百次以进行数百次测试因此我编写了一个测试函数来随
HTML5 视频 - 在特定时间开始视频并播放 x 时间

我正在尝试创建在特定时间点启动本地视频并播放特定持续时间的按钮我已经让它在某个时刻播放但不知道如何让它只播放一定的持续时间这是代码 HTML
C++ 中的叉积

给定以下Python 来自http norvig com sudoku html http norvig com sudoku html def cross A B Cross product of elements in A and el
使用 Terraform（工作区、模块？）配置客户帐户最佳实践？

我需要在 AWS 中创建和管理多个客户环境并且希望利用 Terraform 来部署所有必要的资源每个客户环境基本相同只是用于访问其中一台服务器的 URL 不同我已经整理了一个 Terraform 配置可以为给定客户部署所有资源但
来自本地运行的 docker 容器内的 Azure 托管身份

我正在运行一个由 asp net core 2 2 api 组成的 docker 容器此 api 需要访问 Azure 密钥保管库并且我已使用在密钥保管库上具有正确访问策略的用户登录 Visual Studio 以检索机密但是当我使
为什么 JDBC 是动态加载而不是导入？ [复制]

这个问题在这里已经有答案了在 JDBC 中我只看到使用的示例 Class forName com mysql jdbc Driver true cl 还没有看到有人使用 import com mysql jdbc Driver 是不是因
从 MySQL 数据库中选择随机问题； “正确答案”搞砸了

我正在使用 PHP 和 MYSQL 构建一个简单的测验程序测验旨在一次显示一个问题问题为多项选择题每个问题有 4 个可能的答案如果玩家选择正确他将进入下一个问题如果他选错了测验就会结束首先我设计的测验如下 1 创建一个数据
如何使用 Spring 表达式语言将不带构造函数的对象添加到列表中

我想添加一个BigDecimal使用 Spring 表达式语言的列表 public class SpelTest public List
检查 iterable 的所有值是否为零

有没有一种好的简洁内置的方法来查看可迭代中的所有值是否为零现在我正在使用all 有一点列表理解但是对我来说似乎应该有一种更具表现力的方法我认为这在某种程度上相当于memcmp in C values 0 0 0 0 0 Tes
使用 bash、Azure CLI 和 REST API 访问 CosmosDB - 如何正确获取令牌和哈希？

我的最终目标是使用 bash 和 Azure CLI 将文档上传到现有的 CosmosDB SQL 实例问题是 Azure CLI 确实如此不提供修改文档的命令 https learn microsoft com en us cli az
Spring MVC application.properties 不会被配置文件 application-dev.properties 覆盖

我正在寻找一种根据 JVM 环境变量配置不同 application properties 文件的方法我在 Spring 参考资料中找到了这个文档除了 application properties 文件之外还可以使用命名约定 appl
C# 中的异常有多昂贵？

C 中的异常有多昂贵只要堆栈不深它们似乎并不会非常昂贵然而我读到了相互矛盾的报道有没有没有被反驳的明确报告读到异常在性能方面代价高昂后我编写了一个简单的测量程序与该程序非常相似乔恩斯基特多年前发表 https web ar
如何从 OsStr 和 str 组件构建 URL？

此代码遍历文件夹并查找以以下结尾的文件 txt 接下来我想采取entry file name 这是属于std ffi os str OsStr输入并将其加入BASE URL来形成一个 URL const FOLDER NAME str
更改文件名后缀（使用 sed ？）

我想改变文件名后缀来自文件使用 bash 脚本但有时有些文件带有一个句点有些文件带有两个句点现在我用这个 new file echo file sed s log suf 1 num 其中 new file 是新文件名 file 是
OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

我观察到我正在编写的 openmp 代码出现了意外的对我来说行为代码结构如下 pragma omp parallel for for int i 0 i

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题 的相关文章

随机推荐

热门标签

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题的相关文章