在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况

2023-12-20

我正在尝试在 Apple Silicon (Apple M1 Max) 上的 macOS Monterey (12.5.1) 上编译支持 OpenMP 的 C++ 代码，以获得相应的加速。

该代码计算量大，易于理解，多年来一直使用 OpenMP（例如在 x64 Ubuntu 上），没有出现任何问题；计算或多或少是令人尴尬的并行，因此通过 OpenMP 以多线程方式运行计算的速度是显着的。

当我使用 Apple Clang 在 macOS 上编译代码时，一切正常，除了代码当然是单线程运行的，因为 AppleClang 不支持 OpenMP。

这就是为什么我现在使用 Homebrew 的 Clang 编译所有内容以启用 OpenMP。不幸的是，结果与预期不同。代码编译并使用OpenMP；我发现因为我必须解决一些小问题firstprivateClang 比 GCC 更严格的子句，我看到使用多个线程执行。

然而，运行时withOpenMP 是明显慢一些 than withoutOpenMP。例如，不使用 OpenMP 的计算需要大约 15 秒，使用 OpenMP 需要大约 90 秒，即使在最糟糕的扩展情况下，我预计速度会提高 2 倍到 4 倍。否则计算结果是正确的，它似乎只是影响速度。

我尝试使用 llvm 14（稳定 14.0.6（瓶装））和 llvm 13（稳定 13.0.1（瓶装），由于怀疑回归而尝试）编译该软件，但到目前为止没有成功。

该项目正在使用 CMake，配置如下所示（这是使用 LLVM 13，但我事先尝试过使用默认的 llvm）：

export PATH="/opt/homebrew/opt/llvm@13/bin:$PATH"
...
cmake ../../ -DCMAKE_BUILD_TYPE=Release  \
  -DCMAKE_PREFIX_PATH=/opt/homebrew/opt/llvm@13   \
  -DCMAKE_CXX_COMPILER=/opt/homebrew/opt/llvm@13/bin/clang++   \
  -DCMAKE_C_COMPILER=/opt/homebrew/opt/llvm@13/bin/clang   \
  -DLDFLAGS="-L/opt/homebrew/opt/llvm@13/lib"   \
  -DCPPFLAGS="-I/opt/homebrew/opt/llvm@13/include"

我很高兴就如何解决此问题提供任何建议。提前致谢！

更新1：

当 OMP_DISPLAY_ENV 启用时，将显示以下内容：

OPENMP DISPLAY ENVIRONMENT BEGIN
   _OPENMP='201611'
  [host] OMP_AFFINITY_FORMAT='OMP: pid %P tid %i thread %n bound to OS proc set {%A}'
  [host] OMP_ALLOCATOR='omp_default_mem_alloc'
  [host] OMP_CANCELLATION='FALSE'
  [host] OMP_DEFAULT_DEVICE='0'
  [host] OMP_DISPLAY_AFFINITY='FALSE'
  [host] OMP_DISPLAY_ENV='TRUE'
  [host] OMP_DYNAMIC='FALSE'
  [host] OMP_MAX_ACTIVE_LEVELS='1'
  [host] OMP_MAX_TASK_PRIORITY='0'
  [host] OMP_NESTED: deprecated; max-active-levels-var=1
  [host] OMP_NUM_TEAMS='0'
  [host] OMP_NUM_THREADS: value is not defined
  [host] OMP_PROC_BIND='false'
  [host] OMP_SCHEDULE='static'
  [host] OMP_STACKSIZE='8176k'
  [host] OMP_TARGET_OFFLOAD=DEFAULT
  [host] OMP_TEAMS_THREAD_LIMIT='0'
  [host] OMP_THREAD_LIMIT='2147483647'
  [host] OMP_TOOL='enabled'
  [host] OMP_TOOL_LIBRARIES: value is not defined
  [host] OMP_TOOL_VERBOSE_INIT: value is not defined
  [host] OMP_WAIT_POLICY='PASSIVE'
OPENMP DISPLAY ENVIRONMENT END

一旦我将 OMP_NUM_THREADS 设置为特定数字，我的测试用例就会产生以下运行时间（通过 Boost 的 cpu_timer 获得的时间）。我们可以清楚地看到，代码在单线程（通过 OMP_NUM_THREADS=1 设置）上运行时速度最快，即使它是使用 OpenMP 支持进行编译的。

OMP_NUM_THREADS=1：15.85s wall, 30.97s user + 0.56s system = 31.53s CPU (198.9%)
OMP_NUM_THREADS=2：28.91s wall, 69.93s user + 0.71s system = 70.64s CPU (244.3%)
OMP_NUM_THREADS=4：36.63s wall, 134.07s user + 1.47s system = 135.54s CPU (370.0%)
OMP_NUM_THREADS=8：52.18s wall, 267.80s user + 12.35s system = 280.15s CPU (536.9%)
OMP_NUM_THREADS=10：52.29s wall, 285.78s user + 10.57s system = 296.35s CPU (566.8%)

更新2：

来自 asitop 的系统负载 (https://github.com/tlkh/asitop https://github.com/tlkh/asitop):

OMP_NUM_THREADS=1	OMP_NUM_THREADS=8

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况的相关文章

如何检查图像对象与资源中的图像对象是否相同？

所以我试图创建一个简单的程序只需在单击图片框中更改图片即可我目前只使用两张图片所以我的图片框单击事件函数的代码看起来像这样 private void pictureBox1 Click object sender EventArgs
Qt-Qlist 检查包含自定义类

有没有办法覆盖加载自定义类的 Qt QList 的比较机制即在 java 中你只需要重写一个比较方法我有一个带有我的自定义类模型的 QList QList
pthread_cond_timedwait() 和 pthread_cond_broadcast() 解释

因此我在堆栈溢出和其他资源上进行了大量搜索但我无法理解有关上述函数的一些内容具体来说 1 当pthread cond timedwait 因为定时器值用完而返回时它如何自动重新获取互斥锁互斥锁可能被锁定在其他地方例如在生产者
UML类图：抽象方法和属性是这样写的吗？

当我第一次为一个小型 C 项目创建 uml 类图时我在属性方面遇到了一些麻烦最后我只是将属性添加为变量 lt
C#：如何防止主窗体过早显示

在我的 main 方法中我像往常一样启动主窗体 Application EnableVisualStyles Application SetCompatibleTextRenderingDefault false Application
将目录压缩为单个文件的方法有哪些

不知道怎么问所以我会解释一下情况我需要存储一些压缩文件最初的想法是创建一个文件夹并存储所需数量的压缩文件并创建一个文件来保存有关每个压缩文件的数据但是我不被允许创建许多文件只能有一个我决定创建一个压缩文件其中包含有关进一步
Qt moc 在头文件中实现？

是否可以告诉 Qt MOC 我想声明该类并在单个文件中实现它而不是将它们拆分为 h 和 cpp 文件如果要在 cpp 文件中声明并实现 QObject 子类则必须手动包含 moc 文件例如文件main cpp struct Sub
从路径中获取文件夹名称

我有一些路c server folderName1 another name something another folder 我如何从那里提取最后一个文件夹名称我尝试了几件事但没有成功我只是不想寻找最后的然后就去休息了 Thank
Github Action 在运行可执行文件时卡住

我正在尝试设置运行google tests on a C repository using Github Actions正在运行的Windows Latest 构建过程完成但是当运行测试时它被卡住并且不执行从生成的可执行文件Visual
for循环中计数器变量的范围是多少？

我在 Visual Studio 2008 中收到以下错误 Error 1 A local variable named i cannot be declared in this scope because it would give a
如何将单个 char 转换为 int [重复]

这个问题在这里已经有答案了我有一串数字例如 123456789 我需要提取它们中的每一个以在计算中使用它们我当然可以通过索引访问每个字符但是如何将其转换为 int 我研究过 atoi 但它需要一个字符串作为参数因此我必须将每个字
Discord.net 无法在 Linux 上运行

我正在尝试让在 Linux VPS 上运行的 Discord net 中编码的不和谐机器人我通过单声道运行但我不断收到此错误 Unhandled Exception System Exception Connection lost at
将 unsigned char * (uint8_t *) 转换为 const char *

我有一个带有 uint8 t 参数的函数 uint8 t ihex decode uint8 t in size t len uint8 t out uint8 t i hn ln for i 0 i lt len i 2 hn in i
需要哪个版本的 Visual C++ 运行时库？

microsoft 的最新 vcredist 2010 版是否包含以前的版本 2008 SP1 和 2005 SP1 还是我需要安装全部 3 个版本谢谢你需要所有这些
将文本叠加在图像背景上并转换为 PDF

使用 NET 我想以编程方式创建一个 PDF 它仅包含一个背景图像其上有两个具有不同字体和位置的标签我已阅读过有关现有 PDF 库的信息但不知道如果适用哪一个对于如此简单的任务来说最简单有人愿意指导我吗 P D 我不想使用生成的
在 Dynamics CRM 插件中访问电子邮件发件人地址

我正在编写一个 Dynamics CRM 2011 插件该插件挂钩到电子邮件实体的更新后事件阶段 40 pipeline http msdn microsoft com en us library gg327941 aspx 并且在此阶
为什么 C# Math.Ceiling 向下舍入？

我今天过得很艰难但有些事情不太对劲在我的 C 代码中我有这样的内容 Math Ceiling decimal this TotalRecordCount this PageSize Where int TotalRecordCount
x86 上未对齐的指针

有人可以提供一个示例将指针从一种类型转换为另一种类型由于未对齐而失败吗在评论中这个答案 https stackoverflow com questions 544928 reading integer size bytes from a
如何在 C++ BOOST 中像图形一样加载 TIFF 图像

我想要加载一个 tiff 图像带有带有浮点值的像素的 GEOTIFF 例如 boost C 中的图形我是 C 的新手我的目标是使用从源 A 到目标 B 的双向 Dijkstra 来获得更高的性能 Boost GIL load tiif
防止索引超出范围错误

我想编写对某些条件的检查而不必使用 try catch 并且我想避免出现 Index Out of Range 错误的可能性 if array Element 0 Object Length gt 0 array Element 1 Ob

随机推荐

这个 JS 唯一 ID 生成器不可靠吗？（发生碰撞）

我使用以下 JS 函数来生成唯一 ID 这是我从另一个 StackOverflow 线程获得的 function generateUniqueID return Math round new Date getTime Math random
为什么 Keras API 需要第一层的输入形状，因为没有它实际上也能正常工作？

我在用tf keras从 TensorFlow 1 9 0 开始似乎一切正常无需指定input shape构建时在第一层Sequential model import tensorflow as tf from tensorflow i
Java 泛型：方法 X 不适用于参数

事件处理程序 java public abstract class EventHandler
处理Web浏览器控件的点击事件

我想添加webBrowser控件的点击事件这是我的代码 using System using System Collections Generic using System ComponentModel using System Data
如何将 40 亿条记录从 MySQL 一次性加载到 SQL Server

我们需要对一个拥有超过 4 亿条记录的表从源 MySQL 5 5 进行初始数据复制到目标 SQL Server 2014 该表相当宽有 55 列但没有一个是 LOB 我正在寻找以最有效的方式复制这些数据的选项我们尝试通过 Attuni
在 Travis-CI 上运行 Google App Engine 并使用 PhantomJS 进行测试

有没有办法运行 Google App Engine开发应用服务器 https developers google com appengine docs python tools devserver实例于特拉维斯 CI http about
即使列表不能被 10 整除，也可以根据百分比将列表分成四部分。Python [重复]

这个问题在这里已经有答案了所以我正在处理一个长度未知的列表我需要把这个清单分成四个部分第一部分列表的前 20 第二部分列表的 20 到 40 第三部分列表的 40 到 80 第四部分列表的 80 到 100 现在的问题是如果
使用 knockout.js 突出显示表格行

我正在努力学习淘汰赛我想在单击行中的链接时突出显示表行我很难理解上下文this e以及淘汰赛如何相互作用JQuery 我不能像标准 jquery 函数一样构建淘汰函数吗 table thead tr th th th Name th
jquery中选择并触发单选按钮的点击事件

文档加载后我尝试触发第一个单选按钮的单击事件但单击事件是not triggered 此外尝试更改而不是单击但结果相同 document ready function checkbox div input radio click
装配中的搬迁

我有一个用汇编语言编写的裸机 ARM 的启动代码我试图了解它是如何工作的该二进制文件被写入一些外部闪存中并在启动时将其自身的一部分复制到 RAM 中尽管我读了这篇文章但我仍然没有完全理解这种情况下的搬迁概念维基百科条目 http
在 Docker 中对端点进行 REST 调用

我正在构建一个 Spring Boot 应用程序它有几个不同的 REST 端点可以在本地成功打包并作为jar文件启动在本地运行时我可以通过访问其端点http localhost 8080 endpoint params http
可编辑的动态目标值

我正在使用 jeditable 它的效果真的很棒我只是有点难以弄清楚了解如何动态更改目标 URL jeditable 绑定到我想要内联编辑的值表所以我有 td class edit id 是两个值的混搭我需要知道它才能在服务器端编辑
来自 pandas 数据帧的边缘列表，具有不同颜色的节点

我有以下数据框 Src Dst A A B B B A C C D D E F E E D F F F D E 我想生成一个网络Src是节点 Dst是边其中有一个新列 Weight 可以为节点指定不同的颜色绿色 A或 D 而其他都相同
如何在 Nginx 反向代理后面设置 MongoDB

我正在尝试将 Nginx 设置为访问 MongoDB 数据库的反向代理默认情况下 Mongo 监听 27017 端口我想要做的是通过 nginx 重定向主机名例如 mongodb mysite com 并将其传递到 mongodb 服
调用 BashOperator 时出错：Bash 命令失败

这是我的 dag 文件和 BashOperator 任务 my dag dag id my dag start date datetime year 2017 month 3 day 28 schedule interval 01 my b
Java EE 环境中的单元测试

我们正在将应用程序迁移到 Java EE 容器中并寻找用于对迁移的应用程序进行单元测试和集成测试的工具我们的要求包括临时测试能够按需手动运行测试由开发人员在开发代码时使用批量测试定期运行大量且不断增长的测试的能力容器
如何通过 g++ 创建共享库

关于创建和理解动态库中使用的技术的官方如何在哪里我正在使用 g 编译器我用谷歌搜索了这个问题但找不到任何关于此的官方信息例如您可以轻松创建共享库我有乘法示例程序例如multiplyNum cpp The fpic选项告诉g
在 Ubuntu 上查找 Node JS 实例

我写了一个脚本没有放process exit 0 在我寻找 ctrl c 之后 process on SIGNIT gracefulShutdown 我想知道该进程是否仍在我的机器上运行我使用了 ps aux grep node 它想出了
如何禁用 AspectJ 转储文件“ajcore.txt”

我有一个 Tomcat Web 应用程序我在其中使用 AspectJ 进行日志记录和指标一切看起来都很好但它不断创建几个文件例如ajcore 20150310 113255 780 txt在根文件夹中这个文件也不例外所以它们完全
在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况

我正在尝试在 Apple Silicon Apple M1 Max 上的 macOS Monterey 12 5 1 上编译支持 OpenMP 的 C 代码以获得相应的加速该代码计算量大易于理解多年来一直使用 OpenMP 例如在

在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况

在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况 的相关文章

随机推荐

热门标签

在 macOS Apple Silicon 上使用 Homebrew 的 Clang 编译的 C++ 代码在使用 OpenMP 的情况下运行速度明显慢于不使用 OpenMP 的情况的相关文章