即使 num_threads(1) 时，openmp 的性能提升也难以理解

2024-03-14

下面几行代码

int nrows = 4096;
int ncols = 4096;
size_t numel = nrows * ncols;
unsigned char *buff = (unsigned char *) malloc( numel );

unsigned char *pbuff = buff;
#pragma omp parallel for schedule(static), firstprivate(pbuff, nrows, ncols), num_threads(1)
for (int i=0; i<nrows; i++)
{
    for (int j=0; j<ncols; j++)
    {
        *pbuff += 1;
        pbuff++;
    }
}

编译时需要 11130 usecs 在我的 i5-3230M 上运行

g++ -o main main.cpp -std=c++0x -O3

也就是说，当 openmp 编译指示被忽略时。

另一方面，编译时只需要 1496 usecs

g++ -o main main.cpp -std=c++0x -O3 -fopenmp

速度快了 6 倍多，考虑到它是在 2 核机器上运行，这是相当令人惊讶的。事实上，我也测试过线程数(1)而且性能的提升还是相当重要的（快了3倍以上）。

任何人都可以帮助我理解这种行为吗？

编辑：根据建议，我提供完整的代码：

#include <stdlib.h>
#include <iostream>

#include <chrono>
#include <cassert>


int nrows = 4096;
int ncols = 4096;
size_t numel = nrows * ncols;
unsigned char * buff;


void func()
{
    unsigned char *pbuff = buff;
    #pragma omp parallel for schedule(static), firstprivate(pbuff, nrows, ncols), num_threads(1)
    for (int i=0; i<nrows; i++)
    {
        for (int j=0; j<ncols; j++)
        {
            *pbuff += 1;
            pbuff++;
        }
    }
}


int main()
{
    // alloc & initializacion
    buff = (unsigned char *) malloc( numel );
    assert(buff != NULL);
    for(int k=0; k<numel; k++)
        buff[k] = 0;

    //
    std::chrono::high_resolution_clock::time_point begin;
    std::chrono::high_resolution_clock::time_point end;
    begin = std::chrono::high_resolution_clock::now();      
    //
    for(int k=0; k<100; k++)
        func();
    //
    end = std::chrono::high_resolution_clock::now();
    auto usec = std::chrono::duration_cast<std::chrono::microseconds>(end-begin).count();
    std::cout << "func average running time: " << usec/100 << " usecs" << std::endl;

    return 0;
}

事实证明，答案是firstprivate(pbuff, nrows, ncols)有效地声明pbuff, nrows and ncols作为 for 循环范围内的局部变量。这反过来意味着编译器可以看到nrows and ncols作为常量 - 它不能对全局变量做出相同的假设！

因此，随着-fopenmp，你最终会得到巨大的加速，因为您没有在每次迭代中访问全局变量。（另外，有一个常数ncols值，编译器会进行一些循环展开）。

通过改变

int nrows = 4096;
int ncols = 4096;

const int nrows = 4096;
const int ncols = 4096;

or通过改变

for (int i=0; i<nrows; i++)
{
    for (int j=0; j<ncols; j++)
    {
        *pbuff += 1;
        pbuff++;
    }
}

int _nrows = nrows;
int _ncols = ncols;
for (int i=0; i<_nrows; i++)
{
    for (int j=0; j<_ncols; j++)
    {
        *pbuff += 1;
        pbuff++;
    }
}

异常加速消失 - 非 OpenMP 代码现在与 OpenMP 代码一样快。

这个故事的主旨？避免访问性能关键循环内的可变全局变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

openmp

即使 num_threads(1) 时，openmp 的性能提升也难以理解的相关文章

在 HKCR 中创建新密钥有效，但不起作用

我有以下代码它返回成功但使用两种不同的工具使用搜索字符串 3BDAAC43 E734 11D5 93AF 00105A990292 搜索注册表不会产生任何结果 RegistryKey RK Registry ClassesRoot C
C# 方法重载决策不选择具体的泛型覆盖

这个完整的 C 程序说明了这个问题 public abstract class Executor
在 CPP 类中将 C 函数声明为友元

我需要在 C 函数中使用类的私有变量我正在做这样的事情 class Helper private std string name public std getName return name friend extern C void in
按扩展名过滤搜索文件返回太多结果

我正在开发一个 C 控制台应用程序它必须管理 Windows 操作系统上的文件我需要获取具有特定扩展名的文件名列表我找到了很多解决方案最建议的是以下一种 HANDLE hFind WIN32 FIND DATA data hFin
从复选框列表中选择循环生成的复选框中的一个复选框

抱歉我的英语不好在我的 ASP NET 网站上我从 SQL 表导入软件列表看起来像这样但实际上要长得多 Microsoft Application Error Reporting br br Microsoft Applicatio
extern 声明和函数定义都在同一文件中

我只是浏览了一下gcc源文件在gcc c 我发现了类似的东西 extern int main int char int main int argc char argv 现在我的疑问是extern是告诉编译器特定的函数不在这个文件中但可以
强制初始化模板类的静态数据成员

关于模板类的静态数据成员未初始化存在一些问题不幸的是这些都没有能够帮助我解决我的具体问题的答案我有一个模板类它有一个静态数据成员必须为特定类型显式实例化即必须专门化如果不是这种情况使用不同的模板函数应该会导致链接器错误这是
RestSharp获取序列化输出

我正在寻找一种方法来访问 AddBody 调用的序列化结果我正在使用内置的 RestSharp 序列化器例子 class Foo public string FooField void SendRecord var f new Foo
语音识别编程问题入门

所以你们可能都看过钢铁侠其中托尼与一个名为贾维斯的人工智能系统进行交互演示剪辑here http www youtube com watch v Go8zsh1Ev6Y 抱歉这是广告我非常熟悉 C C 和 Visual Basi
如何使用 Regex.Replace 从字符串中删除数字？

我需要使用Regex Replace从字符串中删除所有数字和符号输入示例 123 abcd33输出示例 abcd 请尝试以下操作 var output Regex Replace input d string Empty The d标识符
Eigen 和 OpenMP：由于错误共享和线程开销而没有并行化

系统规格 Intel Xeon E7 v3 处理器 4 插槽 16 核插槽 2 线程核心 Eigen 系列和 C 的使用以下是代码片段的串行实现 Eigen VectorXd get Row const int j const int
获取没有显式特征的整数模板参数的有符号/无符号变体

我希望定义一个模板类其模板参数始终是整数类型该类将包含两个成员其中之一是类型T 另一个作为类型的无符号变体T 即如果T int then T Unsigned unsigned int 我的第一直觉是这样做 template
已发布的 .Net Core 应用程序警告安装 .Net Core，但它已安装

我制作了一个 WPF 和控制台应用程序供某人在我无法访问的私人服务器上使用我使用 Visual Studio 2019 的内置发布向导来创建依赖于框架的单文件应用程序当该人打开 WPF 应用程序时他们会看到标准警告他们单击是
从 C# 使用 Odbc 调用 Oracle 包函数

我在 Oracle 包中定义了一个函数 CREATE OR REPLACE PACKAGE BODY TESTUSER TESTPKG as FUNCTION testfunc n IN NUMBER RETURN NUMBER as be
memcpy/memmove 到联合成员，这是否设置“活动”成员？

重要说明一些评论者似乎认为我是从工会抄袭的仔细看memcpy 它从普通旧地址复制uint32 t 它不包含在联合中另外我正在复制通过memcpy 到工会的特定成员 u a16 or u x in a union 不直接到整个联盟本
将 Word 转换为 PDF - 禁用“保存”对话框

我有一个用 C 编写的 Word 到 PDF 转换器除了一件事之外它工作得很好有时在某些 Word 文件上后台会出现一条消息保存源文件中的更改 gt 是否取消但我没有对源文件进行任何更改我只想从 Word 文件创建 PDF
将函数参数类型提取为参数包

这是一个后续问题解包元组以调用匹配的函数指针 https stackoverflow com questions 7858817 unpacking a tuple to call a matching function pointer
将 Lambda 表达式树与 IEnumerable 结合使用

我一直在尝试了解有关使用 Lamba 表达式树的更多信息因此我创建了一个简单的示例这是代码如果作为 C 程序粘贴到 LINQPad 中它可以工作 void Main IEnumerable
EntityFramework 6.0.0.0 读取数据，但不插入

我创建了一个基于服务的数据库 folderName gt Add New Item gt Data gt Service based Database文件到 WPF 应用程序中然后我用过Database First方法并创建了Person
如何在 C 中将 char 连接到 char* ？

我怎样才能前置char c to char myChar 我有c值为 A and myChar值为 LL 我怎样才能前置c to myChar使 ALL 这应该有效 include

随机推荐

控制 make 的详细程度

我正在使用 makefile 来编译由许多组成的程序 c文件并且任何时间make被调用时它仅编译上次运行后修改的那些文件直到这里没有什么特别的为了避免屏幕混乱我在前面添加了在每个的开头 CC 打电话在它之前我打印一个定制的ec
Magento 2 设计主题选项卡丢失

你好我正在尝试 magento 2 并努力安装新主题因为设计主题未显示在商店 gt 配置 gt 设计下它已移至内容设计配置
在实际设备中安装.apk文件仅用于测试

我想在实际设备上测试我的应用程序那么我该如何进行呢它是附件吗sign in并使用zipalign为此目的或者它们在准备发布我的申请时有用吗有没有办法在不使用 eclipse 的情况下在实际设备上测试我的应用程序下载并安装安卓软件开
Spring-mvc-jpa 与 Maven 错误创建 bean

这是我的第一个问题我是 Spring MVC 和 Jpa 的新手我遇到了这个麻烦我自己无法弄清楚我尝试在 Google 上搜索但没有找到与此错误相关的内容我已将所有配置文件存储在 src main resources META
在 Android 布局中对齐左右边缘的文本视图

我正在开始使用Android 我无法进行简单的布局我想用一个LinearLayout到位置二TextViews在单行中一TextView一个在左侧另一个在右侧类似于 CSS 中的 float left float right 这可能
Typescript 属性装饰器可以为类设置元数据吗？

在打字稿中是否可以使用属性装饰器来设置类的元数据考虑下面的代码类装饰器的目标显然与属性装饰器的目标不同我可以从另一个派生出一个吗 import reflect metadata const MY CLASS DECORATO
将 int 位转换为 float 位

我正在创建一个缓冲区该缓冲区将在横幅中读写在其中我可以完全消除 TCP 分段带来的问题我遇到的唯一问题是浮点变量除了浮点之外其他一切都工作正常我找不到任何有关如何将 int32 位转换为浮点数的信息将 float 转换为 i
泛型语法：类与原始数据类型

为什么这个不起作用 ArrayList
嗯，但是在 javascript 中

我要成为大卫诺伦的粉丝了嗡图书馆 https github com swannodette om 我想在我们的团队中构建一个不太大的 Web 应用程序但我无法真正说服我的队友切换到 ClojureScript 有没有一种方法可以使用 o
jQuery("#id") 还是 jQuery(document.getElementById("id"))？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案显示性能差异here http jsperf com document getelementbyid vs jquery selector 我应
显示在 SQL Server 中存储为 blob 的图像

我有一个查询来获取信息图像 q4 SELECT TOP 3 b BadgeName b BadgeImage FROM BadgeImageTable AS b INNER JOIN employee badge AS e ON e bad
hibernate.validator.fail_fast 序列

我的问题是我一一收到验证错误但不是按顺序那么有哪位朋友可以告诉我如何根据用户需要按顺序显示错误吗所以我希望这是您想要的或者至少能将您推向正确的方向在我的控制器中我有以下方法 RequestMapping value test
在执行 WHERE 之前对 mysql 列进行 base64 解码

基本上这是一个很长的故事但我在数据库中有一个字段被编码为 base64 字符串 EG 这存储在数据库中 YToyOntzOjIwOiJUeXBlX29mX29yZ2FuaXNhdGlvbiI7czoyMDoiTWVtYmVyIG9mIF
如何将 Calabash 添加到 React Native iOS for Xamarin.UITest

如何将 Calabash 框架添加到 React Native 内置的 iOS 应用程序中我们正在将 iOS 应用程序的代码库从 Swift 迁移到 React Native 并且我有一套使用 Xamarin UITest 用 C 构建的
如何在 NDK 中加载视频文件（位于 asset 文件夹中）？

我正在通过 android ndk 执行 ffmpeg 我可以运行一个示例在这里 https github com ccggaass android ffmpeg sample 我想把视频放在android的assets文件夹中那么如何
类型错误：+= 不支持的操作数类型：“builtin_function_or_method”和“int”

我收到此错误 TypeError unsupported operand type s for builtin function or method and int 当尝试运行此代码时 total exams 0 for total exa
ios 8 Touch ID 新增指纹检测

我正在深入研究 Apple 的 Touch ID 更准确地说是本地身份验证器目前的文档还相当稀疏主要就是这样 LAContext myContext LAContext alloc init NSError authError nil
FragmentManager 已经在执行事务。提交后什么时候初始化寻呼机是安全的？

我有一个活动托管两个片段该活动开始时会在加载对象时显示加载程序然后加载的对象通过 newInstance 方法作为参数传递给两个片段并附加这些片段 final FragmentTransaction trans getSupport
错误-1054 order子句中未知的列e.id

我有一个这样的查询 SELECT e id FROM event e WHERE e startdatetime
即使 num_threads(1) 时，openmp 的性能提升也难以理解

下面几行代码 int nrows 4096 int ncols 4096 size t numel nrows ncols unsigned char buff unsigned char malloc numel unsigned cha

即使 num_threads(1) 时，openmp 的性能提升也难以理解

即使 num_threads(1) 时，openmp 的性能提升也难以理解 的相关文章

随机推荐

热门标签

即使 num_threads(1) 时，openmp 的性能提升也难以理解的相关文章