#pragma 末尾的隐式屏障

2024-03-22

朋友们，我正在尝试学习 openMP 范例。我使用以下代码来理解#omp for pragma。

int main(void){
int tid;
int i;

omp_set_num_threads(5);
#pragma omp parallel \
    private(tid)
{
    tid=omp_get_thread_num();
    printf("tid=%d started ...\n", tid);
    fflush(stdout);

    #pragma omp for
    for(i=1; i<=20; i++){
        printf("t%d - i%d \n",
                omp_get_thread_num(), i);
        fflush(stdout);
    }

    printf("tid=%d work done ...\n", tid);
}

return 0;

}

在上面的代码中，#pragma omp parallel 末尾有一个隐式屏障，这意味着所有线程 0,1,2,3,4 必须到达那里才能进入下一条语句。

因此，为了检查这个障碍，我将这个“pragma for”包含在条件 if(tid!=0) 中，这意味着除线程 0 之外的所有线程（即 1、2、3、4）都应该在循环中完成其工作并等待 thread0无限期地。但是，令我惊讶的是，这并没有发生。每个线程都在进行迭代并成功完成。即 t1 完成迭代 5,6,7,8 ---- t2 完成 9,10,11,12 ---- t3 完成 13,14,15,16，t4 完成 17,18,19,20。请注意：迭代 1、2、3、4 从未完成。

为了更深入地挖掘，我在 tid!=1 中包含了相同的 #pragma for in tid!=1，而不是 tid!=0，这意味着 thread1 绕过了屏障，而不是 thread0。令我惊讶的是，程序现在挂起，所有线程都在等待 thread1。

有人可以告诉我这种意外行为的解释吗？最终挂起的代码：

int main(void){
int tid;
int i;

omp_set_num_threads(5);
#pragma omp parallel \
    private(tid)
{
    tid=omp_get_thread_num();
    printf("tid=%d started ...\n", tid);
    fflush(stdout);

    if(tid!=1){
        /* worksharing */
        #pragma omp for
        for(i=1; i<=20; i++){
            printf("t%d - i%d \n", 
                omp_get_thread_num(), i);
            fflush(stdout);
        }
    }else{
        printf("t1 reached here. \n");
    }

    printf("tid=%d work done ...\n", tid);
}

return 0;

}

我尝试设置共享或私有，但它并没有改变程序的行为。

这里的问题是标准未定义该行为。来自 OpenMP 3.1 第 2.5 节第 21 行规格 https://www.openmp.org/specifications/（但从一开始文本就或多或少保持不变）：

• 团队中的所有线程必须遇到每个工作共享区域或者根本没有。

Where omp for是一个工作共享结构。所以是的，我通常也希望你的代码挂起，但编译器有权假设你正在做的事情永远不会发生，所以最终结果 - 它有时挂起，但有时不会挂起，具体取决于细节你坚持哪些话题——也许并不令人惊讶。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

#pragma 末尾的隐式屏障的相关文章

在 mongoDB 中的同一 API 中并行查询同一文档

我有一个用打字稿编写的 API 我尝试使用 Promise allsettled 对同一文档运行并行查询但它的性能更差我猜它们是按顺序运行的有没有办法在 mongoDB 的同一连接中对同一文档执行并行查询这是代码 console t
mclapply 遇到取决于核心 id 的错误？

我有一组基因我需要并行计算一些系数系数在里面计算GeneTo GeneCoeffs filtered它将基因名称作为输入并返回 2 个数据框的列表长度为 100gene array我使用不同数量的核心运行此命令 5 6 和 7 Coe
是否可以使用多处理对一个 h5py 文件进行并行读取？

我正在尝试加快从 h5py 数据集文件中读取块将它们加载到 RAM 内存中的过程现在我尝试通过多处理库来做到这一点 pool mp Pool NUM PROCESSES gen pool imap loader indices 加载器
在不平衡树上拆分 OpenMP 线程

我正在尝试使用 OpenMP 并行进行树操作例如对树中所有叶子中的数字进行求和我遇到的问题是我工作的树不平衡子节点的数量不同分支的大小也不同我目前在这些树上使用递归函数我想要实现的是 1 在第一个可能的机会时分割线程假设它是一
OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

我观察到我正在编写的 openmp 代码出现了意外的对我来说行为代码结构如下 pragma omp parallel for for int i 0 i
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
如何在 Mathematica 8 中并行集成

有人知道如何使用所有核心来计算积分吗我需要使用并行化或并行表但如何使用 f r Sum 1 n 2 r 2 n 7 2 n n r 2 n 1 x r 2 n 1 n 0 r 2 Nw Transpose Table f j i 1 j
Pthreads 与 OpenMP

我正在使用 Linux 用 C 创建一个多线程应用程序我不确定是否应该使用 POSIX 线程 API 还是 OpenMP API 使用两者有何优缺点 Edit 有人可以澄清这两个 API 是否创建内核级 or 用户级线程 Pthreads
parApply 中的错误处理（在 R 中，使用并行包）

我正在尝试解决尝试使用时收到的以下消息parApply函数从parallel包裹 Error in unserialize node con error reading from connection 以下是我正在做的事情的模型 c0 lt
并行框架和避免错误共享

最近我回答了一个关于优化可能的并行方法来生成任意基数的每个排列的问题我发布了类似的答案并行化实施不佳代码块列表有人几乎立即指出了这一点这几乎肯定会给你带来错误的共享并且可能会慢很多倍归功于gjvdkamp https stac
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
线程与并行处理

Microsoft NET 4 0 为其框架引入了新的并行增强功能我想知道使用标准 System Threading 函数与新的并行增强功能创建应用程序之间有什么区别并行扩展和常规线程之间最重要的区别可能是控制流一个线程使用创建n
垂直和水平平行度

最近在并行领域工作我了解到有两个术语垂直并行和水平并行有人说openmp 共享内存并行是垂直并行而mpi 分布式内存并行是水平并行为什么这些术语这么称呼我不明白原因这么称呼它们只是术语吗这些术语似乎没有被广泛使用也
ElasticSearch 多滚动 Java API

我想从索引中获取所有数据由于项目数量对于内存来说太大我使用滚动很好的功能 client prepareSearch index setTypes myType setSearchType SearchType SCAN setScro
OpenMP 线程映射到物理内核

于是我在网上查了一段时间没有结果我是 OpenMP 的新手所以不确定这里的术语但是有没有办法从 OMPThread 由 omp get thread num 给出和线程将运行的物理核心找出特定机器的映射我还对 OMP 分配线程的精
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
如何在MPI中传递2D数组并使用C语言创建动态标签值？

我是 MPI 编程新手我有一个 8 x 10 数组需要用它来并行查找每行的总和在等级 0 进程 0 中它将使用 2 维数组生成 8 x 10 矩阵然后我会用tagnumber 作为数组的第一个索引值行号这样我可以使用唯一的缓
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
lambda 表达式是多线程的吗？

lambda 表达式是多线程的吗假设当你将数学公式编写为 lambda 方法时当你将其传递给另一个方法时它会是多线程的吗不是100 清楚你问的是什么您是否想问 lambda 是否自然地在不同的线程上运行如果是这样则它们只是 S

随机推荐

Flutter中JSON序列化和反序列化为对象

由于 Flutter 从其 SDK 中删除了 dart 镜像因此不再可能使用 dartson 等库进行 JSON 对象序列化反序列化不过我读到built value 是实现类似目的的另一种方法我找不到任何关于如何实现它的好例子因
所有小部件上的 Flutter 工具提示

有没有办法设置tooltip on a Text widget new Text Some content tooltip Displays a message to you 这是行不通的然而它确实有效因为这里提到 https docs
使用 GNU Make 将多行变量输出到文件

我很难编写在文件中输出多行变量的 makefile 规则这是我的代码 define VAR1 dev d 755 endef define VAR2 test d 777 test2 d 777 endef VARS VAR1 VARS
组件的 Angular 2 指令会覆盖 ng-content？

我有一个名为 ButtonComponent 的组件 import Component from angular2 core Component selector btn template div class btn div
将 subprocess.Popen (shell=True) 与 Windows 文件夹一起使用

我目前正在看Popen自动压缩和存储文档对于压缩部分我想到了以下Python行 subprocess Popen WinRAR exe a r c 03 Notes AllTexts txt shell True 我不断收到错误消息因
Linkedin API - 按关键字搜索帖子

我尝试通过 Linkedin API for PHP 将我的 Web 应用程序与 Linkedin 连接有什么方法可以使用这个通过关键字搜索人们的出版物吗如果可以的话我还没有找到方法我认为他们没有这种本机所以他们可以避免报废您可
使用 Angular、node.js 和身份提供商进行 SAML 身份验证

我想使用 SAML2 实现 SSO 但我不知道如何让它与分布式系统一起工作其中每个实例都在自己的服务器上独立运行该环境由三个实例组成实例 1 有角度的前端实例 2 node js 后端使用express js Passport 实
Rails：如何安装 keywords.js？

我想在我的应用程序上实现此功能但我不知道如何安装它您能否发布一步一步的信息以便我了解要放置哪些文件因为我尝试按照 github 页面上的说明进行操作但没有成功 http vincentgarreau com articles js
调用 Task.Result 时出现 ThreadAbortException

我有以下代码我尝试使用以下命令向远程端点发出请求HttpClient using var client new HttpClient client BaseAddress serviceBaseAddress Task
WCF - 网络成本

我在 IIS 上部署了一个 wcf 服务使用 basicHttpBinding 和 aspNetCompatibilityEnabled true 我还有一个测试客户端它同时调用多个服务功能为了检查客户端和服务器上服务调用的性能我计
Angular 如何使用 rxjs 管道过滤可观察的数据

我在服务文件中调用了一个名为 getWorkOrders 的方法该方法又调用服务器来获取记录这是我的服务我正在使用新的 HttpClient export class BackendServices private BASE URL
如何自定义 json 格式的 TestNG 报告结果

我正在使用 TestNG 和 selenium webdriver java 我想制作一个json格式的输出报告 testng可以制作一个json格式的报告吗请给我一个关于这个问题的例子您可以编写自己的报告程序以您需要的任何格式生成测
Python 编程。访问 Windows 右键菜单选项

我希望能够自动化工作中的一些任务其中之一是将 Power Point 文件合并并转换为 PDF 我是个新手我刚刚读完 Magus Heitland 的 Beginning Python 所以我不太确定我具体要问什么在 Windows
编码的 UI 测试生成器无法为记录的操作生成代码

我尝试在 Visual Studio 2015 Enterprise 中记录 Windows 10 上运行的 IE 中最简单的编码 UI 操作问题是最近我开始得到Value cannot be null Parameter name ke
在 ruby 进程之间处理大数据对象

如果使用 Marshal dump 写入文件我的 Ruby 哈希值将达到大约 10 MB gzip 压缩后大约为 500 KB 在 ruby 中迭代和更改这个哈希值非常快不到一毫秒即使复制它也非常快问题是我需要在 Ruby on R
C# 序列化对象并获取字节流

我有一个对象一个实例Serializable班级我想知道如何以字节流的形式获取这个对象我知道我可以使用BinaryFormatter http msdn microsoft com en us library c5sbs8z9 asp
提高 pandas groupby 的性能

我有一个用 Python 编写的机器学习应用程序其中包括数据处理步骤当我编写它时我最初在 Pandas DataFrames 上进行数据处理但是当这导致性能糟糕时我最终使用普通 Python 重写了它用 for 循环代替矢量化操
获取错误的毫秒延迟值

我试图获得 1 毫秒的延迟但延迟增加了 15 倍我也尝试过使用 WindowsSleep 1 函数也给了我相同的结果为什么我没有得到精确的毫秒延迟它的工作延迟为 1 秒 include
表行的 jQuery 条件选择器

我有一个表其中包含数据 td item td td order code td td price td 我正在使用 jQuery 处理该表它需要查找订单代码 each productList tbody tr function var
#pragma 末尾的隐式屏障

朋友们我正在尝试学习 openMP 范例我使用以下代码来理解 omp for pragma int main void int tid int i omp set num threads 5 pragma omp parallel pr

#pragma 末尾的隐式屏障

#pragma 末尾的隐式屏障 的相关文章

随机推荐

热门标签

#pragma 末尾的隐式屏障的相关文章