蒙特卡洛模拟运行速度明显慢于顺序模拟

2023-12-01

一般来说，我对并发和并行编程的概念很陌生。我正在尝试使用计算 Pi蒙特卡罗法这是我的源代码：

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>

int main(void)
{
    long points;
    long m = 0;
    double coordinates[2];
    double distance;
    printf("Enter the number of points: ");
    scanf("%ld", &points);

    srand((unsigned long) time(NULL));
    for(long i = 0; i < points; i++)
    {
        coordinates[0] = ((double) rand() / (RAND_MAX));
        coordinates[1] = ((double) rand() / (RAND_MAX));
        distance = sqrt(pow(coordinates[0], 2) + pow(coordinates[1], 2));
        if(distance <= 1)
            m++;
    }

    printf("Pi is roughly %lf\n", (double) 4*m / (double) points);
}

当我尝试使用 openmp api 使该程序并行时，它的运行速度几乎慢了 4 倍。

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <omp.h>
#include <sys/sysinfo.h>

int main(void)
{

    long total_points;              // Total number of random points which is given by the user
    volatile long total_m = 0;      // Total number of random points which are inside of the circle
    int threads = get_nprocs();     // This is needed so each thred knows how amny random point it should generate
    printf("Enter the number of points: ");
    scanf("%ld", &total_points);
    omp_set_num_threads(threads);   

    #pragma omp parallel
    {
       double coordinates[2];          // Contains the x and y of each random point
       long m = 0;                     // Number of points that are in the circle for any particular thread
       long points = total_points / threads;   // Number of random points that each thread should generate
       double distance;                // Distance of the random point from the center of the circle, if greater than 1 then the point is outside of the circle
       srand((unsigned long) time(NULL));

        for(long i = 0; i < points; i++)
        {
           coordinates[0] = ((double) rand() / (RAND_MAX));    // Random x
           coordinates[1] = ((double) rand() / (RAND_MAX));    // Random y
           distance = sqrt(pow(coordinates[0], 2) + pow(coordinates[1], 2));   // Calculate the distance
          if(distance <= 1)
              m++;
       }

       #pragma omp critical
       {
           total_m += m;
       }
    }

    printf("Pi is roughly %lf\n", (double) 4*total_m / (double) total_points);
}

我尝试查找原因，但不同的算法有不同的答案。

代码中有两个开销来源，即critical region，并调用rand()。代替rand() use rand_r:

我认为您正在寻找 rand_r()，它明确采用当前 RNG 状态作为参数。那么每个线程应该有它的自己的种子数据副本（是否希望每个线程以相同的种子或不同的种子取决于你在做什么，在这里你希望它们不同，否则您会一次又一次地得到同一行）。

可以使用 OpenMP 子句删除关键区域reduction。此外，您也不需要调用sqrt也不手动将点除以线程（i.e., long points = total_points / threads;），您可以使用#pragma omp for为了那个原因。所以你的代码将如下所示：

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <omp.h>
#include <sys/sysinfo.h>

int main(void)
{
    long total_points; 
    long total_m = 0;
    int threads = get_nprocs();   
    printf("Enter the number of points: ");
    scanf("%ld", &total_points);
    omp_set_num_threads(threads);   

    #pragma omp parallel 
    {                  
        unsigned int myseed = omp_get_thread_num();
        #pragma omp for reduction (+: total_m)
        for(long i = 0; i < total_points; i++){
            if(pow((double) rand_r(&myseed) / (RAND_MAX), 2) + pow((double) rand_r(&myseed) / (RAND_MAX), 2) <= 1)
               total_m++;
         }
     }
    printf("Pi is roughly %lf\n", (double) 4*total_m / (double) total_points);

}

在我的机器上快速测试输入 1000000000：

sequential : 16.282835 seconds 
2 threads  :  8.206498 seconds  (1.98x faster)
4 threads  :  4.107366 seconds  (3.96x faster)
8 threads  :  2.728513 seconds  (5.96x faster)

请记住，我的机器只有 4 个核心。尽管如此，为了进行更有意义的比较，应该尝试尽可能地优化顺序代码，然后将其与并行版本进行比较。当然，如果顺序版本尽可能优化，并行版本的加速可能会下降。例如，根据提供的代码的顺序版本测试当前的并行版本而不进行修改@用户3666197，产生以下结果：

sequential :  9.343118 seconds 
2 threads  :  8.206498 seconds  (1.13x faster)
4 threads  :  4.107366 seconds  (2.27x faster)
8 threads  :  2.728513 seconds  (3.42x faster)

然而，我们还可以改进并行版本以及等等，第四。例如，如果一个人采取@用户3666197版本，修复更新的竞争条件coordinates（在线程之间共享），并添加 OpenMP #pragma omp for，我们有以下代码：

int main(void)
{
    double start = omp_get_wtime();
    long points = 1000000000; //....................................... INPUT AVOIDED
    long m = 0;
    unsigned long HAUSNUMERO = 1;
    double DIV1byMAXbyMAX = 1. / RAND_MAX / RAND_MAX;

    int threads = get_nprocs();
    omp_set_num_threads(threads);
    #pragma omp parallel reduction (+: m )
    {
        unsigned int aThreadSpecificSEED_x = HAUSNUMERO + 1 + omp_get_thread_num();
        unsigned int aThreadSpecificSEED_y = HAUSNUMERO - 1 + omp_get_thread_num();
        #pragma omp for nowait
        for(long i = 0; i < points; i++)
        {
            double x = rand_r( &aThreadSpecificSEED_x );
            double y = rand_r( &aThreadSpecificSEED_y );
            m += (1  >= ( x * x + y * y ) * DIV1byMAXbyMAX);
        }
    }
    double end = omp_get_wtime();
    printf("%f\n",end-start);
    printf("Pi is roughly %lf\n", (double) 4*m / (double) points);
}

产生以下结果：

sequential :  9.160571 seconds 
2 threads  :  4.769141 seconds  (1.92 x faster)
4 threads  :  2.456783 seconds  (3.72 x faster)
8 threads  :  2.203758 seconds  (4.15 x faster)

我正在使用标志进行编译-O3 -std=c99 -fopenmp，并使用 gcc 版本4.9.3 (MacPorts gcc49 4.9.3_0).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

蒙特卡洛模拟运行速度明显慢于顺序模拟的相关文章

如何在C编程中获取当前时间（以毫秒为单位）[重复]

这个问题在这里已经有答案了可能的重复如何使用 ANSI C 测量以毫秒为单位的时间 https stackoverflow com questions 361363 how to measure time in milliseconds
静态成员函数与C语言绑定？

以下 C 代码可使用 Visual C 和 g 进行编译 struct S static void foo extern C void S foo struct T static void foo extern C void T foo a
无法在更新面板中找到上传的文件

aspx
NUnit 测试运行顺序

默认情况下 nunit 测试按字母顺序运行有谁知道有什么方法可以设置执行顺序吗是否存在这样的属性我只是想指出虽然大多数受访者认为这些是单元测试但问题并没有具体说明它们是 nUnit 是一个很棒的工具可用于各种测试情况我可以看到
错误 C2064：术语不计算为采用 1 个参数的函数

class Student bool Graduate return m bGraduate class School vector
设置外部应用程序焦点

在 VB NET 中您可以使用以下命令将焦点设置到外部应用程序 AppActivate Windows Name or AppActivate processID As Integer 现在如果您这样做则效果很好 Dim intNot
最小对的总和

Given 2N点 in a 2D plane 你必须将它们分组为N pairs使得所有对的点之间的距离的总和是最小可能值所需的输出只是总和换句话说如果a1 a2 an分别是第一对第二对和第 n 对点之间的距离则 a1 a2 a
在标准库中静态链接时如何支持动态插件？

假设一个应用程序myapp exe是使用构建的g 它使用标志 static libstdc 这样就可以安装在没有环境的情况下libstdc so myapp exe还添加了对某些功能的插件支持plugf可以通过动态加载dlopen来自共享库
锁定文件的一个块

我有一个大小为 192k 的文件我想锁定文件的中间部分例如我想用 c 锁定文件的 64k 128k 知道如何锁定文件的那部分吗你需要使用锁定文件Ex http msdn microsoft com en us library win
带有 Unicode 字符的主机名在 Windows 8 中有效

Uri CheckHostName 回报UriHostNameType Unknown到处都是但在 Windows 8 上它又回来了UriHostNameType Dns 为什么突然间带有 Unicode 西里尔字符的主机名在 Wind
一些涉及类析构函数和删除运算符的内存管理问题？

在阅读了一些教程后我仍然不清楚 C 中内存管理的一些观点 1 当使用 new 运算符声明的类超出范围时是否会调用其析构函数并释放内存是否有必要调用删除运算符来释放类的内存并调用其析构函数 class Test void newTest
在发送传出请求之前将新的 SoapClient 绑定到特定 IP 地址

假设应用程序所在的计算机具有 SoapClient 具体来说我正在使用 Microsoft Web Service3 Messaging SoapClient 它通过发送传出请求并获取 SoapEnvelope 作为回报完善的流程与远
检测用户是否正在滚动 dataGridView 滚动条

我正在更新一个dataGridView与一个新的数据表使用 dataGridView1 DataSource table 但是我不想在用户滚动 dataGridView 时执行此操作如何检查滚动条是否正在滚动或已完成滚动即拖动而不是单
序列化时如何跳过 xml 声明？

我正在尝试输出一个没有 xml 头的 xml 文件例如我试过 Type t obj GetType XmlSerializer xs new XmlSerializer t XmlWriter xw XmlWriter Create c
C# 记录类型：记录子类之间的相等比较

给定父记录类型 public record Foo string Value 和两个记录子类Bar and Bee我想知道是否可以实施Equals在基类中因此 Foo Bar 或 Bee 的实例都被考虑equal基于Value 两者都与E
RabbitMQ + Windows + LDAP 无需发送密码

我正在尝试在 Windows 7 上使用 RabbitMQ 3 6 2 进行 LDAP 身份验证授权我已经在应用程序发送用户名密码的情况下进行了基本身份验证但密码位于我需要弄清楚如何进行的代码中避免有没有人在不提供密码的情况下成功
Azure Function App Azure 服务总线触发器触发两次

我使用带有服务总线触发器的 Azure Function Apps 来读取服务总线并对服务总线消息的内容执行操作服务总线接收 JSON 序列化对象然后将 JSON 消息反序列化回 Function App 中的对象然而由于某种原因
MonoGame 中的 ContentLoadException

我一直在尝试使用 Xamarin Studio 在 MonoGame 中加载纹理我的代码设置如下 region Using Statements using System using Microsoft Xna Framework usi
字符串常量之前应有非限定 ID

我目前正在编写一个 C 应用程序它与 math h 结合实现了振荡器我拥有的代码应该可以很好地用于该应用程序尝试编译目标文件但是我遇到编译器错误很可能与语法等有关我认为这与命名空间有关错误终端输出 User Name Ma
为什么 32 位 .NET 进程的引用类型的最小大小为 12 字节

我正在读专业 Net 性能 https rads stackoverflow com amzn click com 1430244585本书有关参考类型内部结构的部分它提到对于 32 位 net 进程引用类型具有 4 字节的对象头和

随机推荐

NSAttributedString EXC_BAD_ACCESS KERN_INVALID_ADDRESS 崩溃

我在用NSAttributedString在我的代码中我有时会遇到以下崩溃崩溃 com apple main thread EXC BAD ACCESS KERN INVALID ADDRESS 0x00000000114f2841 生
没有名为tensor flow的模块——iPython笔记本

我知道这可能是一个老问题但我仍然无法从现成的 Q A 中找到解决方案问题是这样的我正在关注Udacity 机器学习及其作业以及需要使用iPython Notebook 和张量流细节 https github com Omarit
mongoDB 2.2.1 - 数据库无效

当我跑步时db users validate 在 mongo 终端中我得到回复 errmsg ns not found ok 0 valid false 这是正常的吗我该如何解决它因为mongod repair and db repa
使用 jquery 删除元素之间的不间断空格 ( )

如何使用 jquery 删除 html 元素之间出现的不间断空格 nbsp 例如以下代码是由 cms 生成的 div span content span nbsp span content span div 我可以使用选择器来定位元素下
Javascript Map.set 位置

有什么方法可以在现有键之前或之后将新元素插入到 Map 中吗至于数组将是 arr splice
如何在场景中的步骤之间添加静态等待？

我使用了以下选项 def sleep function seconds for i 0 i lt seconds i java lang Thread sleep 1 1000 karate log i call sleep 10 但我想了
无法将按钮文本设置为“<<<”

我试图将 xml 中的按钮文本设置为
两个 Node.js 服务器之间的文件/数据传输

我正在尝试建立一个小型系统其中一台服务器又名传感器在看到另一台服务器可用时将数据文件传输到另一台服务器又名服务器都运行 Node js 应用程序理想情况下服务器应该侦听来自传感器的连接建立连接后传感器会将所有可用的数据文件
IOS swiftUI 无法从本地文件读取 json [关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我是 IOS 开发新手我正在使用 swiftUI 并遵循本教程https developer apple com tutorials swiftui building lists a
开发服务器 Vue.js 中的 vue 路由器（历史模式）出现问题 - “Cannot GET /config”

我只想用以下命令设置我的 vue 项目完整的 webpack 模板使用vue router并将不同的url链接到不同的组件 The src 路由器 index html如下 import Vue from vue import Route
android url 访问 KML 路线

我正在尝试使用下面的网址在谷歌地图上绘制两点之间的路径之前是正常的现在显示异常 I System out 461 Unexpected end of document doc 为什么返回 null 我的代码如下 http pastebi
Python datetime 和 pandas 对同一日期给出不同的时间戳

from datetime import datetime import pandas as pd date 2020 02 07T16 05 16 000000000 Convert using datetime t1 datetime
墨卡托投影稍微偏离

我正在构建一个需要大量谷歌地图图像的项目我将这些函数定义为在另一个自动收集图像的函数中使用纬度变化很好但我注意到经度略有偏差这是近似墨卡托投影法的产物吗我的印象是除了接近极点之外我使用的转换相当准确 import math i
当鼠标悬停在 QComboBox 上时通过 QSS 设置 QComboBox 子控件向下箭头的样式

我知道如何设计风格QComboBox当鼠标悬停时执行以下操作 pComboBox gt setStyleSheet pComboBox gt styleSheet QString QComboBox hover css style here
在 REST Api 中建模对象继承

问题我有一个应用程序有一个User对象和一个Student目的 Some用户是学生所有学生都是用户在数据库基于 django ORM 中这表示为Student具有外键的表User table 我正在尝试创建一个 REST API
如何查看libc版本？

这个问题与为什么 pclose 提前返回我想知道是什么版本libc用于交叉编译的可执行文件如下所述存在一些限制使答案在检查特定 gcc 编译器的 glibc 版本不适用一种建议的检查方法libc版本是使用gnu get libc
如何在 VB.NET 中进行按位与运算？

我想在 VB NET 中执行按位与运算采用一个 Short 16 位变量并将其与 0000000011111111 进行与运算从而仅保留最低有效字节 8 个最低有效位我该怎么做 0000000011111111 表示为 VB 十
如何使用 JavaScript 交换屏幕上的元素

我有多个 li 元素 my lis 在页面上我想用 JavaScript 来调整它们我正在使用 JQuery 怎么做实际上并不太难总体思路是获取所有dom节点洗牌清空 ul 并插入打乱后的节点 var items my lis
jQuery GetJSON 安全问题。复制 URL 并粘贴到浏览器中

我在 ASP 页面中使用 jQuery GetJSON 调用它类似于以下代码 ajax url myUrl myPage aspx callback BookARoom dataType json 这实际上最终会在我的系统中预订房间但问
蒙特卡洛模拟运行速度明显慢于顺序模拟

一般来说我对并发和并行编程的概念很陌生我正在尝试使用计算 Pi蒙特卡罗法这是我的源代码 include

蒙特卡洛模拟运行速度明显慢于顺序模拟

蒙特卡洛模拟运行速度明显慢于顺序模拟 的相关文章

随机推荐

热门标签

蒙特卡洛模拟运行速度明显慢于顺序模拟的相关文章