将工作分配给更多线程需要更多时间，为什么？

2024-04-10

我有一个小的 C 程序可以计算pi用一个蒙特卡洛 http://en.wikipedia.org/wiki/Monte_Carlo_method#Introduction-模拟基本上只是测试随机点 [x,y] 是否在圆内部或外部。

近似pi我必须使用大量样本n其复杂度成正比O(n)。所以试图计算大量的样本n，我实现了POSIX 线程 http://en.wikipedia.org/wiki/POSIX_Threadsapi 来并行化计算能力。

我的代码如下所示：

pthread_t worker[nthreads]; /* creates workers for each thread */
struct param aparam[nthreads]; /* struct param{ long* hits; long rounds; }; */
long nrounds = nsamples / nthreads; /* divide samples to subsets of equal rounds per thread */

for (int i = 0; i < nthreads; ++i) { /* loop to create threads */
    aparam[i].hits = 0;
    aparam[i].rounds = nrounds;
    pthread_create(&worker[i], NULL, calc_pi, &aparam[i]); /* calls calc_pi(void* vparam){}  */ 
}

long nhits = 0;
for (int j = 0; j < nthreads; ++j) { /* collects results */
    pthread_join(worker[j], NULL);
    nhits += (long)aparam[j].hits; /* counts hits inside the cicrle */
}

这就是每个线程正在做的事情：

void* calc_pi(void* vparam)
{ /* counts hits inside a circle */
    struct param *iparam;
    iparam = (struct param *) vparam;
    long hits = 0;
    float x, y, z;
    for (long i = 0; i < iparam->rounds; ++i) {
        x = (float)rand()/RAND_MAX;
        y = (float)rand()/RAND_MAX;
        z = x * x + y * y;
        if (z <= 1.f) /* circle radius of 1 */
            ++hits;
    }
    iparam->hits = (long*)hits;
    return NULL;
}

现在我有一个奇怪的观察。使用同一组样本n并且随着线程数量的增加i这个程序需要更多的时间而不是更少的时间.

以下是一些平均运行时间（可重现）：

-------------------------------------------------
| Threads[1] | Samples[1] | Rounds[1] | Time[s] |
-------------------------------------------------
|        32  |  268435456 |   8388608 |    118  |
|        16  |  268435456 |  16777216 |    106  |
|         8  |  268435456 |  33554432 |    125  |
|         4  |  268435456 |  67108864 |    152  |
|         2  |  268435456 | 134217728 |     36  |
|         1  |  268435456 | 268435456 |     15  |
-------------------------------------------------

例如，为什么两个线程执行相同的工作所花费的时间是单个线程的两倍以上？我的假设是两个线程划分工作应该减少至少 50% 的时间。

使用 GCC 4.9.1 和以下标志编译：

gcc -O2 -std=gnu11 -pthread pipa.c -lpthread -o pipa

我的硬件是双 Intel Xeon E5520（2 个处理器，每个 4 核）@ 2.26 GHz，禁用超线程，运行具有 2.6.18 内核的 Scientific Linux。

有任何想法吗？

线程执行的最昂贵的操作是调用rand(). The rand()是一个简单、简单且通常不可 MT 可扩展的函数（因为它保证相同的种子产生相同的序列random数字）。我认为里面的锁rand()正在序列化所有线程。(*)

确认是否是问题的一个简单技巧是在调试器下启动程序，然后多次：暂停它，捕获线程的堆栈跟踪，然后继续。无论堆栈跟踪中最常出现什么，很可能就是瓶颈。

(*) 使它变得更慢的原因是锁争用会导致额外的性能损失。此外，许多线程增加了进程调度和上下文切换的额外开销。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将工作分配给更多线程需要更多时间，为什么？的相关文章

如何保证对象只有一个线程

我有以下代码 class Service public void start creates thread which creates window and goes to message loop void stop sends WM C
更改 Qt OpenGL 窗口示例以使用 OpenGL 3.3

我正在尝试更改 Qt OpenGL 示例以使用更现代的 opengl 版本 330 似乎合适所以我做了在 main cpp 上设置版本和配置文件设置着色器版本更改着色器以使用统一它现在构建没有任何错误但我只看到一个空白窗口我错
平滑滚动.net 表单

您好我正在 net 中使用表单并且在运行时动态添加大量链接标签我将这些链接标签添加到面板并将该面板添加到 winform 当链接标签的数量增加时表单会显示一个自动滚动条垂直现在当我使用自动滚动向下滚动时表单在滚动时不会更新其
类特定的新删除运算符是否必须声明为静态

标准中是否要求类特定的 new new delete 和 delete 是静态的我可以让它们成为非静态成员运算符吗为什么需要它们是静态的它们被隐式声明为静态即使您没有键入 static
找不到 assimp-vc140-mt.dll ASSIMP

我已经从以下位置下载了 Assimp 项目http assimp sourceforge net main downloads html http assimp sourceforge net main downloads html Ass
ASP.Net Core 内容配置附件/内联

我正在从 WebAPI 控制器返回一个文件 Content Disposition 标头值自动设置为附件例如处置附件文件名 30956 pdf 文件名 UTF 8 30956 pdf 当它设置为附件时浏览器将要求保存文件而不是打
如何在 C# 控制台应用程序中将修饰符（ctrl、alt、shift）按键捕获为单个按键？

Console ReadKey 仅在按下正常键时捕获输入然后将修饰符如果有附加为键信息的一部分如何将单个修饰键注册为输入提供了一种解决方案这个链接 https blogs msdn microsoft com toub 200
如何在 QTabWidget Qt 中展开选项卡

我有一个QTabWidget像这个但我想展开选项卡以填充整个小部件宽度如下所示我怎样才能做到这一点我在用Qt 5 3 2 and Qt 创建者 3 2 1 Update 我尝试使用setExpanding功能 ui gt myT
Android 为什么这不会抛出错误的线程异常？

我的印象是视图只能从主线程操作但是为什么这不会崩溃 public class MainActivity extends Activity TextView tv Override protected void onCreate Bund
在 JSQMessagesViewController 中显示 LocationMediaItem

我刚刚尝试实施LocationMediaItem in my Xamarin iOS应用程序使用JSQMessagesViewController 一切都很顺利唯一的问题是UICollectionView应该显示位置的单元格永远停留在加载
从 WebBrowser 控件 C# 获取滚动值

我试图在 WebBrowser 控件中获取网页的 Y 滚动索引但无法访问内置滚动条的值有任何想法吗对于标准模式下的 IE 使用文档类型正如你所说 scrollTop是的财产元素而不是 HtmlDocument htmlDoc th
如何在服务器端按钮点击时关闭当前标签页？

我尝试在确认后关闭当前选项卡因此我将以下代码放在确认按钮的末尾但选项卡没有关闭 string jScript ClientScript RegisterClientScriptBlock this GetType keyClientBl
将二进制数据从 C# 上传到 PHP

我想将文件从 Windows C 应用程序上传到运行 PHP 的 Web 服务器我知道 WebClient UploadFile 方法但我希望能够分块上传文件以便我可以监控进度并能够暂停恢复因此我正在读取文件的一部分并使用 We
运行选定的代码生成器时出错：“未将对象引用设置到对象的实例。”错误？

我已经尝试了所有解决方案例如修复 VS 2013 但没有用当您通过右键单击控制器文件夹来创建控制器并添加控制器时然后右键单击新创建的控制器的操作并选择添加视图当我尝试创建视图时就会发生这种情况它不是一个新项目而是一个现有项目
将标量添加到特征矩阵（向量）

我刚刚开始使用 Eigen 库无法理解如何向所有矩阵成员添加标量值假设我有一个矩阵 Eigen Matrix3Xf mtx Eigen Matrix3Xf Ones 3 4 mtx mtx 1 main cxx 104 13 error
.NET Core 中的跨平台文件名处理

如何处理文件名System IO以跨平台方式运行类以使其在 Windows 和 Linux 上运行例如我编写的代码在 Windows 上完美运行但它不会在 Ubuntu Linux 上创建文件 var tempFilename Dat
了解使用 Windows 本机 WPF 客户端进行 ADFS 登录

我已经阅读了大量有关 ADFS 与 NodeJS Angular 或其他前端 Web 框架集成以及一般流程如何工作的文献并通过 Auth0 Angular 起始代码构建了概念证明但我不明白如何这可以与本机 WPF Windows 应用程
抛出 Java 异常时是否会生成堆栈跟踪？

这是假设我们不调用 printstacktrace 方法只是抛出和捕获我们正在考虑这样做是为了解决一些性能瓶颈不堆栈跟踪是在构造异常对象时生成的而不是在抛出异常对象时生成的 Throwable 构造函数调用 fillInStack
在简单注入器中解析具有自定义参数的类

我正在使用以下命令创建 WPF MVVM 应用程序简易注射器作为 DI 容器现在当我尝试从简单注入器解析视图时遇到一些问题因为我需要在构造时将参数传递到构造函数中而不是在将视图注册到容器时因此这不是适用的简单注入器将值传递到构造
xsi:type 属性搞乱了 C# XML 反序列化

我使用 XSD exe 根据 XML 架构 xsd 文件自动生成 C 对象我正在反序列化 OpenCover 输出但其中一个部分类未正确生成这是导致异常的行

随机推荐

将“targetSdkVersion”和“compileSdkVersion”更新为 30 时，类“android.graphics.FontFamily”出现“NoSuchMethodException”错误

当我将compileSdkVersion更新为30时它开始在我调用setContentView的行的LoginActivity中显示错误请参阅下面的日志 2020 06 22 13 43 21 205 14538 14538 com g
crypt() 的替代方法

我正在编写脚本并需要保存密码出于开发目的我一直在使用crypt 功能因为它简单且可用现在我已经完成了大部分工作我想用更好更一致的东西来替换它我担心的一些问题是并非所有系统都支持所有算法有时盐会预先添加到结果中似乎是一个安
如何建立自己的个人 Android 应用商店？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何使用自定义或开源软件创建适用于
python 2.7中没有名为antlr4的模块

我想将 ANTLR4 与 Python 2 7 一起使用为此我执行了以下操作我安装了这个包antlr4 4 6 1在 Arch Linux 上sudo pacman S antlr4 我写了一个MyGrammar g4文件并成功生成了词
使用具有 Chrome 扩展的 Web Worker

我在这里想要实现的目标是执行XHRHttpRequest 一个工人来加速我的延期我在用worker proxy js from here https github com Rob W chrome api tree master work
减慢鼠标速度

关于如何在 wpf 应用程序中减慢鼠标速度的任何想法谷歌没有拿出任何东西这是否应该处理来自 Win32 的本机事件 SPI GETMOUSESPEED 112 十进制SPI SETMOUSESPEED 113 十进制 source ht
如何从资源字符串中获取字符串到片段中

我尝试阅读 Stack Overflow 上的许多解决方案发现它们要么不适合我的场景要么我根本不理解他们的解释我对 Java 和 Android 非常陌生我在 res values strings xml 下设置了我希望在课堂上使用
如何更改“转到应用程序”按钮？

我可以看到当我想使用某些应用程序时他们有一些好的阅读文章而不是转到应用程序按钮我如何在我的应用程序上更改它查看Facebook 的操作和对象 https developers facebook com docs openg
在 emacs 23 中将 python 缩进设置为 2 个空格？

我在 Ubuntu 10 04 上使用 emacs 23 1 1 我希望在 Python 中使用 2 个空格缩进进行编程 emacs 看起来有一个 python 的默认模式 python el 我将以下内容放入我的 emacs 中 Only
headers_sent() 返回 false，但标头已发送

我的代码很简单它返回错误打印内容后不应该立即发送标题吗就像第一次之后 lt 特点这取决于您是否output buffering指令中php ini文件如果是Off output buffering Off then echo he
如何从 Matlab 运行 Clojure

如何从 matlab 运行 clojure 脚本我尝试了以下操作使用jdk 1 7运行matlab 然后调用java MATLAB JAVA usr lib jvm java 7 oracle jre matlab 在matlab中设
Facebook 图表 API 已发送好友请求

我需要使用图形 API 来找出我向多少人发送了好友请求并且该请求正在等待处理是否可以使用 API 获取此信息使用 FQL http developers facebook com docs reference fql friend re
Python 多处理，ValueError：对已关闭文件进行 I/O 操作

我在使用 Python 多处理包时遇到问题下面是一个简单的示例代码说明了我的问题 import multiprocessing as mp import time def test file f f write Testing n pr
React Native如何在单击onPress时调用多个函数

当我点击时我试图调用多个函数onPress using TouchableOpacity 例如 functionOne do something functionTwo do someting
将 mySQL 查询转换为 Zend Framework 查询的工具

是否有任何在线 Web 工具可以将 mySQL 查询转换为 Zend FrameWork 查询也就是说我输入 mySql 查询然后工具将其转换为 Zend FrameWork 等效查询您不需要为此使用工具在 Zend Framew
在多个 Flex 应用程序之间共享资源（图标/图像）的最佳方式是什么？

我正在为我不久前创建的 Flex 应用程序创建一个新的精简版版本我已经将许多类和组件移植到编译 SWC 文件的 Flex 库项目中因为两者都是 Cairngorm 应用程序所以我无法完全消除重复代码但我应该能够共享资产例如图标
我想了解 jQuery 插件语法

jQuery 站点列出了 jQuery 的基本插件语法如下所示 function fn myPlugin function there s no need to do this because this is already a jque
我如何在 Angular 8 的 AuthInterceptor 类中获取/使用 accessToken

我如何在 Auth Interceptor 类中获取使用访问令牌并将其添加到每个 API NetCore 调用中我已经实施了 getAccessToken return Auth currentSession then res gt r
Visual Studio 2015 中代码契约的最佳替代方案是什么？

我希望以尽可能最优雅的方式验证代码中的方法参数代码契约在 2015 年似乎不起作用有人使用任何替代方案吗他们正在努力 https github com Microsoft CodeContracts pull 36 https git
将工作分配给更多线程需要更多时间，为什么？

我有一个小的 C 程序可以计算pi用一个蒙特卡洛 http en wikipedia org wiki Monte Carlo method Introduction 模拟基本上只是测试随机点 x y 是否在圆内部或外部近似pi我必须使用

将工作分配给更多线程需要更多时间，为什么？

将工作分配给更多线程需要更多时间，为什么？ 的相关文章

随机推荐

热门标签

将工作分配给更多线程需要更多时间，为什么？的相关文章