将程序拆分为 4 个线程比单个线程慢

2023-11-23

过去一周我一直在编写一个光线追踪器，并且已经达到了足够多线程的程度。我尝试过使用 OpenMP 来并行化它，但是使用更多线程运行它实际上比使用一个线程运行它要慢。

阅读其他类似的问题，尤其是有关 OpenMP 的问题，一个建议是 gcc 可以更好地优化串行代码。但是运行下面的编译代码export OMP_NUM_THREADS=1速度是原来的两倍export OMP_NUM_THREADS=4。 IE。两次运行时编译的代码相同。

运行程序time:

> export OMP_NUM_THREADS=1; time ./raytracer
real    0m34.344s
user    0m34.310s
sys     0m0.008s


> export OMP_NUM_THREADS=4; time ./raytracer
real    0m53.189s
user    0m20.677s
sys     0m0.096s

用户时间比实际时间少很多，这在使用多核时是不常见的 -user应该大于real因为多个核心同时运行。

我使用 OpenMP 并行化的代码

void Raytracer::render( Camera& cam ) {

    // let the camera know to use this raytracer for probing the scene
    cam.setSamplingFunc(getSamplingFunction());

    int i, j;

    #pragma omp parallel private(i, j)
    {

        // Construct a ray for each pixel.
        #pragma omp for schedule(dynamic, 4)
        for (i = 0; i < cam.height(); ++i) {
            for (j = 0; j < cam.width(); ++j) {
                cam.computePixel(i, j);
            }
        }
    }
}

读书时这个问题我以为我已经找到答案了。它讨论了 gclib rand() 的实现，同步调用自身以保留线程之间随机数生成的状态。我经常使用 rand() 进行蒙特卡罗采样，所以我认为这就是问题所在。我摆脱了对 rand 的调用，用单个值替换它们，但使用多个线程仍然较慢。编辑：哎呀事实证明我没有正确测试这个，这是随机值！

现在这些都已经解决了，我将概述每次调用时所做的事情computePixel，所以希望能找到解决方案。

在我的光线追踪器中，我基本上有一个场景树，其中包含所有对象。这棵树在这段时间内被遍历了很多次computePixel然而，当测试对象的交集时，不会对此树或任何对象进行写入。computePixel本质上是多次读取场景，调用对象上的方法（所有这些都是 const 方法），并在最后将单个值写入其自己的像素数组。这是我所知道的唯一部分，其中多个线程将尝试写入同一成员变量。任何地方都没有同步，因为没有两个线程可以写入像素阵列中的同一单元。

谁能建议可能发生某种争论的地方？值得尝试的事情？

先感谢您。

EDIT:抱歉，我很愚蠢，没有提供有关我的系统的更多信息。

编译器 gcc 4.6（带 -O2 优化）
乌班图 Linux 11.10
OpenMP 3
Intel i3-2310M 四核 2.1Ghz（目前在我的笔记本电脑上）

计算像素的代码：

class Camera {

    // constructors destructors
    private:
        // this is the array that is being written to, but not read from.
        Colour* _sensor; // allocated using new at construction.
}

void Camera::computePixel(int i, int j) const {

    Colour col;

    // simple code to construct appropriate ray for the pixel
    Ray3D ray(/* params */);
    col += _sceneSamplingFunc(ray); // calls a const method that traverses scene. 

    _sensor[i*_scrWidth+j] += col;
}

从建议来看，可能是树遍历导致速度减慢。其他一些方面：一旦调用采样函数，就会涉及相当多的递归（光线的递归弹跳）——这会导致这些问题吗？

感谢大家的建议，但经过进一步分析并消除其他影响因素后，随机数生成did原来是罪魁祸首。

正如上面问题中所述，rand() 需要跟踪其从一次调用到下一次调用的状态。如果多个线程试图修改此状态，则会导致竞争条件，因此 glibc 中的默认实现是锁定每个通话，使函数成为线程安全的。这对于性能来说是很糟糕的。

不幸的是，我在 stackoverflow 上看到的这个问题的解决方案都是本地的，即处理问题在调用 rand() 的范围内。相反，我提出了一种“快速而肮脏”的解决方案，任何人都可以在他们的程序中使用它来为每个线程实现独立的随机数生成，而不需要同步。

我已经测试了代码，它有效 - 没有锁定，并且调用 threadrand 没有明显的减慢。欢迎指出任何明显的错误。

线程兰德.h

#ifndef _THREAD_RAND_H_
#define _THREAD_RAND_H_

// max number of thread states to store
const int maxThreadNum = 100;

void init_threadrand();

// requires openmp, for thread number
int threadrand();

#endif // _THREAD_RAND_H_

threadrand.cpp

#include "threadrand.h"
#include <cstdlib>
#include <boost/scoped_ptr.hpp>
#include <omp.h>

// can be replaced with array of ordinary pointers, but need to
// explicitly delete previous pointer allocations, and do null checks.
//
// Importantly, the double indirection tries to avoid putting all the
// thread states on the same cache line, which would cause cache invalidations
// to occur on other cores every time rand_r would modify the state.
// (i.e. false sharing)
// A better implementation would be to store each state in a structure
// that is the size of a cache line
static boost::scoped_ptr<unsigned int> randThreadStates[maxThreadNum];

// reinitialize the array of thread state pointers, with random
// seed values.
void init_threadrand() {
    for (int i = 0; i < maxThreadNum; ++i) {
        randThreadStates[i].reset(new unsigned int(std::rand()));
    }
}

// requires openmp, for thread number, to index into array of states.
int threadrand() {
    int i = omp_get_thread_num();
    return rand_r(randThreadStates[i].get());
}

现在您可以初始化线程的随机状态main using init_threadrand()，然后使用得到一个随机数threadrand()在 OpenMP 中使用多个线程时。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将程序拆分为 4 个线程比单个线程慢的相关文章

如何将包含 5000 条记录的 Excel 文件插入到 documentDB 中？

我有一个 Excel 文件最初约有 200 行我能够将 Excel 文件转换为数据表并且所有内容都正确插入到 documentdb 中 Excel 文件现在有 5000 行在插入 30 40 条记录后不会插入其余所有行不会插入到
如何将十六进制字符串转换为十六进制数字[重复]

这个问题在这里已经有答案了可能的重复如何将十六进制字符串转换为有符号整数 https stackoverflow com questions 3705429 how do i convert hex string into signed
是否允许将类模板类型参数键入相同的名称？

这似乎可以在 MSVC 中按预期编译甚至工作但它是合法的 C 代码吗它是否能保证执行此处所期望的操作即将模板类型导出到结构体的同名用户 template
使用 OpenGL 着色器进行数学计算 (C++)

我有一个矩阵例如 100x100 尺寸我需要对每个元素进行计算 matrix i j tt 8 5例如我有一个巨大的矩阵我想使用 OpenGL 着色器来实现该算法我想使用着色器例如 uniform float val unifo
找到的程序集的清单定义与程序集引用不匹配

我试图在 C Windows 窗体应用程序 Visual Studio 2005 中运行一些单元测试但出现以下错误 System IO FileLoadException 无法加载文件或程序集实用程序版本 1 2 0 200 文化中
无法从 Web api POST 读取正文数据

我正在尝试从新的 Asp Net Web Api 中的请求中提取一些数据我有一个像这样的处理程序设置 public class MyTestHandler DelegatingHandler protected override Syst
矩阵向量变换

我正在编写一个代码来制作软件蒙皮器骨骼皮肤动画并且我正处于优化阶段蒙皮器工作得很好并且在 Core 上 1 09 毫秒内对 4900 个三角形网格与 22 个骨骼进行蒙皮Duo 2 Ghz 笔记本我需要知道的是 1 有人可以
存储过程上的 OdbcCommand - 输出参数上出现“未提供参数”错误

我正在尝试执行存储过程通过 ODBC 驱动程序针对 SQL Server 2005 但收到以下错误过程或函数 GetNodeID 需要参数 ID 但未提供该参数 ID 是我的过程的 OUTPUT 参数在存储过程中指定了一个输入 mac
编译器错误“错误：在文件范围内可变地修改了‘字符串’”

考虑 include
您可以在一个 Windows Azure 实例上部署多个 Web 应用程序吗？

是否可以在一个 windows azure 小型计算实例中运行一堆 Web 应用程序我正在考虑使用 Azure 作为放置一堆处于开发和非生产状态的项目 Web 应用程序的地方有些实际上已经被封存了但我想在某个地方有一个活跃的实例我
以编程方式更新 ClickOnce 应用程序的部署清单会导致缺少 4.0 中所需的 <兼容框架> 元素

我正在致力于自动化 NET 4 0 ClickOnce WPF 应用程序的安装程序该应用程序需要在应用程序配置文件我经历了寻找必须遵循的具体步骤的棘手过程Mage exe http msdn microsoft com en us li
使用 AdHocWorkspace 会导致“不支持语言‘C#’”。

在VS2015中使用Microsoft CodeAnalysis CSharp Workspaces的RC2 这段代码会抛出异常 var tree CSharpSyntaxTree ParseText var workspace new A
允许使用什么类型的内容作为 C 预处理器宏的参数？

老实说我很了解 C 编程语言的语法但对 C 预处理器的语法几乎一无所知尽管我有时在编程实践中使用它所以问题来了假设我们有一个简单的宏它扩展为空 define macro param 可以放入宏调用构造中的语法有哪些限制调用宏时
使用 foreach 循环和 XmlNodeList C# 将新节点附加到节点列表

目前我处理的是这样的XML类型 XML FILE http 20drive google com open id 0By5BxgNi9eGcRldxcEZNU0FDTzQ 参考XML文件我想检查一个节点如果找不到该节点我必须将该节点附
“int i=1,2,3”和“int i=(1,2,3)”之间的区别 - 使用逗号运算符的变量声明[重复]

这个问题在这里已经有答案了 int i 1 2 3 int i 1 2 3 int i i 1 2 3 这些说法有什么区别我无法找出任何具体原因 Statement 1 Result Compile error 运算符的优先级高于运算符
TPL 数据流块下游如何获取源生成的数据？

我正在使用 TPL Dataflow 处理图像我收到处理请求从流中读取图像应用多次转换然后将生成的图像写入另一个流 Request gt Stream gt Image gt Image gt Stream 为此我使用块 Buff
纯虚函数可能没有内联定义。为什么？

纯虚函数是那些虚函数并且具有纯说明符 0 第 10 4 条第 2 款C 03 的内容告诉我们什么是抽象类顺便说一句如下注意函数声明不能同时提供纯说明符和定义尾注示例 struct C virtual void f 0 ill
从有符号字符转换为无符号字符然后再转换回来？

我正在使用 JNI 并有一个 jbyte 类型的数组其中 jbyte 表示为有符号字符即范围从 128 到 127 jbyte 表示图像像素对于图像处理我们通常希望像素分量的范围为0到255 因此我想将jbyte值转换为0到255
g++ C++0x 枚举类编译器警告

我一直在将可怕的 C 类型安全伪枚举重构为新的 C 0x 类型安全枚举因为它们是way更具可读性不管怎样我在导出的类中使用它们所以我明确地将它们标记为导出 enum class attribute visibility defaul
启动画面后主窗口出现在其他窗口后面

我有一个带有启动屏幕的 Windows 窗体应用程序当我运行该应用程序时启动屏幕显示正常消失并加载应用程序的主窗体但是当我加载主窗体时它出现在包含该应用程序的 Windows 资源管理器目录下这是运行启动画面然后运行主窗体的代

随机推荐

如何在 MS SQL Server 2008 上设置日期格式

我想根据模式格式化日期例如 22 01 2015 或 2016 12 15 在 NET Framework 中我们有 DateTime gt ToString 方法它接受格式作为参数甚至接受 string Format 它的作用相同
在 Web 应用程序中处理时区

在我们的网络应用程序中我们需要显示并输入不同时区不同国家的日期时间信息目前我们正在为每个国家地区维护单独的 Web 服务器和单独的数据库 oracle 11g 我们计划将所有内容合并到一个具有单一数据库 Oracle 11g 的门
如何在此 SSRS 表达式中“指定数据集聚合”？

我的 SSRS 报告中需要一个行值该值是根据报告中已使用的几个字段计算得出的我希望它显示在名为 textboxPercentageValue 的文本框中用半简单的英语来说表达式公式是 If the value of the Wee
Android 自定义 ArrayAdapter 在过滤后不刷新

所以我有一个习惯ArrayAdapter所以我可以使用标题副标题视图ListView 我有一个EditText它接受一个字符串并过滤适配器过滤器的工作原理是过滤正确的对象我可以通过单击它来判断它以正确的附加开始意图但是即使过
Javascript：关于如何定义新数据类型有哪些指导原则？

假设您正在创建数据类型并公开其行为您能否举例说明何时使用一个功能和新功能 define new data type var CustomDataType function this a whatever this doX functio
设置内联元素的宽度

您可以设置内联元素的宽度例如 span em and strong 但在放置它们之前您不会注意到任何效果 a 我以为内联元素的宽度不能设置 b 假设可以设置宽度在我们定位内联元素之前我们不会注意到任何效果因此我们指定的宽度位置如何
“撤消”功能的最佳设计模式[重复]

这个问题在这里已经有答案了可能的重复撤消引擎的设计模式一般来说您如何处理应用程序中支持撤消功能的问题我曾经开发过网络应用程序和桌面应用程序但我从来没有真正对我制作的任何撤消系统感到满意我相信应该是Command设计模式
Angular2.js 与 Angular2.dev.js

我想知道之间的差异angular2 js and angular2 dev js 当然还有更多文件例如 router dev js and router js还有我的问题是为什么有两个版本它们之间有什么区别 angular2 dev
Ruby on Rails 使用外键删除固定装置

我在使用使用外键的装置设置测试时遇到问题如果有人能帮助我理解这一点我将不胜感激比方说 user type模型有一个参考 role模型当测试执行时测试数据库中的所有数据都被删除并再次重新插入 Rails 首先从角色模型中删除数据而
在 JS 中访问 Asp.Net Session 变量

我无法访问 js 文件中的变量我在页面顶部的代码是然后我想访问我的 js 文件中的权限我现在只想提醒您这一点我能做到吗 thanks 您必须将会话值存储在隐藏字段中之后您可以在 JS 中访问隐藏的 FieldValue
php中的应用范围

我需要在所有请求之间共享相同的数组对象无论来自同一浏览器用户的请求如何 php 中是否有任何应用程序范围可以存储该数组对象我正在使用 php 5 x 如果您想在每个用户的所有请求中共享它使用会话可能是要走的路如果您想在所有用户的所
从 dict 创建 ORM 对象并添加到会话中

假设我有一个User具有属性的模型id name email和一段关系languages 是否有可能创建一个User来自现有数据的实例其行为就像我查询它一样dbsession query User get 42 我的意思特别是我希望能够访
在 Qt MainWindow 上设置 WA_DeleteOnClose 属性时，删除 ui 指针时程序崩溃

我已经设置了WA DeleteOnClose主窗口中的小部件属性 setAttribute Qt WA DeleteOnClose 但是每当我关闭该主窗口时我都会在其析构函数中遇到段错误该析构函数只包含delete ui 简而言之在
Pandas：将日期范围解压缩为单个日期

Dataset 我有一个 1GB 的股票数据集其中包含日期范围内的值日期范围没有重叠数据集按股票代码开始日期排序 gt gt gt df head start date end date val ticker AAPL 2014
SonarQube 重构此方法以降低其认知复杂性

我有以下实用方法并且我正在使用多个 if 语句并遇到认知复杂性问题我浏览了一些链接但我无法理解应该如何更改代码而不影响此方法的用户 public static boolean isWrapperValid WrapperClass w
如何在gtk3-python中执行后台任务？

我有这个主线 Gui py from gi repository import Gtk Gdk import Process import gobject class gui def init self self window Gtk Wi
JavaScript 日期差异

我在使用 DateDiff 函数时遇到问题我试图找出两个日期时间之间的差异我读过这篇文章在Javascript中计算日期差异的最佳方法是什么我还看了这个教程 http www javascriptkit com javatutor
如何查找当前页面使用了哪些CSS文件[重复]

这个问题在这里已经有答案了我的页面上有很多 CSS 文件但其中很多文件并没有被样式使用是否可以确定哪些文件被页面使用哪些文件不被页面使用 Use http getfirebug com 来调试页面当查看 css 时它将引用使用的
ng 服务无法在 Docker 容器中工作

我有这个Docker Compose 配置我只需创建一个 NodeJS 容器并在其中安装 Angular CLI After a docker compose up d 我可以在容器内通过 SSH 连接docker compose run
将程序拆分为 4 个线程比单个线程慢

过去一周我一直在编写一个光线追踪器并且已经达到了足够多线程的程度我尝试过使用 OpenMP 来并行化它但是使用更多线程运行它实际上比使用一个线程运行它要慢阅读其他类似的问题尤其是有关 OpenMP 的问题一个建议是 gcc 可以

将程序拆分为 4 个线程比单个线程慢

将程序拆分为 4 个线程比单个线程慢 的相关文章

随机推荐

热门标签

将程序拆分为 4 个线程比单个线程慢的相关文章