Haskell 中的简单合并排序并行化没有加速

2024-04-16

注:这篇文章于2011-06-10完全重写;感谢彼得帮助我。另外,如果我不接受一个答案,请不要生气,因为这个问题似乎是相当开放式的。 (但是,如果你解决了它,当然你会得到复选标记)。

另一位用户发布了有关并行化合并排序的问题。我以为我会写一个简单的解决方案,但遗憾的是,它并不比顺序版本快多少。

问题陈述

合并排序是一种分而治之的算法,其中计算的叶子可以并行化。

代码的工作原理如下:列表被转换为一棵树,代表计算节点。然后,合并步骤返回每个节点的列表。从理论上讲,我们应该看到一些显着的性能提升,因为我们正在从O(n log n) 算法O(n) 具有无限处理器的算法。

计算的第一步是并行的,当参数l(level) 大于零以下。这是通过 [via 变量strat] 选择rpar策略,这将使子计算合并排序'x并行发生合并排序。然后,我们合并结果,并强制其评估rdeepseq.

data Tree a = Leaf a | Node (Tree a) (Tree a) deriving (Show)

instance NFData a => NFData (Tree a) where
    rnf (Leaf v) = deepseq v ()
    rnf (Node x y) = deepseq (x, y) ()

listToTree [] = error "listToTree -- empty list"
listToTree [x] = Leaf x
listToTree xs = uncurry Node $ listToTree *** listToTree $
    splitAt (length xs `div` 2) xs

-- mergeSort' :: Ord a => Tree a -> Eval [a]
mergeSort' l (Leaf v) = return [v]
mergeSort' l (Node x y) = do
    xr <- strat $ runEval $ mergeSort' (l - 1) x
    yr <- rseq $ runEval $ mergeSort' (l - 1) y
    rdeepseq (merge xr yr)
    where
        merge [] y = y
        merge x [] = x
        merge (x:xs) (y:ys) | x < y = x : merge xs (y:ys)
                            | otherwise = y : merge (x:xs) ys
        strat | l > 0 = rpar
              | otherwise = rseq

mergeSort = runEval . mergeSort' 10

通过仅评估几个级别的计算,我们应该具有良好的并行性沟通复杂性还有——一些常数因子阶n.

Results

在这里获取第四版源代码[http://pastebin.com/DxYneAaC http://pastebin.com/DxYneAaC],并使用以下命令运行它以检查线程使用情况,或使用后续命令行进行基准测试,

rm -f ParallelMergeSort; ghc -O2 -O3 -optc-O3 -optc-ffast-math -eventlog --make -rtsopts -threaded ParallelMergeSort.hs
./ParallelMergeSort +RTS -H512m -K512m -ls -N
threadscope ParallelMergeSort.eventlog

24 核 X5680 @ 3.33GHz 的结果几乎没有改善

> ./ParallelMergeSort 
initialization: 10.461204s sec.
sorting: 6.383197s sec.
> ./ParallelMergeSort +RTS -H512m -K512m -N
initialization: 27.94877s sec.
sorting: 5.228463s sec.

在我自己的机器上,四核 Phenom II,

> ./ParallelMergeSort 
initialization: 18.943919s sec.
sorting: 10.465077s sec.
> ./ParallelMergeSort +RTS -H512m -K512m -ls -N
initialization: 22.92075s sec.
sorting: 7.431716s sec.

在 threadscope 中检查结果表明,少量数据的利用率很高。 (尽管遗憾的是,没有明显的加速)。然而,当我尝试在更大的列表上运行它时(如上面所示),它一半的时间使用大约 2 个 cpu。似乎很多火花都被修剪掉了。它对内存参数也很敏感,其中 256mb 是最佳位置,128mb 为 9 秒,512 为 8.4,1024 为 12.3!

我正在寻找的解决方案

最后,如果有人知道一些高性能工具可以解决这个问题,我将不胜感激。 (伊甸园?)。我对 Haskell 并行性的主要兴趣是能够为研究项目编写小型支持工具,我可以将其放在我们实验室集群中的 24 或 80 核服务器上。由于它们不是我们组研究的重点,所以我不想在并行化效率上花太多时间。所以,对我来说,越简单越好,即使我最终只获得了 20% 的使用率。

进一步讨论

  • 我注意到 threadscope 中的第二个条有时是绿色的(参见其homepage http://research.microsoft.com/en-us/projects/threadscope/,其中第二个栏似乎始终是垃圾收集)。这是什么意思?
  • 有什么办法可以避免垃圾收集吗?看来要花很多时间了。例如,为什么不能分叉子计算,将结果返回到共享内存中,然后死掉?
  • 有没有更好的方式(箭头,应用)来表达并行性?

答案很简单:因为您根本没有引入并行性。Eval只是一个命令计算的 monad,你必须要求手动并行执行。您可能想要的是:

do xr <- rpar $ runEval $ mergeSort' x
   yr <- rseq $ runEval $ mergeSort' y
   rseq (merge xr yr)

这将使 Haskell 实际上为第一次计算创建一个 Spark,而不是尝试当场评估它。

标准提示也适用:

  1. 应深入评估结果(例如使用evalTraversable rseq)。否则,您只会强制树的头部,并且大部分数据将未经评估而返回。
  2. 仅仅激发一切很可能会耗尽所有收益。引入一个在较低递归级别停止产生火花的参数是一个好主意。

编辑:问题编辑后,以下内容实际上不再适用

但最糟糕的部分是:你所说的算法非常有缺陷。您的顶层seq只强制列表中的第一个 cons-cell,这使得 GHC 可以利用惰性来发挥巨大的作用。它永远不会真正构建结果列表,只是在搜索最小元素时遍历所有结果列表(这甚至不是严格需要的,但 GHC 仅在已知最小值后才生成单元格)。

因此,当您开始引入并行性并假设您在程序中的某个时刻需要整个列表时,当性能实际上急剧下降时,请不要感到惊讶......

编辑2:对编辑的更多答案

您的程序最大的问题可能是它使用列表。如果您想要制作的不仅仅是一个玩具示例,请至少考虑使用(解压缩的)数组。如果你想进行严肃的数字运算,也许可以考虑一个专门的库,比如repa http://hackage.haskell.org/package/repa.

关于“进一步讨论”:

  • 颜色代表不同的 GC 状态,我不记得是哪个了。尝试查看相关事件的事件日志。

  • “回避”垃圾收集的方法是首先不要产生太多垃圾,例如通过使用更好的数据结构。

  • 好吧,如果您正在寻找强大并行化的灵感,那么可能值得一看单体 http://hackage.haskell.org/package/monad-par,这是相对较新的,但(我觉得)其并行行为不那么“令人惊讶”。

使用 monad-par,你的例子可能会变成这样:

  do xr <- spawn $ mergeSort' x
     yr <- spawn $ mergeSort' y
     merge <$> get xr <*> get yr

所以这里的get实际上强制您指定连接点 - 并且库会执行所需的操作deepseq自动在幕后。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Haskell 中的简单合并排序并行化没有加速 的相关文章

  • 如何在MPI中传递2D数组并使用C语言创建动态标签值?

    我是 MPI 编程新手 我有一个 8 x 10 数组 需要用它来并行查找每行的总和 在等级 0 进程 0 中 它将使用 2 维数组生成 8 x 10 矩阵 然后我会用tagnumber 作为数组的第一个索引值 行号 这样 我可以使用唯一的缓
  • Haskell,optparse-generic 的未命名命令行参数

    我在用着optparse 通用 https hackage haskell org package optparse generic解析名为的程序的命令行参数example 我有一个带有命名字段的数据类型 记录语法 例如 data Exam
  • 生成所有可能的树

    给定以下数据类型定义 data FormTree Empty Node FormTree FormTree deriving Show 我想编写一个函数 它生成一个无限列表 其中包含按长度排序的所有可能的树 例如节点数量 下面的代码几乎满足
  • 将系统命令的结果绑定到 Haskell 中的变量

    如何在 Haskell 中运行系统命令and将其结果 即标准输出 绑定到变量 在伪 Haskell 中 我正在寻找类似以下内容的内容 import System Process main do output lt callCommand e
  • Haskell Cabal 包 - 找不到 Paths_ 模块

    我正在开发一个 Haskell 项目 Happstack 服务器 Blaze HTML 前端作为主要库 我想添加一个静态数据目录 看起来你可以使用 Cabal 使用自动生成的Path
  • Java 中的并行编程

    我们如何在Java中进行并行编程 有什么特殊的框架吗 我们怎样才能让这些东西发挥作用 我会告诉你们我需要什么 认为我开发了一个网络爬虫 它从互联网上爬取了大量数据 一个爬行系统无法使事情正常工作 因此我需要更多的系统并行工作 如果是这种情况
  • 为什么 Haskell 中有协函子和逆变函子的区别,而范畴论却没有区别?

    这个答案是从范畴论的角度来看的 https math stackexchange com a 661989 72174包括以下语句 事实是 协函子和逆变函子之间没有真正的区别 因为每个函子只是一个协变函子 More in details a
  • 如何让 Show 显示函数名称?

    作为一个让我熟悉 Haskell 的简单练习 在 Youtube 上闲逛并偶然进入美国倒计时游戏节目之后 我想为数字游戏制作一个求解器 你得到 6 个数字 需要将它们与 为了得到给定的结果 到目前为止我所得到的是非常脑死亡的 let ope
  • R 中使用 randomForest 进行内存高效预测

    TL DR我想知道使用基于大型数据集 数百个特征 数十万行 构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集 内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
  • 我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]

    这个问题在这里已经有答案了 我有一个很大的 csv 文件 需要很长时间才能阅读 我可以使用 parallel 或相关的包在 R 中并行读取此内容吗 我尝试过使用 mclapply 但它不起作用 根据OP的评论 fread来自data tab
  • Haskell 类型系统的细微差别

    我一直在深入了解 haskell 类型系统的本质 并试图了解类型类的要点 我已经学到了很多东西 但我在下面的代码片段上遇到了困难 使用这些类和实例定义 class Show a gt C a where f Int gt a instanc
  • 处理异步并行任务的多个异常

    Problem 多个任务并行运行 所有任务 没有任务或其中任何任务都可能抛出异常 当所有任务完成后 必须报告所有可能发生的异常 通过日志 电子邮件 控制台输出 等等 预期行为 我可以通过 linq 使用异步 lambda 构建所有任务 然后
  • Haskell:无法预期类型“Integer”与实际类型“Int”

    我已经盯着这段代码有一段时间了 但我无法理解该错误消息 divisors Integer gt Integer divisors n t t lt 1 n mod n t 0 length a gt Integer length 0 len
  • C# 的快速线程安全随机数生成器

    我需要在多个正在运行的线程中快速生成随机浮点数 我尝试过使用System Random 但它对于我的需求来说太慢了 并且它在多个线程中返回相同的数字 当我在单线程中运行应用程序时 它工作正常 此外 我需要确保生成的数字在 0 到 100 之
  • Haskell:是的,没有类型类。为什么是整数?

    我有一个关于 GHCi 如何假定整数类型的问题 我正在阅读 Learn you a Haskell 是 否类型的课程 如果您想阅读全文 这里有一个链接 http learnyouahaskell com making our own typ
  • 搜索重写规则

    有什么办法可以浏览或搜索重写规则吗 当我使用像这样的标志时 ddump rule firings or ddump rule rewrites我只是得到了触发的规则的名称以及它引起的重写 但没有得到实际的规则本身 理想情况下 我想通过 GH
  • 将 num 的签名键入 double?

    我才刚刚开始为你学习 Haskell 以获得伟大的好处 并且我在类型类方面遇到了一些麻烦 我想创建一个接受任何数字类型并强制其为双精度的函数 我的第一个想法是定义 numToDouble Num gt Double 但我认为这不起作用 因为
  • OpenMP:无法并行化嵌套 for 循环

    我想将循环与其中的内循环并行化 我的代码如下所示 pragma omp parallel for private jb ib shared n Nb lb lastBlock jj W WT schedule dynamic private
  • Haskell 中列表列表的笛卡尔积

    给定一个长度列表的列表x所有子列表的长度都相同y 输出y x长度列表x包含每个子列表中的一项 例子 x 3 y 2 1 2 3 4 5 6 Output 2 3 8不同的输出 1 3 5 1 4 5 1 3 6 1 4 6 2 3 5 2
  • 有没有更好的方法将 UTC 时间转换为大纪元时间?

    我想将文件的修改时间设置为从 exif 数据获取的时间 为了从 exif 获取时间 我发现 Graphics Exif getTag Exif gt String gt IO Maybe String 要设置文件修改时间 我发现 Syste

随机推荐

  • 在 Google Places Apis 中搜索特定城市内的位置

    我正在使用 Google Places Apis 来过滤特定城市内的结果 我能够过滤结果 但它也会显示该城市之外的结果 例如 如果我设置德里市的 LatLngBounds 并搜索纽约市的位置 它还给了我纽约市的结果 但纽约的 LatLng
  • 为什么要实现 IEquatable 接口

    我一直在阅读文章并在一定程度上理解接口 但是 如果我想纠正我自己的自定义 Equals 方法 似乎我可以在不实现 IEquatable 接口的情况下做到这一点 一个例子 using System using System Collectio
  • Python 如何在一行中分配多个变量?

    Python 在一行中分配多个变量实际上执行了哪些步骤 我以前经常做 A 0 A 1 A 1 A 0 来交换 但是最近在分配链表时遇到了一个错误 insert self gt node gt def insert next self nod
  • Spark中连接两个RDD

    我有两个 rdd 一个 rdd 只有一列 其他有两列来连接键上的两个 RDD 我添加了虚拟值 0 是否有其他有效的方法可以使用 join 来执行此操作 val lines sc textFile ml 100k u data val mov
  • conda 内部是如何工作的?

    我搜索了一段时间但找不到满意的答案 康达 http conda pydata org http conda pydata org 在内部工作 任何细节欢迎 此外 由于它与 python 无关并且显然工作得如此良好和流畅 为什么它不被用作像
  • Spring Boot - NoClassDefFoundError:ch/qos/logback/classic/Level

    我创建了一个普通的 Spring Boot 应用程序 1 5 9 RELEASE 但是当我Run As gt Spring Boot App 在 Eclipse Oxygen 中 我明白 SLF4J Failed to load class
  • 在 R Markdown 中将数据框显示为表格

    In knitr我想使用 kable 包添加一个 小 数据框作为表格 output html document r knitr kable mtcars 1 5 1 5 format html 这将返回一个如上所述的紧凑表 同时将其更改为f
  • 机器人框架 - 清除元素文本关键字不起作用

    我们有一个 html 结构的文本字段 如下所示
  • 在 CSS 流布局中自动调整图像大小以模拟 html 表格布局

    我有一个图像 根据屏幕分辨率 它会在 CSS 流布局中下降到看不见的位置 因为我已将其宽度和高度设置为静态值 CSS 流布局中是否有一种方法可以在有人缩小浏览器窗口时自动调整图像大小 我已经在 html table 布局中看到了这一点 并且
  • 具有双重重置的复数累加和

    我试图遵循一些关于何时将数据分组到图表中的规则 我将如何处理这个数据框 A tibble 11 x 8 assay year qtr invalid valid total assays hfr predicted inv
  • 使用 Active Directory 集成身份验证的 Azure SQL 数据库连接无法打开

    我正在尝试使用类似于以下内容的连接字符串通过实体框架连接到 Azure SQL 数据库 Data Source
  • Android Studio - Gradle:如何替换文件中的变量

    我对 Gradle 相当陌生 一直在使用 Eclipse 和 Ant 来完成所有构建 在我们的应用程序中 我们有一个 config properties 文件 位于与 src 和 res 等处于同一级别的 asset 文件夹中 在此文件中
  • 如何强制 Hibernate 将日期返回为 java.util.Date 而不是时间戳?

    情况 我有一个带有 java util Date 类型变量的持久类 import java util Date Entity Table name prd period Cache usage CacheConcurrencyStrateg
  • PyPy 明显慢于 CPython

    我一直在测试我制作的缓存系统 其目的是加速 Django Web 应用程序 它将所有内容存储在内存中 根据 cProfile 我的测试中的大部分时间都花在 QuerySet clone 内 结果证明效率非常低 考虑到实现 这实际上并不奇怪
  • 如何将所有为零的元素移动到数组末尾?

    编写一个函数 该函数接受一个值数组 并将所有为零的元素移动到数组末尾 否则保留数组的顺序 零元素还必须保持它们出现的顺序 零元素由 0 或 0 定义 某些测试可能包含非数字文字的元素 不允许使用任何临时数组或对象 也不允许使用任何 Arra
  • 允许特定用户写访问

    我的 Firebase 读 写规则有点受阻 我希望我有一种方法可以在检查身份验证时设置断点 没有办法 不是吗 我的问题很简单 我觉得我应该能够更好地理解它 我觉得大部分都是因为没有完全理解规则 此信息是一种在线查看产品的简单方法 并且所有者
  • 将数据注释应用于 MVC 中视图模型的子属性?

    在属性上添加简单的数据注释非常棒 public class UnicornViewModel Required public string Name get set 但假设我有这样的事情 public class SuperPower pu
  • 在C++中实现可迭代的优先级队列

    我需要为一个项目实现一个优先级队列 但是STL的priority queue没有指出 因为我们需要迭代所有元素并随机删除它们 我们正在考虑使用STLset为此 将其包装在一个类中以使其成为 ADT 对此有更聪明的解决方案吗 我们怎样才能让它
  • Django Rest Framework 自定义响应消息

    我有两个关于 Django Rest Framework 响应消息的问题 1 使用时generics ListCreateAPIView or RetrieveDestroyAPIView 通常返回一个资源 例如 使用 POST 方法调用
  • Haskell 中的简单合并排序并行化没有加速

    注 这篇文章于2011 06 10完全重写 感谢彼得帮助我 另外 如果我不接受一个答案 请不要生气 因为这个问题似乎是相当开放式的 但是 如果你解决了它 当然你会得到复选标记 另一位用户发布了有关并行化合并排序的问题 我以为我会写一个简单的