Apache Spark join 操作的扩展能力较差

2024-01-08

我在 Apache Spark 上运行“join”操作，发现没有弱可扩展性。如果有人能解释这一点，我将不胜感激。

我创建两个数据帧（“a”，“b”）和（“a”，“c”）并通过第一列连接数据帧。我为“一对一”连接生成数据帧值。另外，我使用相同的分区器来避免随机播放。

数据帧中的行数 - 1024 * 1024 * 16 * cores_total（cores_total - 启动程序的核心总数）。 “a”列由随机 Int 值组成，“b”列的所有值都等于 1，“c”列的所有值都等于 2。

理论上，随着数据大小和内核增加64倍，执行时间应该保持不变，但执行时间略有增长。我得到以下执行时间：

Apache Spark 版本 - 2.1.0。我们使用8个集群节点，配备1 Gbit以太网，每个节点有2个Intel Xeon E5-2630，64 GB RAM。

/* join perf */
import scala.io.Source
import scala.math._
import org.apache.spark._
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import scala.util.control.Breaks._
import scala.collection.mutable._
import org.apache.spark.rdd._
import org.apache.spark.sql._
import scala.util.Random
import org.apache.spark.util.SizeEstimator
import org.apache.spark.HashPartitioner

object joinPerf {

    def get_array(n: Int): Array[Int] = {
        var res = Array[Int]()
        for (x <- 1 to n) {
            res :+= Random.nextInt
        }

        return res
    }

    def main(args: Array[String]) {
        val start_time = System.nanoTime
        val conf = new SparkConf().setAppName("joinPerf")
        val sc = new SparkContext(conf)
        val cores_total = sc.getConf.get("spark.cores.max").toInt
        val partitions_total = sc.getConf.get("spark.default.parallelism").toInt
        val sqlContext = new org.apache.spark.sql.SQLContext(sc)
        import sqlContext._
        import sqlContext.implicits._
        println("start")
        val elems_total = 1024 * 1024 * 16 * cores_total
        val start_cnt = 1024 * 1024
        Random.setSeed(785354)

        var vals = Vector[Int]()
        for (x <- 1 to start_cnt) {
            vals :+= Random.nextInt
        }

        var test_rdd = sc.parallelize(vals)
        println(test_rdd.count)
        test_rdd = test_rdd.flatMap(x => get_array(elems_total / start_cnt)).distinct

        println("test_rdd count = " + test_rdd.count)
        println("partitions count = " + test_rdd.getNumPartitions)

        var test_rdd1 = test_rdd.map(x => (x, 1)).toDF("a", "b").repartition(partitions_total, $"a").cache
        var test_rdd2 = test_rdd.map(x => (x, 2)).toDF("a", "c").repartition(partitions_total, $"a").cache

        println("test_rdd1 count = " + test_rdd1.count)
        println("test_rdd2 count = " + test_rdd2.count)

        var start_test_time = System.nanoTime
        var test_res = test_rdd1.join(test_rdd2, test_rdd1("a") === test_rdd2("a"))
        println(test_res.count)
        print("join time = ")
        println((System.nanoTime - start_test_time) / 1e9d + " sec. ")

        print("all time = ")
        println((System.nanoTime - start_time) / 1e9d + " sec. ")
        sc.stop()
    }
}

配置参数：

spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.kryoserializer.buffer.max  1024
spark.kryo.unsafe                true
spark.kryo.referenceTracking     false
spark.driver.memory              22g
spark.executor.memory            22g
spark.driver.maxResultSize       22g
spark.rpc.message.maxSize        2047
spark.memory.fraction            0.8
spark.memory.storageFraction     0.5
spark.executor.extraJavaOptions  "-XX:+UseParallelGC"

每个核心的分区 - 4。

启动程序示例：

./bin/spark-submit --class "joinPerf" --conf spark.executor.cores=8 --conf spark.cores.max=64 --conf spark.default.parallelism=256 ./joinPerf.jar

理论上，随着数据大小和核心增加64倍，执行时间应该保持不变，但执行时间略有增长

不应该。虽然人们可以期望线性可扩展性，假设没有 IO 瓶颈，但当对均匀分布的数据执行严格的本地操作时，情况不再是这样，当转换需要数据交换时（RDD洗牌，Dataset Exchange）。在广泛的变革中，joins属于最昂贵的类别（下一个groupByKey-类似操作），由于它们的非还原性质，以及使用大型、本地、支持集合。

Shuffle 不仅具有高于线性的复杂度（至少O(N 日志 N）对于基于排序的方法），但也会导致数据分布不均匀，并且需要大量的磁盘和网络 IO。

如果您的代码将数据打乱两次 - 一次重新分区，情况会更加严重RDDs并一次到join Datasets (HashPartitioner for RDDs不兼容Dataset分区）。

最后，增加集群大小也会对性能产生影响，这与通信和同步开销的增加以及数据局部性的降低有关。

总体而言，您很少会看到真正的线性可扩展性，即使看到了，您也可以预期斜率

顺便说一句，我不会依赖cache - count与人一起工作时的惯用语Datasets. 可能不可靠 http://apache-spark-developers-list.1001551.n3.nabble.com/Will-count-always-trigger-an-evaluation-of-each-row-td21018.html#a21019.

也可以看看Spark：扩展核心数量时性能数据不一致 https://stackoverflow.com/q/41090127/6910411

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark join 操作的扩展能力较差的相关文章

有效地生成所有排列

我需要尽快生成所有排列 https en wikipedia org wiki Permutation整数的0 1 2 n 1并得到结果作为NumPy https numpy org 形状数组 factorial n n 或者迭代此类数组的
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
为什么 Java 11 中对于空白字符串 String.strip() 比 String.trim() 快 5 倍

我遇到过一个有趣的场景因为某些原因strip 针对空白字符串仅包含空格明显快于trim 在Java 11中基准 public class Test public static final String TEST STRING 3 w
Akka-Streams 收集数据（Source -> Flow -> Flow (collect) -> Sink）

我对 Scala 和 Akka 完全陌生我有一个简单的 RunnableFlow Source gt Flow do some transformation gt Sink runForeach 现在我想要这样的东西 Source gt
scala 提供类似 C++ 模板的东西吗？

我来自 C 并试图了解 scala 的类型系统考虑以下 C 模板类 template
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
在单个 mongodb 查询中查找并计数

我的文档看起来像这样 id ObjectId 572c4bffd073dd581edae045 name What s New in PHP 7 description PHP 7 is the first new major versio
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
为什么这些类型参数不符合类型细化？

为什么此 Scala 代码无法进行类型检查 trait T type A trait GenFoo A0 S lt T type A A0 trait Foo S lt T extends GenFoo S A S 我不明白为什么类型参数
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

Haskell - 对列表的前 n 个元素求和

我是哈斯克尔的新手假设我想总结第一个n带有我自己生成的函数的列表元素我不知道如何用 Haskell 做到这一点我只知道如何总结整个给定的列表例如 sumList Int gt Int sumList 0 sumList x xs x
对 MFC 项目中的内存泄漏感到困惑，如果从未调用 _CrtDumpMemoryLeaks()，这些内存泄漏就会消失

我有一个使用 Visual Studio 2017 编译的基于 MFC C 对话框的项目我添加了以下代码来在构建它时跟踪可能的内存泄漏从内部ProjectName cpp在我之前CWinApp 派生类已初始化 define CRTDBG
创建没有笔尖的视图控制器

在 AppDelegate 中我想创建一个 UIViewController 子类并添加其视图视图本身将在代码中指定没有笔尖根据苹果文档我应该使用 initWithNibName nil bundle nil 然后在控制器的 lo
在 Python 中创建快速 RGB 查找表

我有一个称为 rgb2something 的函数它将 RGB 数据 1x1x3 转换为单个值概率循环输入 RGB 数据中的每个像素结果相当慢我尝试了以下方法来加快转换速度生成 LUT 查找表 import numpy as np
获取 pandas 数据框中包含和不包含 NaN 的所有行

在 pandas 数据框中分割包含 NaN 和不包含 NaN 的行的最有效方法 input ID Gender Dependants Income Education Married 1 Male 2 500 Graduate Yes 2
正则表达式与嵌套括号匹配

OK 我不知道是否可以编写这个正则表达式所以我将从寻求帮助开始到目前为止我还没有成功源字符串 convert varchar 8000 lt text as reason 所需的匹配 convert varchar 8000 lt t
如何处理 R 回归中残差中的 NA？

所以我遇到了一些问题NAa 的残差值lmR 中的横截面回归问题不在于NA价值观本身这就是 R 呈现它们的方式例如 test residuals 1 2 4 5 0 2757677 0 5772193 5 3061303 4 51028
为组创建唯一的 id

我正在解决一个问题我必须对相关项目进行分组并为其分配唯一的 ID 我已经用 python 编写了代码但它没有返回预期的输出我需要帮助来完善我的逻辑代码如下 data child list for index row in df it
如何将 EF6 与 ASP.NET Core 1 结合使用

我创建了一个 ASP NET Core 1 项目并使用 Net Core 1 0 框架并且想要使用实体框架6 我按照这个教程https docs efproject net en latest platforms aspnetcore n
Json (fasterxml) stackoverflow 异常

当尝试序列化类别时我遇到了 stackoverflow 例外警告 StandardWrapperValve dispatcher Servlet service for servlet 调度程序抛出异常 java lang StackO
onCreate 正在复制视图

我正在松散地遵循阳光课程但遇到了问题 In my MainActivity onCreate方法它最初称为 protected void onCreate Bundle savedInstanceState mStudentId Uti
无法弄清楚为什么 PHP 没有从 $.ajax 调用接收 POST 数据

我以前并不是没有做过同样的过程但我不明白为什么我的 PHP 脚本的 POST 数据是空的这是我所做的发现的我已经验证 ajax 调用的 data 参数具有值 submitSearch 函数和 success 参数中的警报显示搜索变量
applyBindings() 太快，在 Ajax 请求完成之前调用

请考虑以下 ViewModel 片段 var id given1 given2 get testSynUfGet aspx null function data id data id given1 data given1 given2 da
在 Windows 中将 python .py 作为服务启动

我创建了一个 Windows 服务来启动 py 脚本 sc create Maraschino binPath C HTPC Maraschino maraschino cherrypy py DisplayName Maraschino
UITextView firstRectForRange 返回错误的框架

Edit 简单的解决方案是将所有帧计算从viewDidLoad to viewDidAppear 我很难让以下代码正常工作该代码返回 UITextView 中给定 NSRange 的第一帧如果没有换行符它就可以工作但是当我在 UIT
MonoDevelop 中的调试/跟踪输出

在 MonoDevelop 中哪里可以看到 System Diagnostics Debug 和 System Diagnostics Trace 输出我认为它应该出现在 ApplicationOutput 窗口中但无处可寻应用程序输
关于图像加载 IE 问题的 JavaScript/jQuery 事件侦听器

我正在寻找一种方法来为尽可能多的浏览器实现此功能 var image new Image image addEventListener load function alert loaded false image src image url
C++ math.h abs() 与我的 abs() 相比有什么不同

我目前正在用 C 编写一些像向量数学类的 glsl 并且我刚刚实现了一个abs 像这样的函数 template
如何使用 Python 模块 Dragonfly 识别语音？

我一直在试图弄清楚如何使用 Dragonfly 模块我查看了文档但似乎不知道如何使用它我只想能够识别一些短语并根据这些短语采取行动是的这个例子将终止我已经看过这个特定的例子很多了它缺少一些关键功能首先是 pythoncom
Apache Spark join 操作的扩展能力较差

我在 Apache Spark 上运行 join 操作发现没有弱可扩展性如果有人能解释这一点我将不胜感激我创建两个数据帧 a b 和 a c 并通过第一列连接数据帧我为一对一连接生成数据帧值另外我使用相同的分区器来避免随机

Apache Spark join 操作的扩展能力较差

Apache Spark join 操作的扩展能力较差 的相关文章

随机推荐

热门标签

Apache Spark join 操作的扩展能力较差的相关文章