catalystoptimizer

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时

apachespark apachesparksql RDD catalystoptimizer
重写 LogicalPlan 以从聚合中下推 udf

我定义了一个 UDF 它将输入值加一名为 inc 这是我的 udf 的代码 spark udf register inc x Long gt x 1 这是我的测试sql val df spark sql select sum inc va

scala apachespark catalystoptimizer

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势