为什么 sortBy 转换会触发 Spark 作业?

2023-12-25

根据 Spark 文档,只有 RDD 操作可以触发 Spark 作业,并且在调用操作时会延迟评估转换。

我看到sortBy转换函数会立即应用,并在 SparkUI 中显示为作业触发器。为什么?


sortBy是使用实现的sortByKey这取决于RangePartitioner(JVM) 或分区函数 (Python)。你打电话时sortBy / sortByKey分区器(分区函数)被急切地初始化并对输入 RDD 进行采样以计算分区边界。你看到的Job就对应这个流程。

仅当您对新创建的执行操作时,才会执行实际排序RDD或其后代。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 sortBy 转换会触发 Spark 作业? 的相关文章

随机推荐