以前我的理解是,一个动作将在 Spark 应用程序中创建一个工作。但是让我们看看下面的场景,我只是使用 .range() 方法创建一个数据框
df=spark.range(10)
由于我的 Spark.default.parallelism 是 10,因此生成的数据帧有 10 个分区。
现在我只是在数据帧上执行 .show() 和 .count() 操作
df.show()
df.count()
现在,当我检查 Spark 历史记录时,我可以看到 .show() 的 3 个作业和 .count() 的 1 个作业
为什么 .show() 方法有 3 个作业?
我读过一些内容,其中 .show() 最终将在内部调用 .take() ,它将迭代决定作业数量的分区。但我没听懂那部分?
到底是什么决定了就业岗位的数量?
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)