在 Spark 2.2.0 中:我正在使用以下命令读取一个文件
spark.csv.read("filepath").load().rdd.getNumPartitions
我在一个系统中为 350 MB 文件分配了 77 个分区,在另一个系统中分配了 88 个分区。我还获得了 28 GB 文件的 226 个分区,大约为 28*1024 MB/128 MB 。问题是,Spark CSV数据源如何确定这个默认的分区数?
分区数量受多种因素影响 - 通常
-
spark.default.parallelism
- 您正在读取的文件数(如果从目录中读取文件)
- 集群管理器/核心数量(参见火花配置)这影响
spark.default.parallelism
从文本文件(以及 CSV)读取时的分区数应确定为math.min(defaultParallelism, 2)
基于CSV数据源
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)