我对 Spark 数据帧分区数量有疑问。
如果我有 Hive 表(员工),其中包含列(姓名、年龄、ID、位置)。
CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);
如果员工表有 10 个不同的位置。所以数据在HDFS中会被划分为10个分区。
如果我通过读取 Hive 表(员工)的全部数据来创建 Spark 数据框(df)。
Spark 将为一个数据帧(df)创建多少个分区?
df.rdd.partitions.size = ??
分区是根据 HDFS 的块大小创建的。
想象一下,您已将 10 个分区作为单个 RDD 读取,如果块大小为 128MB,那么
分区数量 =(大小(10 个分区,以 MB 为单位))/ 128MB
将存储在 HDFS 上。
请参考以下链接:
http://www.bigsynapse.com/spark-input-output http://www.bigsynapse.com/spark-input-output
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)