即使压缩后,RDD 大小仍保持不变

2024-03-01

我使用 SparkListener 来监视缓存的 RDD 的大小。然而,我注意到无论我做什么,RDD 的大小始终保持不变。我做了以下事情来压缩 RDD。

val conf = new SparkConf().setAppName("MyApp")
conf.set("spark.rdd.compress","true")
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.....
val sc = new SparkContext(conf)
....
myrdd.persist(MEMORY_ONLY_SER)

即使,如果我删除上面显示的第二行和第三行,Spark监听器也会显示相同大小的RDD,这意味着设置spark.rdd.compress设置为 true 并且启用 kryo 序列化没有任何效果(好的 kryo 仅用于序列化,但是spark.rdd.compress至少可以做到这一点)。我可能犯了什么错误?

请注意,我的 RDD 类型为 (Long, String)。难道是这个原因吗?我的意思是,Spark 是否不会压缩这种类型的 RDD,尤其是当字符串尺寸较短时?

PS:我使用的是 Spark 1.6


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

即使压缩后,RDD 大小仍保持不变 的相关文章

随机推荐