如何打印RDD的内容?

2024-01-17

我正在尝试将集合的内容打印到 Spark 控制台。

我有一个类型:

linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3]

我使用命令:

scala> linesWithSessionId.map(line => println(line))

但这是打印出来的:

res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4] 位于地图:19

如何将 RDD 写入控制台或将其保存到磁盘以便查看其内容?


如果你想查看 RDD 的内容,一种方法是使用collect():

myRDD.collect().foreach(println)

然而,当 RDD 有数十亿行时,这不是一个好主意。使用take()只需要打印一些:

myRDD.take(n).foreach(println)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何打印RDD的内容? 的相关文章

随机推荐