我正在尝试将集合的内容打印到 Spark 控制台。
我有一个类型:
linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3]
我使用命令:
scala> linesWithSessionId.map(line => println(line))
但这是打印出来的:
res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4] 位于地图:19
如何将 RDD 写入控制台或将其保存到磁盘以便查看其内容?
如果你想查看 RDD 的内容,一种方法是使用collect()
:
myRDD.collect().foreach(println)
然而,当 RDD 有数十亿行时,这不是一个好主意。使用take()
只需要打印一些:
myRDD.take(n).foreach(println)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)