使用 Spark 列出 Hadoop HDFS 目录中的所有文件?

2023-12-20

我想循环遍历 Hadoop 目录中的所有文本文件并计算“错误”一词的所有出现次数。有没有办法做一个hadoop fs -ls /users/ubuntu/使用 Apache Spark Scala API 列出目录中的所有文件?

从给定的第一个例子 https://spark.apache.org/examples.html,spark 上下文似乎只能通过以下方式单独访问文件:

val file = spark.textFile("hdfs://target_load_file.txt")

在我的问题中,我事先不知道 HDFS 文件夹中有多少个文件,也不知道文件的名称。看着Spark 上下文文档 http://spark.apache.org/docs/latest/api/core/index.html#org.apache.spark.SparkContext但找不到这种功能。


您可以使用通配符:

val errorCount = sc.textFile("hdfs://some-directory/*")
                   .flatMap(_.split(" ")).filter(_ == "error").count
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Spark 列出 Hadoop HDFS 目录中的所有文件? 的相关文章

随机推荐