我在 HDFS 中有一些数据/user/Cloudera/Test/*
。我可以通过运行很好地查看记录hdfs -dfs -cat Test/*
.
现在同一个文件,我需要在 scala 中将其读取为 RDD。
我在 scala shell 中尝试了以下操作。
val file = sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")
然后我编写了一些过滤器和 for 循环来读取单词。但是当我使用Println
最后提示找不到文件。
谁能帮我知道在这种情况下 HDFS url 是什么。
注意:我使用的是Cloudera CDH5.0 VM
如果您尝试在 Spark 作业中访问您的文件,那么您只需使用 URL
val file = sc.textFile("/user/Cloudera/Test")
Spark 会自动检测该文件。您不需要添加 localhost 作为前缀,因为 Spark 作业默认从 HDFS 目录读取它们。
希望这能解决您的疑问。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)