我在 HDFS 中有几个 BZ2 Mongo DB BSON 转储需要分析。我正在使用 Spark 2.0.1 和 Scala 2.11.8。目前我正在使用 Spark Shell。
我尝试通过创建 RDD 来使用 mongo-spark 连接器,如下所示 -
val rdd = sc.newAPIHadoopFile(path="hdfs:///pathtofile/dump.bson.bz2",
classOf[com.mongodb.hadoop.BSONFileInputFormat].asSubclass(classOf[org.apache.hadoop.mapreduce.lib.input.FileInputFormat[Object, org.bson.BSONObject]]),
classOf[Object],
classOf[org.bson.BSONObject])
然后简单地使用它来读取它rdd.take(1)
.
执行给我java.lang.IllegalStateException: unread block data.
我还尝试了相同的步骤,提取 bz2 存档。它会导致相同的错误。
我该如何解决上述错误?有什么替代方法可以在 Spark 中读取 BSON 转储吗?
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)