如何在 Spark 中读取和解析 BSON 转储文件？

2024-04-08

我在 HDFS 中有几个 BZ2 Mongo DB BSON 转储需要分析。我正在使用 Spark 2.0.1 和 Scala 2.11.8。目前我正在使用 Spark Shell。

我尝试通过创建 RDD 来使用 mongo-spark 连接器，如下所示 -

val rdd = sc.newAPIHadoopFile(path="hdfs:///pathtofile/dump.bson.bz2",
classOf[com.mongodb.hadoop.BSONFileInputFormat].asSubclass(classOf[org.apache.hadoop.mapreduce.lib.input.FileInputFormat[Object, org.bson.BSONObject]]), 
classOf[Object], 
classOf[org.bson.BSONObject])

然后简单地使用它来读取它rdd.take(1).

执行给我java.lang.IllegalStateException: unread block data.

我还尝试了相同的步骤，提取 bz2 存档。它会导致相同的错误。

我该如何解决上述错误？有什么替代方法可以在 Spark 中读取 BSON 转储吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

scala

apachespark

bson

如何在 Spark 中读取和解析 BSON 转储文件？的相关文章

如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
mongorestore 从独立到复制集

我已转储在默认端口上运行的独立 mongo 数据库 14Gb 大如下所示 mongodump username
MongoDB：连接到 MongoDB 的 resolv.conf 的 DNS 问题

我想从 MongoDB Atlas 导出一些数据如果我执行下面的命令它会尝试连接localhost并导出数据 mongoexport uri mongodb srv
Node.js 重用 MongoDB 参考

我无法理解 Node js 例如 MongoDB 访问这是我得到的 mydb js var mongodb require mongodb server new mongodb Server staff mongohq com 10030
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
（节点：20732）[DEP0018] DeprecationWarning：未处理的承诺拒绝已被弃用。未来在nodejs中

我正在尝试在我的应用程序中生成确认链接虽然它工作正常并且也生成链接但是当我访问该链接时它在 Chrome 控制台中显示 POST http localhost 3000 api auth confirmation 400 Bad Re
修复数据库需要多少额外空间

我已经问过了这个问题在 mongodb google group https groups google com d topic mongodb user oi6S LKfTrs discussion 在没有任何回复的情况下将其发布在这里
如何在 sbt 控制台中加载 scala 文件？ [复制]

这个问题在这里已经有答案了可能的重复将 Scala 文件加载到解释器中以使用函数 https stackoverflow com questions 7383436 load scala file into interpreter to
如何解决：“MongoError：此图集层不允许使用 $where”？

使用 MongoDB Atlas 时如何解决 MongoError where is not allowed in this atlas tier 这是我的代码 async function getEventsTakingPlace con
Mongodb $push 嵌套数组

我想向我的嵌套数组添加新数据我的文档是 username erkin email email protected cdn cgi l email protection password b playlists id 58 name asd
查询 MongoDB 集合中的字段。

我正在尝试查询 mongodb 集合中的特定字段这是我的代码和输出 Mongo m new Mongo DB db m getDB mydb DBCollection coll db getCollection student addin
Mongodb 数据建模/投票更新（向上和向下）

Mongo 中有一个关于投票数据模型更新查询的示例 http www mongodb org display DOCS MongoDB Data Modeling and Rails MongoDBDataModelingandRails
按一个字段聚合，选择另一个字段最大值的文档作为集合

使用聚合框架获取每个分组的字段最大值的文档的最佳方法是什么因此使用下面的集合我希望具有为每个具有最新日期的 group id 返回一个文档的功能第二个清单显示了所需的结果 group id date 1 11 1 12 1 11 2
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

C++ 运算符查找规则 / Koenig 查找

在编写测试套件时我需要提供一个实现operator lt lt std ostream 供 Boost 单元测试使用这有效 namespace theseus namespace core std ostream operator lt
如何使用dotnetbrowser获取ajax请求响应正文？

我已经浏览了 dotnetbrowser 网站上的文档同时我看到了一个示例展示了如何交叉 Ajax 调用或过滤 Ajax 调用我想知道执行后是否可以获取 Ajax 请求正文响应如果可能的话我该怎么做是的可以在 DotNetBro
在 AWS lambda Node JS 的 http 响应标头中设置 Cookie

我启用了 Lambda 代理集成并将响应标头设置为 Lambda 输出和 API 网关的一部分 API 网关会将它们作为 HTTP 响应的一部分返回给客户端示例代码 callback null statusCode 302 Locati
如何形成独特的年、月、日的嵌套结构？

我有一个日期数组如下所示 2020 06 20T11 18 40 359Z 2020 06 15T11 17 45 511Z 2020 05 13T11 19 45 511Z 2019 04 20T11 49 27 828Z 我该怎么做才
Android Studio 3.3 xml 在 LinearLayout 上预览内部阴影

我刚刚将 Android Studio 更新到版本 3 3 现在在每个 XML 文件中每个嵌套的 LinearLayout 的左侧和右侧都有一个内部阴影如何将其去除 None
如何使我的电子邮件代码适用于 PHP？

嘿此代码应该在未在电子邮件表单上输入输入时添加错误消息并且应该在您最终输入代码时删除错误消息我有两个使用以下代码 Generate a unique code function getUniqueCode length code md
AJAX 不更新部分视图

我目前很难使用 Ajax 更新部分视图而无需刷新整个页面我正在使用 MVC 和实体框架来构建视图我将尝试尽可能多地包括在内以帮助解释自己我有一个 div 将用于保存我所有评论的列表视图 div div 该 div 使用以下内容填充 S
Docker&Celery - 错误：Pidfile (celerybeat.pid) 已存在

应用程序包括姜戈雷迪斯芹菜码头工人 Postgres 在将项目合并到 docker 之前一切都运行顺利且正常但是一旦将其移入容器就开始出现问题起初它开始得很好但过了一会儿我确实收到了以下错误 celery beat 1 E
Spring Boot 的新遗迹

最近我们将一个 tomcat spring 应用程序转换为 spring boot 除了新遗物之外一切都运行良好有没有一种方法可以轻松地使用 Spring Boot 项目配置新的遗迹我不想硬编码 new relic 代理 jar 路
使用 VBA 确定进程 ID

情况我有一个宏需要将击键按顺序发送到两个 Firefox 窗口不幸的是两个窗口具有相同的标题为了处理这个问题我激活了该窗口发送了我的击键然后使用 F6 加载第二个窗口的 URL 然后发送击键然后使用 F6 将其返回到原始页
X86: `movsxd rdx,edx`指令是什么意思？

我一直在玩intel mpx 发现它添加了某些我无法理解的指令例如英特尔格式 movsxd rdx edx I found this https stackoverflow com questions 33268906 how does
为什么没有将 `std::initializer_list` 定义为文字类型？

这是这个问题的后续声明 constexprinitializer list 对象是否合法 https stackoverflow com questions 16063123 is it legal to declare a conste
Julia 泛型函数类型参数

我定义了一个函数如下 function approx pi n tot Float64 0 0 for i in 1 n x rand y rand if x 2 y 2 lt 1 tot 1 end end tot n 4 end pri
3D 哪个更快？ Perlin 噪声还是 Simplex 噪声？

好吧网上有很多 Perlin 噪声和 Simplex 噪声之间的比较但我真的找不到一个对三个维度进行简单处理时间比较的地方这是我最感兴趣的我读过那个流行的PDF http webstaff itn liu se stegu simp
DateTime 和 DateTime2 之间的区别[重复]

这个问题在这里已经有答案了可能的重复 SQL Server datetime2 与 datetime https stackoverflow com questions 1334143 sql server datetime2 vs da
检查可选 Bool 的值

当我想检查可选布尔值是否为真时这样做不起作用 var boolean Bool false if boolean 它会导致此错误可选类型 IvalueBool 不能用作布尔值测试 nil 反而我不想检查是否为零我想检查返回的值是否
如何使用 html5 canvas 将图像覆盖在杯子上

我是 HTML5 画布新手我有一个杯子的图像我将其渲染在画布上这是杯子的图片现在我正在尝试渲染另一张图像我的照片为正常矩形尺寸上传该图像的设计区域我怎样才能渲染这个看起来像杯子上的图像的图像我想得到这样的最终图像我使用ca
使WCF服务可以通过Internet访问

我做了一个WCF服务我希望它的客户端能够从任何地方访问它我怎样才能做到这一点细节我希望它托管在 Windows 中过程而不是站点我正在使用 TCP 绑定我对网络托管等几乎一无所知最好不要使用 IIS 我在网上找到了很多建议
为什么要向对象的属性添加单引号[重复]

这个问题在这里已经有答案了对于javascript对象对于它的属性我通常不会为其添加单引号我记得如果我在对象的属性中添加单引号它就会变成 JSON 吗我对吗请看这段代码两个代码都会输出对象的值请解释一下我是否需要向对象的属
如何在 Spark 中读取和解析 BSON 转储文件？

我在 HDFS 中有几个 BZ2 Mongo DB BSON 转储需要分析我正在使用 Spark 2 0 1 和 Scala 2 11 8 目前我正在使用 Spark Shell 我尝试通过创建 RDD 来使用 mongo spark 连

如何在 Spark 中读取和解析 BSON 转储文件？

如何在 Spark 中读取和解析 BSON 转储文件？ 的相关文章

随机推荐

热门标签

如何在 Spark 中读取和解析 BSON 转储文件？的相关文章