如何将 RDD 保存到 HDFS 中并稍后将其读回？

2024-03-12

我有一个 RDD，其元素类型为（Long、String）。由于某种原因，我想将整个 RDD 保存到 HDFS 中，然后在 Spark 程序中读回该 RDD。可以这样做吗？如果是这样，怎么办？

有可能的。

在RDD中你有saveAsObjectFile and saveAsTextFile功能。元组存储为(value1, value2)，以便您稍后可以解析它。

阅读可以通过textFile来自 SparkContext 的函数，然后.map消除()

所以：版本1：

rdd.saveAsTextFile ("hdfs:///test1/");
// later, in other program
val newRdds = sparkContext.textFile("hdfs:///test1/part-*").map (x => {
    // here remove () and parse long / strings
})

版本2：

rdd.saveAsObjectFile ("hdfs:///test1/");
// later, in other program - watch, you have tuples out of the box :)
val newRdds = sparkContext.sc.sequenceFile("hdfs:///test1/part-*", classOf[Long], classOf[String])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

HDFS

RDD

Bigdata

如何将 RDD 保存到 HDFS 中并稍后将其读回？的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
jq Streaming - 过滤嵌套列表并保留全局结构

在一个大型 json 文件中我想从嵌套列表中删除一些元素但保留文档的整体结构我的示例将其输入为但真实的输入足够大以要求流式传输 keep untouched keep this this list filter this keep
为什么 Scala 中的隐式类必须驻留在另一个特征/类/对象中？

基于scala文档 http docs scala lang org overviews core implicit classes html http docs scala lang org overviews core implicit
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s
如何从命令行向 REPL 添加导入？

如何使 REPL 导入命令行中给出的包 Sample scala someMagicHere import sys error scala gt imports 1 import scala Predef 162 terms 78 are
具有两个通用参数的上下文边界

在 Scala 中我可以使用上下文边界 def sort T Ordered t Seq T 与以下意思相同 def sort T t Seq T implicit def Ordered T 如果我有一个带有两个泛型参数的类怎么办 IE
Scala 的代码覆盖率工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从 HList 获取元素

我尝试了 HList 并按预期进行了以下工作 val hl 1 foo HNil val i Int hl 0 val s String hl 1 但是我无法让以下代码正常工作让我们暂时假设对列表进行随机访问是一个聪明的主意 class
具有上限的联合类型

我正在遵循这个问题的公认答案中提出的技术如何定义类型析取联合类型 https stackoverflow com questions 3508077 does scala have type disjunction union type
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文

随机推荐

OnPaint() 内部的 Graphics.Clear() 有时会导致一般 GDI+ 错误

我正在开发一个应用程序其中客户每隔几个月就会遇到一个问题他们可以通过重新启动应用程序来解决该问题堆栈跟踪始终指向重写的第一行类继承自Control OnPaint 调用的方法e Graphics Clear 我在微软的文档中读到 C
以编程方式求解方程组？ [复制]

这个问题在这里已经有答案了可能的重复 C 中的线性方程组 https stackoverflow com questions 2474432 system of linear equations in c 我有以下两个方程组对于 a b
在具有 4.14 内核的 IMX6 上使用 vivante GPU

我正在使用 yocto rocko Linux 4 14 24 开发 IMX6QP 并尝试使用 GPU 我的 yocto 配置文件 MACHINE imx6qp tx6 emmc DL DIR BSPDIR downloads SSTATE
在 C++14 中推导“auto”之前使用“auto func(int)”

我使用 GCC 编译了以下程序C 14 include
用于打开 powerpoint 并播放幻灯片的 Powershell 脚本

嘿谁能告诉我如何打开powerpoint并播放幻灯片我有以下代码但它不起作用 ppAdvanceOnTime 2 ppShowTypeKiosk 3 ppSlideShowDone 5 Add type AssemblyName off
找到最大编号的最快且最有效的方法。可以通过对数组的 2 个不同元素执行按位与来获得

给定一个非负整数数组找到最大数的最快最有效的方法是什么可以通过对数组的 2 个不同元素执行按位与即运算符来获得到目前为止这是我的代码 max 0 for i 0 i
Django：更有效地从多对多关系中删除项目

我的图书类使用多对多字段来拯救读者如果我想从某些书中删除读者我可以使用循环遍历所有书籍对象以删除读者但这太慢了可以批量操作吗 class Book models Model readers models ManyToManyFiel
MySQL按某种类型分组并选择最新行？

想象一个包含类型日期消息列的表有些行看起来像这样类型日期消息 1 1310572318 Hello 1 1310572317 Hi 2 1310572315 Wassup 3 1310572312 Yo 3 1310572311
使用 C# sdk/api 将歌曲添加到 itunes

我正在寻找一个 SDK 或 API c 可以让我将歌曲添加到我的 iTunes 库中如果有人知道的话那将是一个很大的帮助 iTunes COM 库 http developer apple com SDK 但它需要 COM 互操作不过
有什么办法可以防止控制台应用程序关闭吗？

有什么办法可以阻止控制台应用程序关闭吗用户无法关闭程序看看Win32控制台API http msdn microsoft com en us library ms682073 VS 85 aspx 您可以尝试创建一个窗口非控制台应用程
通过 DOM 函数附加新元素，还是使用 HTML 标签附加字符串，哪个更好？

我见过一些向 DOM 添加元素的不同方法例如最流行的似乎是 document getElementById foo innerHTML p Here is a brand new paragraph p or newElement do
Azure 文本转语音由于请求太多而受到限制 websocket 错误代码：1007，只有 3 个并发请求

我正在使用 Azure 文本转语音服务我有很多小的 ssml 文件我为其生成音频然后使用 FFMPEG 将它们组合起来我编写了一个脚本来生成所有小音频文件如果脚本发出 3 个并发请求那么在总共大约 20 个请求之后其他一些请求
Eslint（无未使用的表达式）

我使用三元表达式来更改玩家效果很好 ESLint 给了我这个错误 https eslint org docs rules no unused expressions https eslint org docs rules no unuse
如何从列表中删除相似的字符串？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案从列表中删除相似字符串的有效方法是什么考虑一个List
Laravel 8 中使用用户名和密码进行身份验证时出现问题

我最近开始使用 Laravel 8 我尝试同时使用用户名和电子邮件登录但我不知道该怎么做在 Laravel 7 中我可以使用 protected function credentials Request request field fi
计算给定范围内具有唯一数字的所有数字

这是一道面试题计算 1 N 范围内具有唯一数字十进制的所有数字显而易见的解决方案是测试范围内的每个数字是否唯一我们还可以生成具有唯一数字的所有数字作为排列并测试它们是否在范围内现在我想知道这个问题是否有DP 动态规划解决方
如何使用 Robolectric 测试片段？

我知道有一个Robolectric shadowOf Fragment 方法和一个ShadowFragment类认为它们没有在文档中列出但我无法使其工作 myFragment new MyFragment myFragment onCr
在 ggplot2 中 - 使用 xlim() 控制 x 轴时如何确保 geom_errorbar 显示所有点的条形限制

我在用ggplot2生成一个相对于整数值预测变量的相当简单的比例图我使用 geom errorbar 显示每个点估计的不确定性 e g require ggplot2 mydata lt data frame my x 70 99 my
JavaScript：解析字符串布尔值？ [复制]

这个问题在这里已经有答案了 JavaScript 有parseInt and parseFloat 但是没有parseBool or parseBoolean据我所知全局范围内的方法我需要一个方法它接受具有 true 或 false
如何将 RDD 保存到 HDFS 中并稍后将其读回？

我有一个 RDD 其元素类型为 Long String 由于某种原因我想将整个 RDD 保存到 HDFS 中然后在 Spark 程序中读回该 RDD 可以这样做吗如果是这样怎么办有可能的在RDD中你有saveAsObjectFi

如何将 RDD 保存到 HDFS 中并稍后将其读回？

如何将 RDD 保存到 HDFS 中并稍后将其读回？ 的相关文章

随机推荐

热门标签

如何将 RDD 保存到 HDFS 中并稍后将其读回？的相关文章