Spark (Scala) 从驱动程序写入（和读取）本地文件系统

2023-12-20

第一个问题：我有一个带有 hadoop 的 2 节点虚拟集群。我有一个运行 Spark 作业的罐子。该 jar 接受 cli 参数：commands.txt 文件的路径，该文件告诉 jar 要运行哪些命令。

我使用spark-submit运行该作业，我注意到我的从属节点没有运行，因为它找不到主节点本地的commands.txt文件。

这是我用来运行它的命令：

./spark-1.6.1-bin-hadoop2.6/bin/spark-submit --class 

univ.bigdata.course.MainRunner --master yarn\
 --deploy-mode cluster --executor-memory 1g \
--num-executors 4 \
final-project-1.0-SNAPSHOT.jar commands commands.txt

我是否需要将commands.txt上传到hdfs并提供hdfs路径，如下所示？ :

hdfs://master:9000/user/vagrant/commands.txt

第二个问题：如何在 cwd 中写入驱动程序机器上的文件？我使用普通的 scala 文件编写器将输出写入 requests_out.txt，并且在使用 Spark Submit 时工作正常

 -master local[]

但是，当跑进去

 -master yarn

我找不到该文件，没有抛出异常，但我只是找不到该文件。它不存在，就好像它从未被写过一样。有没有办法将结果写入本地驱动程序计算机上的文件？或者我应该只将结果写入 HDFS ？

Thanks.

问题1：是的，将其上传到 hdfs 或任何网络可访问的文件系统就是解决问题的方法。

问题2:

这有点棘手。假设您的结果位于 RDD 中，您可以调用collect()，它将聚合驱动程序进程上的所有数据。然后，您手中就有了一个标准集合，您可以将其简单地写入磁盘上。请注意，您应该为驱动程序的进程提供足够的内存以能够容纳all结果在内存中，不要忘记还增加最大结果大小。参数为：

--驱动内存16G --conf“spark.driver.maxResultSize=15g”

这在通信复杂性和内存（结果 RDD 的大小）方面都具有绝对较差的扩展行为。这是最简单的方法，对于玩具项目或数据集总是很小的情况来说非常适合。在所有其他情况下，它肯定会在某个时候爆炸。

正如您可能已经提到的，更好的方法是使用内置的“saveAs”方法写入，即 hdfs（或其他存储格式）。您可以检查文档：http://spark.apache.org/docs/latest/programming-guide.html#actions http://spark.apache.org/docs/latest/programming-guide.html#actions

请注意，如果您只想持久化 RDD，因为您在多个计算中重用它（例如缓存，但不是将其保存在内存中，而是将其保存在磁盘中），RDD 上还有一个持久化方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark (Scala) 从驱动程序写入（和读取）本地文件系统的相关文章

我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
特征/类类型参数优先于方法类型参数的规则是什么

我已经使用 scala 一段时间了我认为我真的开始理解一切好吧大多数事情但我发现自己对 Map 类中的许多方法定义感到困惑我知道 FoldLeft 等如何工作但我感到困惑的是 Map 函数中使用的类型参数我们以 FoldLef
JavaFX 控制器如何访问其他服务？

我将 JavaFX 2 与 Scala 一起使用我有class Application extends javafx application Application它执行诸如读取应用程序配置等操作然后它会启动主窗口该主窗口需要连接到一
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
JavaScript 中 Scala View 的等效项

在斯卡拉中 view允许防止创建全新的集合例如在Scala中视图有什么作用 https stackoverflow com questions 6799648 in scala what does view do JavaScript
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep
选择排序通用类型实现

我以自己的方式实现了选择和快速排序的递归版本我试图以一种可以对任何泛型类型的列表进行排序的方式修改代码我想假设提供的泛型类型可以转换为 Comparable at运行有人有关于如何执行此操作的链接代码或教程吗我正在尝试修改这个特定
如何使用 monocle 修改嵌套映射和 scala 中的另一个字段

我第一次尝试单片眼镜这是案例类 case class State mem Map String Int pointer Int 当前的修改使用标准 scala 我想做 def add1 s State gt s copy mem s m
为什么流式聚合总是延迟到两批数据？

我使用 Spark 2 3 0 我的问题是每当我在输入目录中添加第三批数据时第一批数据就会被处理并打印到控制台为什么 val spark SparkSession builder appName micro1 enableHiveSu
Scala 中的逆变和协变

abstract class Bhanu A val m List A gives error contravariant type A occurs in covariant position in type gt List A of v
Scala 中表达式和语句有什么区别

我是 Scala 世界的新手想知道表达式和语句之间有什么区别以及为什么 if else 用于表达式而不是语句是否有办法在 if else 中使用语句 EDIT 正如 J rg W Mittag 在评论中指出的这个答案实际上是错误的
结构化流式自定义重复数据删除

我有一个从 kafka 进入 dataFrame 的流数据我想根据 Id 删除重复项并根据时间戳保留最新记录样本数据是这样的 Id Name count timestamp 1 Vikas 20 2018 09 19T10 10 10
我应该将 scala-compiler 作为依赖项包含在 build.sbt 中吗？

我正在尝试在 intellij 中使用 scala 2 11 7 构建一个项目我已经设置了scalaVersion to 2 11 7 但是当我检查外部库时我可以看到scala compiler 2 11 0 我需要声明吗scala c
启动时播放错误：未绑定 play.api.db.Database 的实现

当我尝试运行 Play 应用程序 Play 2 5 4 时出现以下错误 ProvisionException Unable to provision see the following errors 1 No implementation
如何对hive中的子目录进行分区

我的 hadoop 中有如下的目录结构 hadoop maindirec subdirect1 file1 hadoop maindirec subdirect1 file2 hadoop maindirec subdirect2 file
如何获取hive表、列、视图、约束键和注释列的元数据？

请帮助我如何获取 Hive 表列视图约束键和注释列的元数据如果您有 Hue 可用您可以从顶部菜单数据浏览器转到 Metastore 表在那里您可以找到所有可用模式的元数据从 Hive 您可以尝试 USE DB NAME DES
使用 Apache Commons File Upload 解析 multipart/form-data

Apache Commons File Upload 包是否提供了流解析的通用接口multipart form data块通过InputStream 附加Array
Scala - InvalidClassException：没有有效的构造函数

我创建了一个Serializable番石榴的版本ImmutableRangeMap and Builder在 Scala 中以便在我的 Spark 应用程序中使用我的构造函数中有一个零参数SerializableImmutableRang
需要以下 scala 片段的简单英语翻译

我是 scala 和 playframework 的新手有人可以将下面的代码片段翻译成简单的英语吗对于上下文可以在这里找到 http www playframework org documentation 2 0 4 ScalaSec

随机推荐

Django 下载文件为空

我正在编写一个简单的函数用于从服务器下载某个文件到我的机器该文件由其 id 表示是唯一的文件被正确定位并且下载完成但是下载的文件尽管命名为服务器上的文件是空的我的下载功能如下所示 def download course re
C++ 静态成员函数和变量

我正在通过制作小型机器人模拟来学习 C 但在类内的静态成员函数方面遇到了麻烦我的环境类定义如下 class Environment private int numOfRobots int numOfObstacles static voi
引用 javascript 对象文字数组

您将如何引用此结构中的车型雅阁 CRV 普锐斯等这是一个糟糕的结构吗能够提取品牌然后使用品牌来获取模型然后使用模型来获取选项 var cars makes Honda models Accord 2dr 4dr CRV 2dr H
Java 8：对[方法]的引用不明确[重复]

这个问题在这里已经有答案了有谁明白为什么下面的代码在 Java 7 及以下版本中可以正常编译但在 Java 8 中却失败了 public static void main String args throws Exception put
如何让PSOldGen扩展以容纳非常大的对象？

我有一个程序需要为一个非常大的对象分配堆空间但我发现我得到了OutOfMemoryException当空闲堆似乎比大对象应该需要的多得多时这个测试程序演示了这个问题 public class HeapTest public static
date_format 不是 sql 中可识别的内置函数名称[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我希望我的日期显示如下 Monday 1 April 2013 但在 SQL Server 中显示 Date format 函数不是可识别的
使数组列表与众不同

我的数组列表中有重复项并且想要删除这些重复项以使其不同我尝试使用 hastable 来删除重复项但它破坏了顺序如何在不改变插入顺序的情况下使其清晰怎么样 using System Linq myArrayList new Arra
将 VSCode 更新到 1.32.1 后开玩笑“未找到测试”

我正在使用 vscode 配置调试笑话这里是launch json配置 version 0 2 0 configurations type node request launch name Jest Current File progra
如何在自己的进程组中启动一个进程？

我想在自己的进程组中启动一个进程或者启动后更改其组并且让组中的进程响应Ctrl C从航站楼获取进程组的id 以便我可以通过以下方式终止组中的所有进程kill命令注意我尝试过setsid prog args 但进程不响应终端的
无法获取移动服务的位置信息 - 错误 400

我尝试按照 Scotts 在此页面上对 Azure 的介绍进行操作 https www windowsazure com en us develop mobile tutorials get started https www window
MVC 4 中 SQL Server Express 数据库文件自动创建错误 - 但我不想使用 SQL Server Express

我刚刚在 ASP Net MVC 4 中部署了一个新应用程序我使用 SQL Server 2008 R2 不是 SQL Express 前 10 分钟效果很好然后我对代码做了一些更改并重新部署现在每当我尝试访问使用 SimpleMe
使用 pyinstaller 将脚本转换为独立可执行文件时捕获 RTSP 流失败

Code from imutils video import VideoStream import cv2 Read rtsp stream rtsp u rtsp admin email protected cdn cgi l email
InvalidOperationException：无法解析范围服务

InvalidOperationException 无法从根提供程序解析范围服务 DrinkAndGo Data AppDbContext DbInitializer cs 中 DrinkAndGo Data DbInitializer S
如何保持 2 列数据帧的 pandas groupby 计数为零？

如果数据框有 3 列我发现这个 StackOverflow 答案给出了零计数 Pandas groupby 为零值 https stackoverflow com questions 37003100 pandas groupby for
javascript 中字符类的范围乱序

我不知道为什么我的正则表达式不正确 var domain google com br var reEmail new RegExp A Za z0 9 domain 我需要这个来验证电子邮件下面的例子 reEmail test email
将额外数据传递给 EditorTemplate

假设我有一个 LineItem 来自过度使用的购物车示例并且我想使用 EditorTemplate 来呈现它我完全可以使用父视图部分或其他中的 Html EditorFor m gt m LineItems 渲染它但令人困惑的是传
第一次达到某个数字时递增计数器

这可能是一个非常愚蠢的问题不过我还是要问一下如何仅在第一次达到特定值时增加计数器例如如果我将下面的步骤作为 df 的一列并且想要添加一个名为 counter 的计数器列该计数器列在 step 列第一次值为 6 时递增您可以使
SpringFox - 隐藏 Swagger-ui 中调用端点不需要的某些字段

我想知道是否有任何方法可以使 SpringFox 不显示在调用特定端点时不需要的某个实体的所有字段例如具有以下实体 public class Car long id String name int wheels String type
如何在 Google Maps Android API v2 中向 MapFragment 添加自定义控件？

我有 SupportMapFragment 我需要向其中添加自定义控件以更改地图类型调用 getView 我得到 NoSaveStateFramelayout 我认为将其直接添加到它或其子级中不是一个好主意如何在地图上添加按钮以更改地图
Spark (Scala) 从驱动程序写入（和读取）本地文件系统

第一个问题我有一个带有 hadoop 的 2 节点虚拟集群我有一个运行 Spark 作业的罐子该 jar 接受 cli 参数 commands txt 文件的路径该文件告诉 jar 要运行哪些命令我使用spark submit运行

Spark (Scala) 从驱动程序写入（和读取）本地文件系统

Spark (Scala) 从驱动程序写入（和读取）本地文件系统 的相关文章

随机推荐

热门标签

Spark (Scala) 从驱动程序写入（和读取）本地文件系统的相关文章