如何将数组[字符串]存储到输出文件[重复]

2024-01-13

我有一个名为 samparr 的数组[String],其中包含一些值,我希望将其存储为输出文件。

var samparr: Array[String] = new Array[String](4)
samparr +:= print1 + "  BEST_MATCH  " + print2

就像,

val output = samparr.saveAsTextFile(outputpath)

但它不是一个 RDD,它是一个 Array[String]


您可以使用SparkContext.parallelize将数组“分发”到 Spark 集群上(换句话说,将其变成 RDD),然后调用saveAsTextFile:

sc.parallelize(samparr).saveAsTextFile(outputpath)

此操作将对数据进行分区并将每个分区发送到其中一个执行器,然后每个分区将被保存到单独的“文件部分”中。

或者,由于数组非常小,并且不能真正“证明”使用 Spark,因此您可以尝试任何将数据保存到文件的非 Spark 方法,例如链接的那个@avihoo-mamka https://stackoverflow.com/users/2455626/avihoo-mamka: 如何在 Scala 中写入文件? https://stackoverflow.com/questions/4604237/how-to-write-to-a-file-in-scala

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将数组[字符串]存储到输出文件[重复] 的相关文章

  • 将参数传递给 Scala 对象

    是否可以从外部对象初始化 Scala 对象 我尝试初始化的 Scala 对象没有任何 Companion 类 这是一个例子 object ObjectA val mongoDBConnectionURI This is the Val th
  • 凿子“Enum(UInt(), 5)”失败

    当我尝试使用 Chisel 构建 FSM 时 我使用了 Enum 如 Chisel 教程所述 然而 我遇到了这样的错误 my code val sIdle s1 s2 s3 s4 Nil Enum UInt 5 但是 当我执行时sbt ru
  • 从 Java 中的另一个应用程序部署 Apache Spark 应用程序,最佳实践

    我是 Spark 的新用户 我有一个 Web 服务 允许用户请求服务器通过读取数据库并将结果推送回数据库来执行复杂的数据分析 我已将这些分析转移到各种 Spark 应用程序中 目前我使用spark submit来部署这些应用程序 但是 我很
  • Spark Driver 内存和 Application Master 内存

    我是否正确理解客户端模式的文档 客户端模式与驱动程序在应用程序主机中运行的集群模式相反 在客户端模式下 驱动程序和应用程序主机是单独的进程 因此spark driver memory spark yarn am memory一定小于机器内存
  • 作为单例集合的选项 - 现实生活中的用例

    标题几乎概括了这一点 Option作为单例集合有时会令人困惑 但有时它允许一个有趣的应用程序 我脑子里有一个例子 并且想了解更多这样的例子 我唯一的例子是运行for对的理解Option List T 我们可以执行以下操作 val v Som
  • 从 Monoids 的 HList 类型派生 0 的 HList

    我正在学习 Shapeless 目前我正在尝试创建一个执行以下操作的函数 给定一个类型HList它返回HList of Nones 与Option对应于给定的类型HList type 例如 create String Int HNil re
  • 如何将Spark DataFrame插入Hive内表?

    以追加模式将 DF 插入 Hive 内部表的正确方法是什么 看来我们可以使用 saveAsTable 方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询 df write mode append saveAsTable
  • 当恰好有一个选项非空时执行某项操作

    如果两个选项之一非空 我想计算一些东西 显然这可以通过模式匹配来完成 但是有更好的方法吗 o1 o2 match case Some o None gt Some compute o case None Some o gt Some com
  • 重载方法值与替代方法的聚合

    我有以下函数 但无法编译 private def save pea KStream String String Unit pea groupByKey aggregate gt folder String String value Stri
  • Scala 插入列表中的特定位置

    这是我确实解决的问题 但是作为一个完全命令式的 Scala 菜鸟 我觉得我发现了一些完全不优雅的东西 任何改进的想法表示赞赏 val l1 4 1 2 3 4 Nil original list val insert List 88 99
  • 方法返回类型的类型推断

    当存在显式方法时 为什么 Scala 无法推断方法的返回类型return方法中使用的语句 例如 为什么下面的代码可以编译 object Main def who 5 def main args Array String println wh
  • 在 URL 中嵌入 ETag

    有关 Play 中资产指纹识别的问题 如何要求 Play 在 URL 中嵌入 ETag 而不使用第三方插件 例如 如果 css resource cssETag 为1234 那么它就会变成 css responsive 1234 css 相
  • 在 Scala 中定义具有多个隐式参数的函数

    如何定义具有多个隐式参数的函数 def myfun arg String implicit p1 String implicit p2 Int doesn t work 它们必须全部放入一个参数列表中 并且该列表必须是最后一个 def my
  • 如何将参数传递给用户定义函数?

    我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
  • 使用值类参数的 Mockito 存根方法失败并出现 NullPointerException

    使用类型化值类作为 ID 是 Scala 中的常见模式 然而 在存根以值类作为参数的方法时 Mockito 似乎遇到了问题 在下面的示例中 第一个具有实际值的存根工作得很好 但第二个使用参数匹配器的存根会抛出 NullPointerExce
  • 选择 PySpark 数据框中的列

    我正在寻找一种在 PySpark 中选择数据帧列的方法 对于第一行 我知道我可以使用df first 但不确定列是否存在没有列名 我有 5 列 想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0
  • Spark sql 每组前 n 个

    我怎样才能获得每组的前n名 比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
  • 这个错误是什么意思(SimpleHttpConnectionManager 被错误使用)?

    我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
  • 从单个字符串创建 Spark DataFrame

    我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
  • 仅当要转换的函数至少有两个参数时,函数到二阶函数的隐式转换才有效

    我有隐式转换和高阶函数的问题 似乎只有当要转换的函数至少有两个参数时 函数到二阶函数的隐式转换才有效 Works implicit def conv foo Integer gt String String gt String null 不

随机推荐