按 Spark 键写入多个输出 - 一个 Spark 作业

2024-01-02

如何在单个作业中使用 Spark 写入依赖于密钥的多个输出。

有关的：按键写入多个输出 Scalding Hadoop，一个 MapReduce 作业 https://stackoverflow.com/questions/23994383/write-to-multiple-outputs-by-key-scalding-hadoop-one-mapreduce-job/

E.g.

sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c")))
.writeAsMultiple(prefix, compressionCodecOption)

将确保cat prefix/1 is

a
b

and cat prefix/2将会

编辑：我最近添加了一个新答案，其中包括完整导入、pimp 和压缩编解码器，请参阅https://stackoverflow.com/a/46118044/1586965 https://stackoverflow.com/a/46118044/1586965，除了之前的答案之外，这可能会有所帮助。

如果您使用 Spark 1.4+，这会变得非常非常容易，这要归功于数据帧API https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html。（DataFrames 是在 Spark 1.3 中引入的，但是partitionBy()，我们需要的是1.4中引入 http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.partitionBy.)

如果您开始使用 RDD，则首先需要将其转换为 DataFrame：

val people_rdd = sc.parallelize(Seq((1, "alice"), (1, "bob"), (2, "charlie")))
val people_df = people_rdd.toDF("number", "name")

在 Python 中，同样的代码是：

people_rdd = sc.parallelize([(1, "alice"), (1, "bob"), (2, "charlie")])
people_df = people_rdd.toDF(["number", "name"])

一旦有了 DataFrame，根据特定键写入多个输出就很简单了。更重要的是——这就是 DataFrame API 的美妙之处——Python、Scala、Java 和 R 中的代码几乎相同：

people_df.write.partitionBy("number").text("people")

如果需要，您可以轻松使用其他输出格式：

people_df.write.partitionBy("number").json("people-json")
people_df.write.partitionBy("number").parquet("people-parquet")

在每个示例中，Spark 都会为我们对 DataFrame 进行分区的每个键创建一个子目录：

people/
  _SUCCESS
  number=1/
    part-abcd
    part-efgh
  number=2/
    part-abcd
    part-efgh

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

按 Spark 键写入多个输出 - 一个 Spark 作业的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
减少/折叠幺半群列表，但减少器返回任一

我发现自己遇到过几次这样的情况我有一个减速器组合 fn 如下所示 def combiner a String b String Either String String a b asRight String 它是一个虚拟实现但 fn
在 Akka 中配置嵌套 Router

我有一些嵌套的路由器应创建它FromConfig 我想要的是这样的 test akka actor deployment worker router round robin nr of instances 5 slave router b
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Akka Stream Graph 恢复问题

我创建了一个图表来并行化具有相同输入的两个流这些流产生 Future Option Entity 如果 flowA 失败我想返回 Future None 但恢复似乎没有被调用 val graph Flow Input Future Op
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
对两种类型之间的二元关系进行建模

有企业也有人用户可以对某个企业点赞或发表评论但效果是一样的can not发生在一个人身上当用户发布有关某个企业的内容或对其点赞时该企业就被称为target喜欢或帖子 trait TargetingRelation Targetin
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
理解 Scala FP 库

只是为了让那些想要开始使用 Scala FP 库在纯 FP 方面变得更好的人快速清晰地了解有人能澄清猫和猫效应猫效应 IO 之间的区别关系吗最重要的是齐奥和莫尼克斯对此有何看法最后与 ScalaZ 7 8 有何关系到目前为
如何在映射中将字符串转换为 Seq[String]

我有一个Map String String 以及需要的第三方功能Map String Seq String 有没有一种简单的方法来转换它以便我可以将地图传递给函数 original mapValues Seq 注意mapValues返回地
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文

随机推荐

ASP.NET 5 (vNext) 在 Azure 上导致 500 - 内部服务器错误

我们正在开发一个使用新的 ASP NET 5 vNext EF7 和 AngularJS 的项目并计划在 Azure 上部署 WebApp 我在 Azure 上创建了一个新的 Web 应用程序并通过 Visual Studio 2015
Entity Framework Core 中的添加迁移错误

我正在关注 Julie Lerman 的 Entity Framework Core 2 0 入门教程我已经安装了 Microsoft EntityFrameworkCore SqlServer 版本 2 0 2 当我尝试在 VS 201
Android 连接一加 (Android 6.0.1) 上的 ESP8266

Android 6 0 上的 Retrofit 在连接到 Access Point 后进行 Http 调用时出现问题重现步骤连接到 Esp8266 接入点进行 http 调用http 192 168 4 1 http 192 168
拉伸图像作为背景

我需要将图像拉伸为页面背景如果页面无法很好地缩放也没关系无论屏幕分辨率如何整个图像都必须在屏幕上可见我在 Google 上找到了一些解决方案但它要么在 Firefox2 或 IE6 中不起作用要么在两者中都不起作用我也需要这两
有没有办法使用基于十六进制模式的 const 值来初始化 C double ？

我需要将无效的十六进制模式放入 C 99 中double value 不幸的是这不起作用出于明显的原因 const double invalid double 0x7ff0000000000001 这也不是因为 int const 的
firebase 社交登录未重定向到应用程序、ionic 3、ios

我正在尝试借助 firebase 身份验证在我的 ionic 3 应用程序中实现社交登录我关注了这篇文章https javebratt com ionic social login firebase https javebratt com
“此 MIB 视图中不再有变量”是什么意思 (Linux)？

在 Ubuntu 12 04 上我尝试使用以下命令获取管理值的子树 snmpwalk v 2c c public localhost 输出的最后一行是 iso 3 6 1 2 1 25 1 7 0 No more variables le
使用 for 循环创建圣诞树

我正在尝试创建一个程序您可以在其中输入一个数字该程序会创建一个的圣诞树排列例如如果我输入数字 5 程序应打印到目前为止我所拥有的是 def holidaybush n z n 1 x 1 for i in range 0 n
Google电子表格：使用值作为行号

我有单元格中函数的返回值A1 假设它是51 我如何使用这个值作为行号我不想要51 in A1但我想要来自单元格的值A51在细胞内A1 有公式吗使用间接 indirect A 51
.NET 日期时间选择器平面样式

在 NET 3 0中大多数控件都具有平面样式显然日期选择器没有这样的样式但表单中的所有其他控件都设置为平面如何使日期选择器变得扁平我对日期时间选择器的理解是它仅限于系统内置的内容换句话说它继承了 Shell 的局限性这
git diff 没有差异，但由于行结尾的改变，不应该有一些差异吗？

我的问题可能来自于对 Git 某些方面的误解当我因 Windows 机器上的更改而在 Mac 上将 CRLF 更改为 LF 行结尾时我想到了这个问题 1 我首先在 OSX 上初始化一个新的存储库并将所有文件放入受 CRLF 行结尾影响
为什么我会收到“指定的算法无效”异常

这是我的代码 X509Certificate pXCert new X509Certificate2 keyStore p12 password RSACryptoServiceProvider csp RSACryptoServicePr
页面加载时触发验证

目前我有一个使用 Razor View 引擎的 MVC 3 应用程序我启用了不显眼的验证问题是由于某种原因在页面加载时我的编辑视图显示必填字段的错误即使这些字段具有值还有其他人遇到过这个吗有解决这个问题的建议吗谢谢有问
使用 FK 更新行时的 MySQL 性能

我有两张桌子 spies id PK weapon id FK name weapons id PK name 我试图澄清这两个 SQL 更新是否有区别当使用 MySQL innoDB 时 Query 1 UPDATE spies SET
如何在 xsi:schemaLocation 中引用类路径 XSD？

例如我不想引用这样的在线 XSD
MongoDB MapReduce - 发出一个键/一个值不调用reduce

所以我对 mongodb 和 mapreduce 不太熟悉并且遇到了这个怪癖或者至少在我看来是一个怪癖假设我的收藏中有这样的对象键 5 值 5 键 5 值 4 键 5 值 1 键 4 值 6 键 4 值 4 键 3 值 0 My
将 NumPy 字符数组转换为字符串

我有一个 numpy 字符数组当我将其写入文件时它会写为 K R K P T T K T K R G L 我希望它只用字母书写不带括号或引号即 KRKPTTKTKRGL 我查看了 numpy 文档从我收集的内容来看解决方案是一个
在子类中将非纯虚函数变成纯虚函数

所以我有这个多态层次结构 ClassA Is not abstract no pure virtual functions but a few virtual functions ClassB public ClassA Defines
Win7 64位上的Visual Basic 6：开发的程序可以在32位Win操作系统上运行吗？

我在运行 64 位 Windows 7 操作系统的计算机上使用 Visual Basic 6 IDE Codejock Xtreme SuitePro 15 也用于界面内容正在开发的程序的用户使用的是 32 位 Windows 可能是 X
按 Spark 键写入多个输出 - 一个 Spark 作业

如何在单个作业中使用 Spark 写入依赖于密钥的多个输出有关的按键写入多个输出 Scalding Hadoop 一个 MapReduce 作业 https stackoverflow com questions 23994383 wr

按 Spark 键写入多个输出 - 一个 Spark 作业

按 Spark 键写入多个输出 - 一个 Spark 作业 的相关文章

随机推荐

热门标签

按 Spark 键写入多个输出 - 一个 Spark 作业的相关文章