无法压缩分区数量不等的 RDD

2024-04-04

现在我有3个这样的RDD：

rdd1:

rdd2:

11 12
13 14

rdd3:

15 16
17 18
19 20

我想这样做：

rdd1.zip(rdd2.union(rdd3))

我想要的结果是这样的：

但我有一个例外是这样的：

线程“main”中的异常 java.lang.IllegalArgumentException：无法压缩分区数量不等的 RDD

有人告诉我我可以毫无例外地做到这一点：

rdd1.zip(rdd2.union(rdd3).repartition(1))

不过好像是有点成本。所以我想知道是否还有其他方法可以解决这个问题。

我不确定你所说的“成本”是什么意思，但你的怀疑是对的repartition(1)不是正确的解决方案。它将 RDD 重新分区为单个分区。

如果您的数据不适合单台机器，则此操作将会失败。
它仅在以下情况下有效rdd1有一个分区。当您拥有更多数据时，这可能不再成立。
repartition执行一个shuffle，因此您的数据最终可能会以不同的方式排序。

我认为正确的解决方案是放弃使用zip，因为您可能无法确保分区匹配。创建密钥并使用join反而：

val indexedRDD1 = rdd1.zipWithIndex.map { case (v, i) => i -> v }
val indexedRDD2 = rdd2.zipWithIndex.map { case (v, i) => i -> v }
val offset = rdd2.count
val indexedRDD3 = rdd3.zipWithIndex.map { case (v, i) => (i + offset) -> v }
val combined =
  indexedRDD1.leftOuterJoin(indexedRDD2).leftOuterJoin(indexedRDD3).map {
    case (i, ((v1, v2Opt), v3Opt)) => i -> (v1, v2Opt.getOrElse(v3Opt.get))
  }

无论分区如何，这都将起作用。如果愿意，您可以对结果进行排序并删除末尾的索引：

val unindexed = combined.sortByKey().values

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

无法压缩分区数量不等的 RDD 的相关文章

计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

随机推荐

在什么情况下“this”指针被传递给类方法？ [复制]

这个问题在这里已经有答案了我正在阅读 this 指针我想我比原来更了解它但我仍然需要一些澄清所以根据我的理解如果你有 class Simple private int m nID public Simple int nID Se
将 awk 输出保存到变量 [重复]

这个问题在这里已经有答案了谁能帮我解决这个问题吗我正在尝试将 awk 输出保存到变量中 variable ps ef grep port 10 grep v grep port 10 awk printf s 12 printf var
合并两种错误类型的最惯用的方法是什么？

我有一个类型Foo其方法可能会引发关联类型的错误Foo Err pub trait Foo type Err fn foo mut self gt Result lt Self Err gt 我还有一个特点Bar用一种旨在处理的方法Fo
Seaborn/Matplotlib 日期轴条形图小主要刻度格式

我正在构建 Seaborn 条形图 x 轴是日期 y 轴是整数我想格式化日期的主要次要刻度我希望周一的刻度线是粗体的并且是不同的颜色即主要刻度线而本周的其余时间则不那么粗体我无法在 x 轴上获得主要和次要刻度格式以使用 Sea
在 jquery animate 中，如何使用自定义对象而不是 div？

我的情况是这样开始的我想对 div 的背景图像进行动画处理但似乎使用 jquery 我无法检索背景图像的各个位置背景位置所以我想为什么不创建一个对象并为其值设置动画然后将这些值放入 css 中但我还不知道如何完全做到这一点这是
订阅 EnvDTE80.DTE2.Events2.PublishEvents.OnPublishBegin 的正确方法是什么？

我正在将 VS 插件移植到 VS 包当包初始化时包会订阅 OnBuildBegin 和 OnPublishBegin Visual Studio 按预期触发 OnBuildBegin 但从未调用 OnPublishBegin 或多或少相
从发电机生成

我有一个生成器它接受一个数字作为参数并生成其他数字我想使用这个生成器生成的数字并将它们作为参数传递给同一个生成器创建一个一定长度的链例如 mygenerator 2 生成 5 4 和 6 将 mygenerator 应用于这些数字中
org.postgresql.util.PSQLException：错误：运算符不存在：整数= bytea

我正在尝试从 Spring Boot 应用程序执行本机查询但收到此错误 org postgresql util PSQLException 错误运算符不存在整数 bytea 这是我为实现此目的而编写的代码 SqlResultSetMa
TypeScript - 如何将索引签名表示为通用类型

TypeScript 中的索引签名定义如下字典 key string T Array index number T 这些可以包装成一些简单的可重用的类型 type DictionaryIndex
在 MySQL 的一个查询中使用不同值更新多行

我试图了解如何用不同的值更新多行但我只是不明白解决方案无处不在但对我来说似乎很难理解例如 1 个查询中有 3 个更新 UPDATE table users SET cod user 622057 date 12082014 WHER
Application.LoadComponent 找不到资源

我的项目中有一个 xaml 文件位于Ns1 Ns2 myfile xaml 它的构建操作设置为Page 使用自定义工具MSBuild Compile 我正在尝试在静态构造函数中加载此文件 namespace Ns1 Ns2 interna
如何使用 LINQ 合并两个列表？

如何使用 LINQ 合并两个列表如下所示 class Person public int ID get set public string Name get set public Person Merge Person p return
如何检测字符串是否是Base64Encoded？

检测字符串是否是 Base64Encoded 的最佳方法是什么使用 Delphi 你能做的最好的事情就是尝试解码它如果解码失败则输入未经过 Base64 编码如果字符串成功解码则输入might已经经过base64编码
SOAP suds 和可怕的模式 Type Not Found 错误

我正在使用最新版本的肥皂水 https fedorahosted org suds https fedorahosted org suds 第一次我在第一步就停滞了 suds TypeNotFound Type not found sch
使用 Maven，如何运行特定测试？

我的项目中有数千个单元测试我想选择其中一个或几个从命令行运行执行此操作的命令是什么您可以通过传递以下内容来运行类中的所有测试 Dtest
Symfony2：加载样式表但未在 NGINX 上应用，导致错误页面损坏

我刚刚安装了一个全新且干净的 Symfony 应用程序我使用 NGINX 作为我的网络服务器样式表在 devtools 网络选项卡中不显示 http 404 错误代码我可以在预览选项卡中正确看到它们的内容示例图片有人遇到过这样的问
Eclipse 中的 Scala 执行时间

当我从 Eclipse 运行 Scala 程序时出现了一些可疑的情况我运行一个 App 对象运行需要 7 8 秒实际执行时间用对象中的 System nanoTime 计时当我从命令行运行相同的 class 文件时需要 2 5
从 json_encode($phpArray) 访问 JSON 对象值

我是 JSON Javascript 新手遇到了这种性质的问题在我的 php 脚本中我将 php 数组传递给 javascript 如下所示 echo img src misc arrow right png 在我的 JavaScri
有没有用于集成复杂功能的 Haskell 库？

如何在 Haskell 中对复杂的复值函数进行数值积分有现成的库吗数字工具 http hackage haskell org package numeric tools仅在卷轴上运行我知道在复平面上只有线积分所以我感兴趣的界面是这样
无法压缩分区数量不等的 RDD

现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的

无法压缩分区数量不等的 RDD

无法压缩分区数量不等的 RDD 的相关文章

随机推荐

热门标签