在 Apache Spark 中，为什么 RDD.union 不保留分区器？

2024-02-07

众所周知，Spark中的分区器对任何“宽”操作都会产生巨大的性能影响，因此通常在操作中进行定制。我正在尝试以下代码：

val rdd1 =
  sc.parallelize(1 to 50).keyBy(_ % 10)
    .partitionBy(new HashPartitioner(10))
val rdd2 =
  sc.parallelize(200 to 230).keyBy(_ % 13)

val cogrouped = rdd1.cogroup(rdd2)
println("cogrouped: " + cogrouped.partitioner)

val unioned = rdd1.union(rdd2)
println("union: " + unioned.partitioner)

我看到默认情况下cogroup()总是生成带有自定义分区器的 RDD，但是union()不，它总是会恢复为默认值。这是违反直觉的，因为我们通常假设 PairRDD 应该使用其第一个元素作为分区键。有没有办法“强制”Spark 合并 2 个 PairRDD 以使用相同的分区键？

union是一个非常有效的操作，因为它不会移动任何数据。如果rdd1有 10 个分区rdd2那么有20个分区rdd1.union(rdd2)将有 30 个分区：两个 RDD 的分区放在一起。这只是记账变化，没有洗牌。

但它必然会丢弃分区器。为给定数量的分区构建分区器。生成的 RDD 有许多与两者不同的分区rdd1 and rdd2.

加入工会后你可以运行repartition打乱数据并按键组织它。

上述情况有一个例外。如果rdd1 and rdd2具有相同的分区器（具有相同数量的分区），union行为不同。它将成对连接两个 RDD 的分区，为其提供与每个输入相同数量的分区。这可能涉及移动数据（如果分区不是位于同一位置），但不会涉及洗牌。在这种情况下，分区器被保留。（此代码位于PartitionerAwareUnionRDD.scala https://github.com/apache/spark/blob/v1.3.1/core/src/main/scala/org/apache/spark/rdd/PartitionerAwareUnionRDD.scala.)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Apache Spark 中，为什么 RDD.union 不保留分区器？的相关文章

数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
基于UnixTime的MySQL动态分区

我的数据库设计包括多个 MYISAM 表其中包含在线收集的测量值每行记录包含自动递增的 id 一些数据和一个表示 unixtime 的整数我正在设计一种老化机制并且我有兴趣使用MySQL分区来基于unixtime动态地对每个这样的表
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

升级时创建表

我一直在努力解决这个问题但我不知道我错过了什么我有一个 Android 应用程序我希望再添加 1 个表但是我无法做到这一点而且我也没有例外不喜欢这些无声杀手下面是我的 SQLiteHelper 类的代码 public clas
GWT 对单元格表进行排序，可能只是我没有看到的

在过去的几个小时里我一直在努力对 GWT CellTable 进行排序这确实是一个愚蠢的问题因为它已经在这里完成了http gwt google com samples Showcase Showcase html CwCellTab
Operator= 和 C++ 中未继承的函数？

在我刚刚进行的测试之前我认为在 C 中只有构造函数不被继承但显然任务operator 是不是太这是什么原因呢是否有任何解决方法来继承赋值运算符是否也是如此operator operator 所有其他函数除了构造函数运算符都
暂停JW播放器？

我有三个标签每个选项卡的滑块中有两个视频问题是当我切换任何选项卡时or单击任何单个视频所有其他视频都应暂停我可以收集所有 id 然后循环使用 stop 但是还有其他更干净更简单的方法吗 jwplayer video pub sto
Universal Analytics - 第三方支付网关

我们的网站目前正在通过跟踪代码管理器使用 Universal Analytics 进行跟踪我们的结账流程包括在前往感谢页面之前重定向至第三方支付网关所以它看起来像这样 site com checkout gt site com pay
通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）

我有一个 Spark 数据框就像 id start time feature 1 01 01 2018 3 567 1 01 02 2018 4 454 1 01 03 2018 6 455 2 01 02 2018 343 4 2 01
预先计算多维线性插值的权重

我有一个沿 D 维度的非均匀矩形网格网格上的逻辑值 V 矩阵和查询数据点 X 矩阵网格点的数量在不同维度上有所不同我对同一网格 G 和查询 X 多次运行插值但对于不同的值 V 目标是预先计算插值的索引和权重并重用它们因为它们始终相
Haystack more_like_this 返回全部

我正在使用 Django haystack solr 进行搜索我已经能够搜索现在我想使用 more like this 查找类似的项目当我尝试使用 more like this 功能时我会返回属于该模型类型的所有对象而不仅仅是与其
以编程方式创建/运行命令文件

我正在尝试创建一个 cmd 文件来安装 msi 然后通过 C 代码执行该 cmd 文件如果我使用 Visual Studio 中的 f5 或 control f5 运行该代码则该代码可以完美运行但是一旦我将代码打包在 msi 文件中
如何在 ecmascript 6 中模拟导入的模块？

我有一个带有 mocha babel 和 node 的测试设置旨在测试 ecmascript 6 代码有人对如何模拟被测模块中的导入有任何建议吗 ES2015 中的导入和导出是语言本身的一部分并且被设计为可静态分析因此它们无法在运
嵌套 CAST 不起作用

为什么嵌套转换在 MySQL 中不起作用它确实使用 SQL Server select cast cast myColumn as decimal 5 2 as int from myTable SQLFiddle示例 http sqlf
Codeigniter ajax CSRF问题

我制作了一个简单的自动加载功能当您在网站上向下滚动时加载内容但是当我在 Codeigniter 中启用 CSRF 保护时似乎存在一些问题我没有使用表单所以当我在滚动时执行发布请求时我不知道如何将令牌从 A 发送到 B 我的 J
静态库的静态成员

我有带有静态成员的静态库该库静态链接到主应用程序及其插件之一看起来像在 main 应用程序和 dll 插件中初始化静态变量 Question 如何避免动态库加载时静态变量重新初始化或者我可能错过了一些简单的事情更多信息这是一个
Oracle：用户数据中按循环连接

我了解 Oracle 中何时会发生循环从理论上讲如果一条记录既是另一个节点的父节点又是另一个节点的子节点那么它就可以进入循环但我不明白为什么我的这个特定查询会陷入循环 SELECT Empno Ename Job FROM Emp
Github API OAuth 令牌验证

有什么方法可以验证我的 github API 的 OAuth 令牌吗我所说的令牌是指用户登录我的网站后获得的令牌我使用 cookie 将其存储在客户端计算机上但仅检查是否有令牌是不够的我需要实际检查令牌是否有效目前这需要我提
如果我访问 UserTransaction 是否意味着我使用 2 阶段提交或 XA？

UserTransaction ut 查找 ut beginTransaction saveToFooDB statelessEjb transactionSupportedMethod 将一些内容保存到 Foo DB saveToFooD
mysql2 gem 出现 Gem::LoadError，但它已经在 Gemfile 中

Gem LoadError Specified mysql2 for database adapter but the gem is not loaded Add gem mysql2 to your Gemfile 加载以下文件时发生此错
使用nodejs通过ssl使用明文密码连接到MariaDB

我正在尝试通过 ssl 连接到 mariadb 实例 var mysql require mysql var conn mysql createConnection user user password password debug tru
如何找到列表的模式？

我有一个清单 List
在 Apache Spark 中，为什么 RDD.union 不保留分区器？

众所周知 Spark中的分区器对任何宽操作都会产生巨大的性能影响因此通常在操作中进行定制我正在尝试以下代码 val rdd1 sc parallelize 1 to 50 keyBy 10 partitionBy new HashP

在 Apache Spark 中，为什么 RDD.union 不保留分区器？

在 Apache Spark 中，为什么 RDD.union 不保留分区器？ 的相关文章

随机推荐

热门标签

在 Apache Spark 中，为什么 RDD.union 不保留分区器？的相关文章