Spark 中的循环分区是如何工作的？

2023-11-22

我很难理解 Spark 中的循环分区。考虑以下示例。我将大小为 3 的 Seq 分成 3 个分区：

val df = Seq(0,1,2).toDF().repartition(3)

df.explain

== Physical Plan ==
Exchange RoundRobinPartitioning(3)
+- LocalTableScan [value#42]

现在，如果我检查分区，我会得到：

df
  .rdd
  .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))}
  .toDF("partition_index","number_of_records")
  .show

+---------------+-----------------+
|partition_index|number_of_records|
+---------------+-----------------+
|              0|                0|
|              1|                2|
|              2|                1|
+---------------+-----------------+

如果我对大小为 8 的 Seq 执行相同操作并将其分成 8 个分区，则会出现更严重的偏差：

(0 to 7).toDF().repartition(8)
  .rdd
  .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))}
  .toDF("partition_index","number_of_records")
  .show

+---------------+-----------------+
|partition_index|number_of_records|
+---------------+-----------------+
|              0|                0|
|              1|                0|
|              2|                0|
|              3|                0|
|              4|                0|
|              5|                0|
|              6|                4|
|              7|                4|
+---------------+-----------------+

有人可以解释这种行为吗？据我了解循环分区，所有分区显示〜相同的大小。

（检查 Spark 版本 2.1-2.4）

据我所知ShuffleExchangeExec code，Spark 尝试直接从原始分区中对行进行分区（通过mapPartitions）而不给司机带来任何东西。

逻辑是从随机选择的目标分区开始，然后以循环方法将分区分配给行。请注意，为每个源分区选择“起始”分区，并且可能会发生冲突。

最终的分布取决于许多因素：源/目标分区的数量以及数据框中的行数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

partitioning

Spark 中的循环分区是如何工作的？的相关文章

Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
Scala 和 Python 的通行证

我想知道是否有相当于 python 的 pass 表达式这个想法是编写没有实现的方法签名并编译它们只是为了对某些库原型的这些签名进行类型检查我能够使用以下方法模拟这种行为 def pass A A throw new Excepti
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
@tailrec为什么这个方法不编译为“包含不在尾部位置的递归调用”？

tailrec private def loop V key String V key match case gt loop key 此方法无法编译并抱怨它包含不在尾部位置的递归调用有人可以向我解释一下发生了什么事吗这个错误消息对我来
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
如何使方法通用而不出现“未找到匹配的形状”

除了编写大量样板文件之外我不知道如何克服这个找不到匹配的形状错误要点中说明的基本思想是我有一个非常基本的方法版本有效但非常具体然后是一个采用mapper参数并且更通用也可以工作但特定于一种特定类型然后是第三个版本它采
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

Kafka Streams如何获取kafka headers

我有下面的卡夫卡流代码 public class KafkaStreamHandler implements Processor
Rails ActiveRecord 创建或查找

我正在开发 Rails 4 应用程序在我的 api 的 post 方法中我想根据用户尝试创建的内容查找记录如果它不存在则创建它如果它确实更新它的参数有我编写了一些实际执行此操作的代码但执行起来需要一些时间有没有其他方法可以用
从 SSRS 2005 (VB.NET) 中的字符串中去除 HTML

my SSRS数据集返回一个 HTML 字段例如 b blah blah b i blah i 如何去除所有 HTML 标签必须完成inline VB NET 更改表中的数据不是一种选择找到解决方案 System Text Regul
调整背景图像大小以适合

我试图使背景图像尽可能专业所以我认为最好根据浏览器的大小或分辨率调整它的大小不确定通常使用什么但我认为浏览器大小在这里有意义这个想法是如果查看器屏幕较小则背景图像会变小并且随着屏幕变大图像会扩展以适合其最大尺寸我会根据需要
Phylo BioPython 构建树木

I trying to build a tree with BioPython Phylo module What I ve done so far is this image 每个名称都有一个四位数字后跟和一个数字该数字指的是该序列
动态更改选项卡文本标题

我在 viewpager 下有一个带有四个选项卡的选项卡我想在滑动选项卡时更改文本标题我的问题是我无法分别处理选项卡例如四个选项卡标题是 1 2 3 4 当我滑动时它会显示为 1 9 3 4 或 1 2 9 4 但在我的例子中是 7
从 aov 中提取 p 值

我正在寻找从 R 中的方差分析生成的 p 值这是我正在运行的 test lt aov asq 9 asq 187 summary test Yields Df Sum Sq Mean Sq F value Pr gt F asq 187
如何避免在番石榴中延迟应用Lists.transform？

Map
使用命令输出中引用的条目在 Bash 中创建数组

我在从标准输出形成 bash 数组时遇到问题我把它归结为这个最小的例子 a echo 1 2 3 foo bar echo a 0 1 echo a 1 2 echo a 2 3 echo a 3 foo echo a 4 bar 我相信
在 Julia 中检索 RNG 种子

在 Julia 中全局 RNG 的种子可以设置为 srand SEED 我如何检索全局 RNG 的种子或当前状态例如稍后再来一次目标是在任何给定时间点获取 RNG 的状态并在不同的会话中重新创建它而无需知道初始种子或同时发生的对
关于linux设备驱动中的register_chrdev_region()的问题

我正在学习如何注册内核模块register chrdev region dev t from unsigned count const char name 我注意到无论有没有这个函数我的内核模块都按预期工作我用于测试的代码 first
如何使用 IIS 7.5 更改可以在表单中发布的字段数量？

我们的网络应用程序的管理部分中的某些表单遇到了问题有少数表单包含大量字段范围可以从一个输入字段到数百个我们发现随着这些表单的增长在发布表单时服务器会抛出 500 个错误经过测试我发现服务器可以处理包含 100 个字段的表单
单个单元格的计数器增量

这篇文章源于我的问题将单元定义扩展到单元框架标签我一直在玩CounterIncrements我没有得到我所期望的正如西蒙在对我提到的帖子的回答中所做的那样我们首先生产一个计数器 CellPrint Cell Setting the c
使用 CASE WHEN 在 postgresql 中创建数据透视表的正确方法

我正在尝试在 postgresql 中创建一个数据透视表类型视图并且已经快到了这是基本查询 select acc2tax node acc tax node name tax node rank from tax node acc2ta
如何让 Valgrind 调试器单步执行程序

早上好我正在尝试使用 Valgrind 调试器单步调试程序我的 valgrind 命令行是valgrind tool memcheck leak check full db enable yes MatchUpAcurate exe 我
防止控制台应用程序在未从现有终端调用时关闭？

这类问题有很多变体然而我特别寻求一种方法来防止 Python 中的控制台应用程序在未从终端或其他控制台因为它可能在 Windows 上调用调用时关闭可能发生这种情况的一个示例是双击 py来自 Windows 资源管理器的文件通
使用实体框架的 System.OutOfMemoryException？

我正在尝试使用实体框架保存数十万条记录保存数十万条记录后我收到以下错误系统内存不足异常 My code foreach BibContent objbibcontents in lstBibContent db BibContents
通过 Python3 使用 Selenium 和 WebDriver 切换选项卡时出现“NoSuchWindowException：没有这样的窗口：窗口已关闭”

我有一个表单当我单击它时会在新选项卡中打开当我尝试导航到该新选项卡时我不断收到 NoSuchWindowException 代码非常简单 myframe 是新选项卡中的框架信息最终将插入其中我应该等待其他事情吗 from sele
使用 C# 设置 CPU 的关联性

我已经用 C 创建了一个窗口应用程序现在我想设置该应用程序的 CPU 亲和力我可能有 2 个处理器 4 个处理器 8 个处理器或可能超过 8 个处理器我想使用接口的输入来设置 cpu 关联性我怎样才能做到这一点如何使用Enviro
Spark 中的循环分区是如何工作的？

我很难理解 Spark 中的循环分区考虑以下示例我将大小为 3 的 Seq 分成 3 个分区 val df Seq 0 1 2 toDF repartition 3 df explain Physical Plan Exchange R

Spark 中的循环分区是如何工作的？

Spark 中的循环分区是如何工作的？ 的相关文章

随机推荐

热门标签

Spark 中的循环分区是如何工作的？的相关文章