Spark重新分区落入单个分区

2024-01-30

我正在学习spark，当我使用以下表达式在pyspark shell中测试repartition()函数时，我观察到一个非常奇怪的结果：之后所有元素都落入同一个分区repartition()功能。在这里，我用了glom()了解 rdd 内的分区。我正期待着repartition()打乱元素并将它们随机分布在分区之间。仅当我使用新分区数

在我的测试过程中，如果我设置新的分区数 > 原始分区数，也不会观察到洗牌。我在这里做错了什么吗？

In [1]: sc.parallelize(range(20), 8).glom().collect()
Out[1]:
[[0, 1],
 [2, 3],
 [4, 5],
 [6, 7, 8, 9],
 [10, 11],
 [12, 13],
 [14, 15],
 [16, 17, 18, 19]]

In [2]: sc.parallelize(range(20), 8).repartition(8).glom().collect()
Out[2]:
[[],
 [],
 [],
 [],
 [],
 [],
 [2, 3, 6, 7, 8, 9, 14, 15, 16, 17, 18, 19, 0, 1, 12, 13, 4, 5, 10, 11],
 []]

In [3]: sc.parallelize(range(20), 8).repartition(10).glom().collect()
Out[3]:
[[],
 [0, 1],
 [14, 15],
 [10, 11],
 [],
 [6, 7, 8, 9],
 [2, 3],
 [16, 17, 18, 19],
 [12, 13],
 [4, 5]]

我使用的是spark版本2.1.1。

恭喜！你刚刚重新发现SPARK-21782 https://issues.apache.org/jira/browse/SPARK-21782 - 当 numPartitions 是 2 的幂时，重新分区会产生偏差:

目前，重新分区（shuffle-enabled coalesce）的算法如下：

对于每个初始分区索引，生成位置为 (new Random(index)).nextInt(numPartitions) 然后，对于初始分区索引中的元素号 k，将其放入新分区位置 + k（模 numPartitions）。

因此，本质上，元素大致均匀地分布在 numPartitions 个存储桶上 - 从编号为position+1 的存储桶开始。

请注意，为每个初始分区索引创建一个新的 Random 实例，并具有固定的种子索引，然后将其丢弃。因此，对于世界上任何 RDD 的每个索引来说，位置都是确定的。此外，nextInt(bound) 实现有一个特殊情况，即bound 是2 的幂，这基本上是从初始种子中获取几个最高位，仅进行最小的加扰。

PySpark 使情况变得更糟，因为它使用批处理序列化器 https://github.com/apache/spark/blob/b2ce17b4c9fea58140a57ca1846b2689b15c0d61/python/pyspark/rdd.py#L2102默认批量大小等于 10，因此每个分区上的项目数量较少，所有项目都会被打乱到相同的输出。

好消息是，它是Spark 2.3 中已解决 https://github.com/apache/spark/commit/77d046ec47a9bfa6323aa014869844c28e18e049谢谢谢尔盖·谢列布里亚科夫 https://github.com/megaserg.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Spark重新分区落入单个分区的相关文章

获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

随机推荐

Python，确定字符串是否应转换为 Int 或 Float

我想将字符串转换为最严格的数据类型 int 或 float 我有两个字符串 value1 0 80 this needs to be a float value2 1 00 this needs to be an integer 在Pyth
将多个事件分组到单个 ics 文件中（icalendar 流）

我想根据 RFC 将多个事件分组到单个 ICS 文件 iCalendar 流中这是可以做到的但我不知道如何做到谁能帮助我或给我一个例子 rfc 是这样说的但是多个 iCalendar 对象可以按顺序分组一起在 iCalendar
为什么文档指示 CALayer 动画必须位于 UIView 动画块中？

我目前正在阅读苹果的核心动画指南 https developer apple com library mac documentation Cocoa Conceptual CoreAnimation guide CreatingBasicA
如何更改启动屏幕大小？

我在 C 上使用 WPF 我添加了一个 png图像并将其配置为启动屏幕这个png文件的分辨率是1100x800像素问题是我的应用程序将支持许多分辨率的屏幕所以这个尺寸的启动屏幕对于小屏幕如 1366x768 屏幕来说太大了如果我
注意：未定义的偏移量：0 in

我收到这个 PHP 错误这是什么意思 Notice Undefined offset 0 in C xampp htdocs mywebsite reddit vote tut src votes php on line 41 从这段代码
在 angular2 的一个组件中添加多个 templateUrl

angular2 允许使用反引号编写多行 html 代码但是当使用 templateUrl 时我不知道如何添加多个 html 文件当我尝试这个时 Component selector my app template h1 view1
将内部带有字节数组的结构传递给互操作方法

我遇到一种情况必须将结构传递给 C 方法在我的 C 文件中声明为 extern 然而这个结构相当复杂我已经成功地使用了 AllocHGlobal 的方法但我想了解是否可以通过仅传递对结构的引用来使其以这种方式工作 StructLay
Android - 创建适配器时出现 NullPointerException

我正在为列表视图创建一个数组适配器一切正常我有 2 个片段操作栏顶部有 2 个按钮可在这 2 个片段之间进行更改我的问题是如果我在这些frag之间移动得太快当我打开fragOne 切换到fragTwo 然后快速移回fragOn
LinearLayout 留下太多空白。为什么？

我正在编写一个 Android 应用程序帮助小孩子学习数学它向用户提出一些问题用户会回答这些问题如果他她全部答对将获得奖品现在我需要在中告诉用户这一点ResultsActivity 它是这样的
Windows 窗体：播放声音，但不是从头开始

我想在我的设备中播放曲目 wav 文件 Windows Forms Application 但我不希望它从头开始播放而是从曲目中的某个点开始播放假设 10 秒从头开始播放曲目没有问题 private void playSimpleSo
OpenCV 错误：Python 中的未知错误代码 -49

我正在尝试使用 cv2 在 python 3 6 中学习人脸检测我按照书上给出的src进行操作我已经安装了opencv python 3 2 0 by pip xml 和 jpg 文件都与 python 代码位于同一路径中 from n
拉拉维尔。如果数据库正在播种，则禁用观察者方法

我的用户模型有一个观察者在我的观察者 gt 创建的事件中我有一些代码 public function created User user sendEmail 因此我们的想法是当创建用户时系统将向用户发送帐户已创建的电子邮件通知问题
如何使用 mvn site:site 生成站点？

我想用mvn生成一个站点但是我无法配置它来生成index html 我可以运行不同的报告例如 mvn javadoc javadoc generates target site apidocs mvn cobertura cobertu
如何处理 UI 的 Lambda/API 网关的 Cognito 身份验证重定向？

当我进入 Cognito 身份验证页面时 https example auth us east 1 amazoncognito com login response type token client id xxxxxxxxxxxxxxxx
Mongodb：$in 运算符与大量单个查询

我知道 MongoDB 能够每秒处理大量请求但假设我必须根据给定的 id 查询集合的大量文档什么听起来更好在 id 属性上使用我想要获取的所有 id 创建 in 或者循环 findOne 查询我肯定会使用 in 查询并提供 ids
如何从 SqlAlchemy 创建和恢复备份？

我正在编写一个 Pylons 应用程序并尝试创建一个简单的备份系统其中每个表都被序列化并压缩成一个文件供管理员下载并在发生不良情况时用于恢复应用程序我可以使用以下命令很好地序列化我的表数据SqlAlchemy 序列化器 https
如何通过 JavaScript/JQuery 将 HTML 文档添加到
中？

如何将 HTML 文档添加到 div div 通过 JavaScript JQuery 这就是我到目前为止所拥有的 emailBodyIninclude html
Azure Functions - 事件中心不触发函数

我有一个 Azure 基础架构 2 个 HTTP 函数 gt 事件中心 gt 2 个函数 gt 表存储因此两个 http 函数将消息发送到事件中心以及两个由事件中心中的消息触发的函数其中之一将消息保存在表存储中基础结构每天由 Azu
如何寻址 OData Url 中使用复合身份密钥的实体？

我有一个实体订单项具有OrderId and 产品编号整数字段这两个字段构成身份密钥主密钥对于这张表我想用OData Web API通过服务公开此类实体并能够选择订单项目他们的实例复合ID 的格式应该是什么URL 是否有处理此类场景的
Spark重新分区落入单个分区

我正在学习spark 当我使用以下表达式在pyspark shell中测试repartition 函数时我观察到一个非常奇怪的结果之后所有元素都落入同一个分区repartition 功能在这里我用了glom 了解 rdd 内的分区

Spark重新分区落入单个分区

Spark重新分区落入单个分区 的相关文章

随机推荐

热门标签

Spark重新分区落入单个分区的相关文章