Spark 中的默认分区方案

2024-04-25

当我执行以下命令时：

scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist()
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22

scala> rdd.partitions.size
res9: Int = 10

scala> rdd.partitioner.isDefined
res10: Boolean = true


scala> rdd.partitioner.get
res11: org.apache.spark.Partitioner = org.apache.spark.HashPartitioner@a

它说有 10 个分区，分区是使用HashPartitioner。但是当我执行以下命令时：

scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4)
...
scala> rdd.partitions.size
res6: Int = 4
scala> rdd.partitioner.isDefined
res8: Boolean = false

它说有4个分区，并且未定义分区器。那么，Spark 中的默认分区方案是什么？ / 第二种情况下数据如何分区？

您必须区分两种不同的事物：

分区是根据键的值在分区之间分配数据，该值仅限于PairwiseRDDs (RDD[(T, U)]）。这会在分区和可以在给定分区上找到的键集之间创建关系。
分区是将输入拆分为多个分区，其中数据简单地分为包含连续记录的块以实现分布式计算。确切的逻辑取决于特定的源，但它要么是记录数，要么是块的大小。

的情况下parallelize数据使用索引均匀分布在分区之间。的情况下HadoopInputFormats (like textFile）这取决于像这样的属性mapreduce.input.fileinputformat.split.minsize / mapreduce.input.fileinputformat.split.maxsize.

所以默认的分区方案就是无，因为分区并不适用于所有 RDD。对于需要分区的操作PairwiseRDD (aggregateByKey, reduceByKey等）默认方法是使用哈希分区。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

partitioning

Spark 中的默认分区方案的相关文章

在 Windows 上安装 Apache Spark

我需要安装阿帕奇火花 http spark apache org 在 Windows 机器上根据文档我应该在我的机器上安装 sbt 并覆盖其默认选项以使用最大 2G RAM 经过多次尝试后我决定选择 maven 我覆盖了默认选项以使用
Apache Spark 中的混洗与非混洗合并

在将 RDD 写入文件之前执行以下转换时它们之间有什么区别合并 1 随机播放 true 合并 1 随机播放假代码示例 val input sc textFile inputFile val filtered input filter
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Scala 和 Spark：如何浏览图像？

我有一些图像的二进制文件我想遍历它们分配像素集群的每个节点必须获取与另一个节点的像素不同的一组像素的 RGB 并将这些 RGB 存储到斯卡拉集合我在用SparkContext binaryFiles但我不知道如何让 Apache S
Spark 使用自定义架构读取镶木地板

我正在尝试使用自定义架构导入镶木地板格式的数据但它返回类型错误 option 缺少 1 个必需的位置参数值 ProductCustomSchema StructType StructField id sku IntegerType T
优化spark sql中分区数据写入S3

我在每个 Spark 作业运行中从 HDFS 读取大约 700 GB 的数据我的工作读取这些数据过滤大约 60 的数据将其分区如下 val toBePublishedSignals hiveCtx sql some query toB
如何加入数据框（来自数据集的集合）？

我正在寻找并找出最好的加入方式nSpark 数据帧 Example List df1 df2 df3 dfN 哪里都df有一个我可以参加的约会递归像这样 List df1 df2 df3 dfN reduce a b gt a join
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐

随机推荐

如何使用 Web3.js 或 Ethers.js 强制传输 NFT

我正在尝试构建一个应用程序其中一部分涉及将 NFT 从我的帐户转移到用户的帐户以前我使用 Moralis 来完成此任务但这段代码抛出了一个错误 Error Contract with a Signer cannot override
如何在 Javascript 中从 Firefox 剪贴板获取内容

我非常沮丧地在我的 React 应用程序上从剪贴板进行粘贴 I used navigator clipboard readText 在 Chrome 浏览器上完美运行但它在我最新的 Firefox 浏览器上不起作用我尝试搜索SO 但与之
Spring Data Redis - Lettuce连接池设置

尝试在 spring data redis 环境中设置 Lettuce 连接池下面是代码 Bean LettuceConnectionFactory redisConnectionFactory GenericObjectPoolConf
Gulp - 术语“gulp”未被识别为 cmdlet 的名称

当我开始一个新项目并创建一个新的 gulpfile 时开始出现这个随机错误每当我跑步时我都会得到它这不仅发生在这个项目上而且已经开始发生在所有其他项目上我读到环境变量可能存在问题所以我更新了这些变量我最近还运行了 ruby 安
在 javascript 中格式化日期直至毫秒

我们正在使用来自 Microsoft 的以下 js 库https ajax aspnetcdn com ajax 4 0 1 MicrosoftAjax js https ajax aspnetcdn com ajax 4 0 1 Micr
Angular 2 --aot 导致 AnimationEntryMetadata 失败

我的代码可以正常工作ng build and ng build prod但是当我将 oat 添加到命令中时它会失败并出现以下错误 Uncaught Error Module build failed Error C Users drem
Google 气泡图自定义工具提示列不呈现

我正在尝试将自定义工具提示添加到气泡图中以替换默认的工具提示我已按照文档网站的说明进行操作 here https developers google com chart interactive docs customizing tool
MultipartFile 文件名中的特殊字符转换为？在春季启动

我想知道为什么 spring boot 将 MultiPartFile 文件名特殊字符转换为例如 pdf 转换为 pdf 我需要配置 Spring 来禁用此行为吗我已经检查了我的 jvm 配置中的 file encoding 它已经设置
DRY：如何在 Symfony2 项目的多个实体中使用此代码？特质？

我有一段重复的代码将在我的 Symfony2 项目中的多个实体中使用因此应用某种 DRY 就可以了当然如果可能的话我正在考虑PHP 特性 http php net manual en language oop5 traits php
如何在M1 arm64架构上安装PyQt5？

我有一台 M1 mac 但我注意到每当本机 python 运行任何自动化脚本如 PyAutoGui 时它都会逐渐变得越来越慢几乎就像受到了限制一样我用 Miniforge3 创建了一个能够利用 Apple 芯片的环境使脚本运行得
如何制作进度条

如何在 html css javascript 中制作进度条我真的不想使用Flash 可以在这里找到类似的内容 http dustincurtis com about html http dustincurtis com about ht
缩放 ImageView 的图像，同时将中心点保持在同一位置

我已将预缩放位图设置为 ImageView 的源然后我读了矩阵ImageView并通过以下方式移动 ImageView 的位图matrix postTranslate shiftX shiftY 现在我想放大缩小图像同时保持中心Ima
Android Volley POST Json 到服务器

我正在使用 Volley 在 Android 设备和网络服务器之间传输数据我发现有关将数据列表发送到服务器的问题例如我的类将生成如下数据集 1 1 aID 5 2 aID 5 3 aID 5 4 aID 5 2 1 bID 3 2 b
ArrayLists 比数组慢 2 倍

我正在测试一种分子动力学算法该算法除其他外还有一个 Particle 类由9 双精度数组存储粒子分量 3D 环境中的速度力和位置我使用 5 个输入大小测试算法 Size MB Time s 0 06 0 36 fits in ca
将浏览器配置文件传递给 docker 容器内的 selenium 的正确方法是什么？

我需要启动selenium inside docker容器将浏览器配置文件传递给很重要webdriver Here s docker compose version 2 services worker main build app vol
facebook-android-sdk 错误：发布共享对话框需要publish_actions

我需要对我的应用程序进行publish actions才能在用户墙中发布但它被拒绝了因为据说 Facebook不需要publish actions 但我尝试使用共享对话框通过以下代码共享图片 SharePhoto photo new
Apache Spark 中的线性回归给出错误的截距和权重

对 y 2 x1 3 x2 4 的虚拟数据集 y x1 x2 使用 MLLib LinearRegressionWithSGD 会产生错误的截距和权重实际使用的数据是 x1 x2 y 1 0 1 6 3 2 0 2 8 6 3 0 3 1
通过 Phonegap 连接到 HTTP 服务器

我有一个服务器组件它通过 HTTP 连接到远程服务器并获得一些响应如果我使用 Android 版 Phonegap 我可以连接到 java 插件中的此类服务器端代码吗您可以使用 javascript 的 xmlHttpRequest
如何在 C# 中异步读取结束进程输出？

我在 C 中异步读取一个进程的输出时遇到问题我在这个网站上发现了一些其他类似的问题但它们并没有真正帮助我这是我所做的制定新流程设置启动信息文件名参数 CreateNoWindow true UseShellExecute fa
Spark 中的默认分区方案

当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s

Spark 中的默认分区方案

Spark 中的默认分区方案 的相关文章

随机推荐

热门标签

Spark 中的默认分区方案的相关文章