HashPartitioner 是如何工作的？

2024-05-13

我阅读了文档HashPartitioner http://spark.apache.org/docs/1.3.1/api/java/index.html?org/apache/spark/HashPartitioner.html。不幸的是，除了 API 调用之外，没有任何解释。我假设HashPartitioner根据键的哈希值对分布式集进行分区。例如，如果我的数据是这样的

(1,1), (1,2), (1,3), (2,1), (2,2), (2,3)

因此分区器会将其放入不同的分区，相同的键落在同一分区中。但是我不明白构造函数参数的意义

new HashPartitoner(numPartitions) //What does numPartitions do?

对于上面的数据集，如果我这样做，结果会有什么不同

new HashPartitoner(1)
new HashPartitoner(2)
new HashPartitoner(10)

那么如何HashPartitioner实际上工作吗？

好吧，让你的数据集变得更有趣：

val rdd = sc.parallelize(for {
    x <- 1 to 3
    y <- 1 to 2
} yield (x, None), 8)

我们有六个要素：

rdd.count

Long = 6

无分区器：

rdd.partitioner

Option[org.apache.spark.Partitioner] = None

和八个分区：

rdd.partitions.length

Int = 8

现在让我们定义一个小助手来计算每个分区的元素数量：

import org.apache.spark.rdd.RDD

def countByPartition(rdd: RDD[(Int, None.type)]) = {
    rdd.mapPartitions(iter => Iterator(iter.length))
}

由于我们没有分区器，我们的数据集在分区之间均匀分布（Spark 中的默认分区方案 https://stackoverflow.com/q/34491219/1560062):

countByPartition(rdd).collect()

Array[Int] = Array(0, 1, 1, 1, 0, 1, 1, 1)

现在让我们重新分区我们的数据集：

import org.apache.spark.HashPartitioner
val rddOneP = rdd.partitionBy(new HashPartitioner(1))

由于参数传递给HashPartitioner定义我们期望一个分区的分区数量：

rddOneP.partitions.length

Int = 1

由于我们只有一个分区，因此它包含所有元素：

countByPartition(rddOneP).collect

Array[Int] = Array(6)

请注意，随机播放后值的顺序是不确定的。

如果我们使用同样的方式HashPartitioner(2)

val rddTwoP = rdd.partitionBy(new HashPartitioner(2))

我们将得到 2 个分区：

rddTwoP.partitions.length

Int = 2

Since rdd按关键数据分区将不再均匀分布：

countByPartition(rddTwoP).collect()

Array[Int] = Array(2, 4)

因为 with 具有三个键并且只有两个不同的值hashCode mod numPartitions这里没有什么意外的：

(1 to 3).map((k: Int) => (k, k.hashCode, k.hashCode % 2))

scala.collection.immutable.IndexedSeq[(Int, Int, Int)] = Vector((1,1,1), (2,2,0), (3,3,1))

只是为了确认以上内容：

rddTwoP.mapPartitions(iter => Iterator(iter.map(_._1).toSet)).collect()

Array[scala.collection.immutable.Set[Int]] = Array(Set(2), Set(1, 3))

最后与HashPartitioner(7)我们得到七个分区，其中三个非空，每个分区有 2 个元素：

val rddSevenP = rdd.partitionBy(new HashPartitioner(7))
rddSevenP.partitions.length

Int = 7

countByPartition(rddTenP).collect()

Array[Int] = Array(0, 2, 2, 2, 0, 0, 0)

总结和注释

HashPartitioner采用一个定义分区数量的参数
使用以下方法将值分配给分区hash的钥匙。hash函数可能因语言而异（Scala RDD 可能使用hashCode, DataSets使用 MurmurHash 3、PySpark、portable_hash https://github.com/apache/spark/blob/330c3e33bd10f035f49cf3d13357eb2d6d90dabc/python/pyspark/rdd.py#L59-L87).

在像这样的简单情况下，其中 key 是一个小整数，您可以假设hash是一个身份（i = hash(i)).

Scala API 使用nonNegativeMod https://github.com/apache/spark/blob/4e27578faa67c7a71a9b938aafbaf79bdbf36831/core/src/main/scala/org/apache/spark/util/Utils.scala#L1663-L1666根据计算的哈希值确定分区，
如果密钥的分布不均匀，您可能会遇到部分集群空闲的情况
键必须是可散列的。你可以查看我的回答作为 PySpark 的 reduceByKey 的键的列表 https://stackoverflow.com/a/31404405/1560062阅读有关 PySpark 特定问题的信息。另一个可能的问题突出显示HashPartitioner 文档 https://spark.apache.org/docs/1.4.0/api/scala/index.html#org.apache.spark.HashPartitioner:

Java 数组的 hashCode 是基于数组的身份而不是其内容，因此尝试对 RDD[Array[]] 或 RDD[(数组[], _)] 使用 HashPartitioner 将产生意外或不正确的结果。
在 Python 3 中，您必须确保散列是一致的。看异常：应通过 PYTHONHASHSEED 禁用字符串哈希的随机性在 pyspark 中意味着什么？ https://stackoverflow.com/q/36798833/1560062
哈希分区器既不是单射的也不是满射的。可以将多个键分配给单个分区，并且某些分区可以保留为空。
请注意，当前基于哈希的方法在与 REPL 定义的案例类结合使用时在 Scala 中不起作用（Apache Spark 中的案例类相等 https://stackoverflow.com/q/35301998/1560062).
HashPartitioner（或任何其他Partitioner) 打乱数据。除非在多个操作之间重用分区，否则它不会减少要洗牌的数据量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

RDD

partitioning

HashPartitioner 是如何工作的？的相关文章

pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
如果需要，Akka actor 可以从邮箱中删除消息吗？

例如如果我想从队列中删除冗余消息这样当演员收到Connect消息它应该检查它的邮箱并删除其他Connect消息以便只进行一个连接而不是多个连接这样的事情可能吗是的您可以将参与者调度程序配置为具有您选择的任何邮箱因此如果您实现
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo
使用 lift-json 反序列化具有 Map[String,Any] 属性的案例类

几天来我一直在努力解决一些通过 lift json 应该很简单的事情将映射序列化为 JSON 我知道我知道根对象还不能是 List 或 Map 但我愿意暂时包装在一个案例类中但我仍然无法让它工作感谢一些堆栈溢出帮助我已经可以进行
如何最好地处理 Future.filter 谓词不满足类型错误

我喜欢 scala 的类型安全性但我不断遇到的一个运行时错误是 Future filter predicate is not satisfied 我知道为什么会出现此错误只是寻求有关如何最好地解决此错误并优雅地处理它的建议或者也许我做
如何在 scala 中的二维数组上使用 contains 方法

我有一个二维数组我想检查二维数组内是否存在数组我努力了 var arr Array Array 2 1 Array 4 3 var contain arr contains Array 4 3 println contain 这应该打印
如何为每个用户或系统范围配置 Ivy 缓存目录？

我在用SBT http www scala sbt org 作为我构建 Scala 项目的构建工具我的问题是我无法配置 SBT 将依赖项下载到我的用户主目录因此我正在寻找每个用户甚至更好的系统范围设置来告诉 SBT 将 Ivy 缓存
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
发送 FakeRequest 时如何为 akka.stream.Materializer 提供隐式值？

我正在尝试理解下面看到的错误并学习如何修复它 could not find implicit value for parameter materializer akka Stream Materializer val fut Future
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
将括号子集映射到字符

我正在尝试创建一个 Scala 方法该方法将采用一个父括号组表示为字符串然后将每个括号子组映射到不同的字母然后它应该将它们放入它返回的映射中所以基本上我调用以下方法如下所示 val s 2 x 3 6 val map mapPa
单击“发送”按钮事件时，我们可以在哪里获取 xml/元数据格式的表单数据？

我是一个新的 scala 学习者作为要求的一部分我需要将表单数据插入 activemq 队列中以进行提交事件我尝试调试发送方法代码以了解单击 FormRunnerActions scala 类中的发送按钮时我们到底在哪里获取 xml
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne
在 Scala 中实现不区分大小写比较的字符串类

我有许多带有不区分大小写的字段的类我想将这些类的实例放入 HashMap 中并通过不区分大小写的字符串查找它们我不是每次想通过字符串索引实例或通过字符串查找实例时都使用 toLowerCase 而是尝试将此逻辑封装在 CaseInse
视图和流有什么区别？

在Scala 2 8集合框架中有什么区别view and toStream 在视图中每次访问元素时都会重新计算它们在流中元素在求值时会被保留例如 val doubled List 1 2 3 4 5 6 7 8 9 10 view
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2

随机推荐

Windows Azure 远程站点“Microsoft.ACE.OLEDB.12.0”提供程序未在本地计算机上注册[重复]

这个问题在这里已经有答案了以下代码在我的本地开发计算机上可以正常运行但是当我部署它时我收到以下错误消息Azure 远程网站我已经查看了SO答案和谷歌搜索结果但我仍然不清楚我必须在本地计算机上安装什么这样当我将代码推送到Azure
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
您的手机中未安装应用程序

我在模拟器中运行该应用程序它成功运行并且应用程序的图标显示在模拟器菜单中但是当我尝试从模拟器菜单再次运行该应用程序时它不允许我从中运行并显示 Toast 您的手机中未安装应用程序在图像中红色圆形是我的应用程序图标如果您有您的M
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
图像魔法叠加图像

我有两个图像一个是叠加图像比如说具有透明度的图像 A 另一个是图像 B 我必须将叠加图像 A 放在图像 B 上以便通过图像 A 的透明部分可以看到图像 B 的某些部分我还必须根据一些参数移动图像B 我怎样才能用image magic
WebPack 源映射令人困惑（重复文件）

我决定在我今天正在启动的一个新项目上尝试 WebPack 并且我从源映射中得到了非常奇怪的行为我在文档中找不到任何相关信息在浏览 StackOverflow 时也找不到其他人遇到此问题我目前正在查看由以下公司制作的 HelloWorl
Scala 的代码覆盖率工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
FF 和 Webkit 中边框折叠的差异

我有一个包含以下规则的表 table cellspacing 0 cellpadding 0 style width 100 并且单元格具有以下 CSS td padding 4px height 22px border 1px solid
JavaScript 原型继承和 html canvas

我是一名 Ruby 开发人员最终决定认真学习 JavaScript 所以我买了一些书开始深入研究但当我试图理解原型继承时我很快就陷入了困境这本书的例子之一如下给定一个 Shape 其原型有一个绘制方法以及两个子形状一个 Tr
Heroku 上重启后 Better-SQLite3 数据库重置

我有一个 Discord 机器人better sqlite3 https github com JoshuaWise better sqlite3硬币和 XP 数据库直到两周前它一直工作得很好现在每次重新启动后它只会恢复 XP 和硬
支持 API 28(Android Pie) 上的 Android StrongBox 的 Android 智能手机列表

我需要 Android 9 中支持安全元件和 StrongBox 的 Android 手机列表在哪里或如何找到该列表我在 Samsung Galaxy S9 和 AVD Google Pixel XL API 28 上尝试了下面的代码
Java 7u51/7u55 带星号的清单变量

我正在部署一个小程序其中包含清单中的下一个变量 Manifest Version 2 0 Ant Version Apache Ant 1 8 2 Trusted Library true Permissions all permissi
在 TypeScript 中推断函数参数

我正在尝试创建一个类型安全的映射函数不是下面的函数但我坚持让函数参数正确推断 export type Mapper u mapped Mapped u export type Unmapped name string args any
在 ionic 2 应用程序中使用 iframe 播放 YouTube 视频

在 Ionic 2 应用程序中我尝试使用 iframe 嵌入一个 YouTube 视频代码如下所示但是当我导航到该页面时我收到此错误我找不到如何解决这个问题的好答案 XMLHttpRequest 无法加载https google
将 num 的签名键入 double？

我才刚刚开始为你学习 Haskell 以获得伟大的好处并且我在类型类方面遇到了一些麻烦我想创建一个接受任何数字类型并强制其为双精度的函数我的第一个想法是定义 numToDouble Num gt Double 但我认为这不起作用因为
Sublime 2，如何自动关闭HTML标签并将光标放在标签内

我试图弄清楚如何让 Sublime 2 创建以下行为 Type strong Sublime 然后会立即打印 strong strong 然后你的光标将被放置在标签内我觉得它在不超过几个月前自动执行了此操作或者也许我只是产生幻觉或者正
如何用水豚填充日期时间本地字段？

我正在使用 Cocoon 添加记录 ID 看起来像workshop instance sessions attributes 1477654140 start time 目前我正在遍历 DOM 并获取动态生成的 ID 这很好用这样我就可
ASP.NET MVC 3 Razor DisplayFor 委托

我收到此错误模板只能与字段访问属性访问一维数组索引或单参数自定义索引器表达式一起使用这是我的代码自定义 HTML 帮助程序包装 DisplayFor 以便我可以选择模板 public static string DisplayL
仅将 Firesharp 用于 Windows 桌面推送通知

我想在 Windows 桌面应用程序中使用 Firesharp 该应用程序只会接收来自 Firebase 的通知并且不会有任何类型的数据库交互 Firebase Cloud Messaging FCM 是 Firebase 唯一使用的东西
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了

HashPartitioner 是如何工作的？

总结和注释

HashPartitioner 是如何工作的？ 的相关文章

随机推荐

热门标签

HashPartitioner 是如何工作的？的相关文章