Spark中如何按键对RDD进行分区？

2023-11-21

鉴于 HashPartitioner 文档说：

[HashPartitioner] 使用 Java 实现基于哈希的分区对象.hashCode。

说我要分区DeviceData by its kind.

case class DeviceData(kind: String, time: Long, data: String)

分区是否正确RDD[DeviceData]通过覆盖deviceData.hashCode()方法并仅使用哈希码kind?

但考虑到HashPartitioner需要多个分区参数我很困惑是否需要提前知道种类的数量以及如果种类多于分区会发生什么？

如果我将分区数据写入磁盘，读取时它将保持分区状态，这是否正确？

我的目标是打电话

  deviceDataRdd.foreachPartition(d: Iterator[DeviceData] => ...)

并且只有DeviceData的相同的kind迭代器中的值。

只做一个怎么样groupByKey using kind。或其他PairRDDFunctions method.

在我看来，您似乎并不真正关心分区，只是在一个处理流程中获得所有特定类型的内容？

pair 函数允许这样做：

rdd.keyBy(_.kind).partitionBy(new HashPartitioner(PARTITIONS))
   .foreachPartition(...)

但是，使用类似以下内容可能会更安全一些：

rdd.keyBy(_.kind).reduceByKey(....)

or mapValues或其他一些保证您获得整体片段的对函数

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

RDD

Spark中如何按键对RDD进行分区？的相关文章

使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
WSClient - 打开的文件太多

我正在 CentOS 6 上使用 Play Framework 2 4 我的应用程序抛出此异常 java net SocketException Too many open files 我在 Stack Overflow 上搜索了很多主题并
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
如何使用精炼库定义 A 和 B 取决于彼此的类型类？

Problem 我有一个案例类 Passenger 从 A 点出发前往 B 点有效乘客意味着A点不等于B点 Passenger a Int b Int 问题我如何使用设计乘客舱refind https index scala lang
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo
将 Scala AST 转换为源代码

给定一个 Scala AST 有没有办法生成 Scala 源代码我正在研究通过解析分析其他 Scala 源代码来自动生成 Scala 源代码的方法任何提示将不胜感激我已经成功使用Scala 重构 http scala refacto
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
使一个 sbt 配置依赖于另一个配置

sbt 文档显示了如何仅在项目之间声明依赖关系的示例但我确信有方法可以声明一个配置依赖于另一个配置就像测试配置使用编译配置中的类路径一样如何声明我自己的配置以便它依赖于编译配置生成的类路径我更仔细地研究了建议的解决方案然后又出现
什么是 ZIO 错误通道以及如何了解要放入其中的内容？

ZIO https zio dev https zio dev 是一个 scala 框架其核心是ZIO R E A 数据结构及其站点给出了三个参数的以下信息 ZIO The ZIO R E A 数据类型具有三个类型参数 R 环境类型该效
Scala 中的模式匹配是如何在字节码级别实现的？

Scala 中的模式匹配是如何在字节码级别实现的是不是像一系列if x instanceof Foo 构造还是其他什么它对性能有何影响例如给出以下代码来自Scala 示例 http www scala lang org docu

随机推荐

Java：如何同步数组访问以及同步条件下的限制是什么

我有一个 2x2 数组有两个线程在其上运行 java中可以在数组上使用synchronized语句吗锁定是如何工作的 java教程线程说synchronized语句适用于对象所以我不确定它们的意思另一个网站说我可以发表这样的声明 s
中点公式溢出错误

我正在学习算法大o 我只是对此感到好奇指某东西的用途 mid low high 2 通常不鼓励使用二分查找算法来获取中点因为可能会出现溢出错误为什么这会导致发生溢出错误以及如何处理 mid low high low 2 防止这个错
Java中是否可以动态构建多维数组？

假设我们有 Java 代码 Object arr Array newInstance Array class 5 那会跑吗进一步说明如果我们尝试这样的事情会怎样 Object arr1 Array newInstance Array c
包含具有两个不同调用的脚本的原因是什么？

我使用 HTML5 样板并且 jQuery 在 HTML 页面中声明了两次如下所示
ListView 中带有 onListItemClick 的可点击区域的宽度

我正在尝试让 ListView 中的列表项可点击目前它们是可点击的参见我的屏幕截图但它们只能在文本占据的矩形内点击我在用着protected void onListItemClick ListView l View v int po
IE9+和其他浏览器CSS3 ch单位不一致

IE9 claims支持chCSS单元根据定义该单位等于当前字体的 0 ZERO U 0030 字形的高级度量或者更简单地说 0 字形的字符框宽度这种解释似乎适用于 Firefox 10 和 Chrome 27 div styl
具有 Task.Run 性能的 ASP.NET Web API 2 异步操作方法

我正在尝试对几个 ASP NET Web API 2 0 端点进行基准测试使用 Apache bench 其中一种是同步的一种是异步的 Route user userId feeds HttpGet public IEnumerable
用户在 HTML5 画布应用程序中绘制的平滑锯齿线？

我们有一个 HTML5 绘图应用程序用户可以使用铅笔工具绘制线条与基于 Flash 的绘图应用程序相比线条边缘略有锯齿并且显得有些模糊发生这种情况是因为用户在绘图时需要保持线条完全笔直或者算法会感知每个像素偏差并将其投影为锯齿状
如何监视 UWP 项目中的文件更改？

我正在将我的游戏从完整的桌面 net 移植到 UWP 我需要解决的一件事是如何将纹理着色器等实时加载到游戏的 UWP 版本中在桌面版本中我使用 FileSystemWatcher 来执行此操作但 UWP 中不存在 FileSyste
具有堆叠组件的直方图

假设我有一个过去 90 天内每天测量的值我想绘制值的直方图但我想让查看者轻松查看过去 90 天的某些非重叠子集中测量值的累积情况我想通过将直方图的每个条细分成块来做到这一点一大块用于最早的观察一大块用于最近的观察一大块用于最
如何在 ASP.NET 页面上使用子类化控件？

我已经子类化了DropDownList添加特定于我的应用程序的功能 public class MyDropDownList DropDownList 然后在中引用它Web Config 这就是我认为事情开始出错的地方
为什么我的消息在单个 WCF TCP 通道（使用 ConcurrencyMode.Reentrant）上处理无序？

客户端通过单个 WCF 通道从单个线程向服务器发送大量消息客户端使用 BeginMyMethod x b 发送消息因为它不希望在处理消息时阻塞我们打开了可靠的消息传递因为我们不希望丢失任何消息或者让它们出现混乱然而消息是在服务
如何在 Java Swing 中使用鼠标平移图像

我正在创建一个 Java 应用程序允许用户查看图像并使用鼠标平移图像为了实现图像的平移我使用了以下组合mouseClicked and mouseDragged使用 JViewport 的事件大部分代码位于 mouseDragged
jQuery - 匹配具有以特定字符串开头的类的元素

我有几个类似这样的链接 a href class somelink rotate 90 a 如何将函数绑定到具有以开头的类的所有元素rotate 您可以使用以开始像这样的选择器 a class rotate 描述选择符合条件的元素具
如何在 pdf 文档的所有页面上插入背景图像？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我需要 C 中的示例代码来在完成的 pdf 文档的所有页面上插入背景图像我正在使用 iTextSharp 库你可以试试这个 void makeP
如何在点击EditText时打开数字键盘？

我阅读了其他几篇文章并使用 input setInputType TYPE NUMBER FLAG DECIMAL 确实打开了键盘但不是数字键盘 add android inputType 数字添加到 xml 中的 edittext 中
Flask + mod_wsgi 在源代码更改时自动重新加载

有谁知道如何制作mod wsgi当任何模块发生变化时自动重新加载 Flask 应用程序我试过了WSGIScriptReloading On 但没有运气这官方文档有点像熊如果没人知道的话我想我会刺伤它提前致谢另外如果它不会因语法错
Android 工具栏 - 以编程方式更改导航图标的高度和宽度

I want to change height and width of Navigation Icon in black circle in screen shot in Android Toolbar programmatically
删除或替换列名称中的空格

数据框列名称中的空格如何替换为 join date fiscal quarter fiscal year primary channel secondary channel customer count new members revisi
Spark中如何按键对RDD进行分区？

鉴于 HashPartitioner 文档说 HashPartitioner 使用 Java 实现基于哈希的分区对象 hashCode 说我要分区DeviceData by its kind case class DeviceData k

Spark中如何按键对RDD进行分区？

Spark中如何按键对RDD进行分区？ 的相关文章

随机推荐

热门标签

Spark中如何按键对RDD进行分区？的相关文章