Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

2024-02-01

如何有效拆分RDD[T] into a Seq[RDD[T]] / Iterable[RDD[T]] with n元素并保留原始顺序？

我希望能够写出这样的东西

RDD(1, 2, 3, 4, 5, 6, 7, 8, 9).split(3)

这应该会导致类似的结果

Seq(RDD(1, 2, 3), RDD(4, 5, 6), RDD(7, 8, 9))

Spark有提供这样的功能吗？如果不是，什么是实现这一目标的高效方法？

val parts = rdd.length / n
val rdds = rdd.zipWithIndex().map{ case (t, i) => (i - (i % parts), t)}.groupByKey().values.map(iter => sc.parallelize(iter.toSeq)).collect

看起来不是很快。。

从技术上讲，您可以按照您的建议进行操作。然而，在利用计算集群来执行大数据的分布式处理的背景下，它确实没有意义。它首先违背了 Spark 的整个观点。如果您执行 groupByKey 然后尝试将它们提取到单独的 RDD 中，那么您实际上是将 RDD 中分布的所有数据拉到驱动程序上，然后将每个数据重新分布回集群。如果驱动程序无法加载整个数据文件，它也将无法执行此操作。

您不应将大型数据文件从本地文件系统加载到驱动程序节点上。您应该将文件移动到 HDFS 或 S3 等分布式文件系统上。然后，您可以通过以下方式将单个大数据文件加载到集群上：val lines = SparkContext.textFile(...)成一个 RDD 行。当您执行此操作时，集群中的每个工作线程将仅加载文件的一部分，这是可以完成的，因为数据已经分布在分布式文件系统中的集群中。

如果您随后需要将数据组织成对数据的功能处理很重要的“批次”，则可以使用适当的批次标识符来键入数据，例如：val batches = lines.keyBy( line => lineBatchID(line) )

然后，每个批次可以缩减为批次级摘要，并且这些摘要可以缩减为单个总体结果。

为了测试 Spark 代码，可以加载small将数据文件样本保存到一台机器上。但是，当涉及完整数据集时，您应该利用分布式文件系统与 Spark 集群结合来处理这些数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序的相关文章

如何初始化子类型中特征的值？

如果我写 trait T val t 3 val u 1 t Nil class U extends T override val t 2 new U u 它表明了这一点 List 1 0 我应该如何更改上面的代码以使其显示以下内容 Lis
如何设置 jacoco4sbt 来处理 Play 中主模块和子模块中的类？

我有一些问题要解决雅可可4sbt https github com sbt jacoco4sbt正在使用我的 Play 2 3 4 项目我的项目由 3 个子模块组成 common api and frontend并且没有代码app根文件夹
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
如何从java程序的main方法调用Scala程序的main方法？

假设我在 Java 项目中有一个 Scala 类和一个 Java 类 scala 类如下所示 class Sam def main args Array String Unit println Hello 如何从同一项目中存在的 java
错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下

随机推荐

将 C++ 函数传递给 emscripten 中的 javascript 函数

我正在学习 emscripten 并试图更好地理解它据我了解它的主要设计用途是将现有的 C C 代码移植到 Web 客户端浏览器并从 JavaScript 调用 C C 代码但我想知道是否可以使用 C 和 Emscripten 来
函数是对象吗？为什么console.log不显示可检查的对象？

var foo function foo a an attribute set attribute to prove foo is an object console log foo log shows function 我以为函数 foo
如何在工作站主机上使用自定义 Eclipse Che 堆栈？

我想知道在工作站上运行 Che 时使用自定义 Eclipse Che 堆栈的便捷方法是什么我非常喜欢 Eclipse Che 的概念为不同的开发环境提供单独的 Che 工作区 Docker 容器并安装相应的工具工作区是从 Che 堆
测试 C 宏的值是否为空

我需要编写一些代码来验证宏是否已定义但为空没有任何值测试不需要在编译时进行我正在尝试写 if funcprototype MY WARN funcprototype is empty endif 该代码无法编译因为funcproto
(.bss+0x0)：代理的多重定义

我有这段用于自动化机器人的代码它使用 Player 中的一些代理类 Player 是一个用于机器人编程的开源软件我使用以下命令编译了两个 cpp 文件 g c Wall navigation cpp pkg config cflags
如何设置 RestKit 0.10.0 来识别“错误”和“错误”消息？

早在 0 10 0 之前错误和错误消息都可以在 RestKit 中正常工作我发现在 0 10 0 中您可以设置错误映射的 rootKeyPath objectManager mappingProvider errorMappin
在 ScrollView 中滚动 EditText

我有一个讨厌的问题我有EditText 8行内ScrollView 当我尝试滚动文本时EditText它的行为并不稳定有时它会滚动有时它不会获得焦点这是我的布局文件为了让我的问题更清楚
php foreach 遍历一个数组并对该数组进行赋值

我想在 foreaching 时向数组添加一个值 foreach array as cell if cell type type list cell list anObject error log print r cell TRUE 0 e
Azure API 管理 - API 端点域与实际 API URL

I have setup an Azure API Management Service and its configured on a custom domain Under the API Management Service s Co
将 svg 文件导入 matplotlib 图形

我喜欢生成高质量的绘图因此尽可能避免光栅化图形我正在尝试将 svg 文件导入到 matplotlib 图上 import matplotlib pyplot as plt earth plt imread gfx earth svg f
AES 与 Blowfish 文件加密

我想加密一个二进制文件我的目标是防止任何人读取没有密码的文件具有相同密钥长度的 AES 或 Blowfish 哪个是更好的解决方案我们可以假设攻击者拥有大量资源软件知识金钱来破解文件 ProbablyAES Blowfish
将 RoR Docker 映像部署到 Azure 后出现“无法打开与 localhost:35729 的 TCP 连接”错误

问题说明我有一个 Ruby on Rails 应用程序我已经能够对其进行 Dockerize 它在我的电脑上运行良好当我将其推送到 Azure 时出现以下错误 Puma caught this error Failed to ope
Azure Devops 的工件页面中显示意外错误

我想开始使用我的订阅在 Azure Devops 中创建源但是当我单击 Artifacts 菜单时出现此错误每个人都会遇到这种情况吗所以我猜这是他们试图实现的预览功能的问题所以我们需要暂时将其关闭用户设置 gt 预览功能 gt
JavaFX + Hibernate(JPA) 持久化 + Derby DB

我正在开发一个 Java 桌面应用程序并且对使用 JavaFX 非常感兴趣我计划使用 MVC 架构因为我对 Java EE 和 MVC 模型有一些经验我想将数据存储在嵌入式 derby 数据库中并使用 Hibernate 作为持久层
无法在 Interface Builder 中连接 IBOutlet

我有一个奇怪的经历我创建任何类型的 iPhone 应用程序添加带有 Xib 文件的 UIViewController 我可以使用控件编辑 xib 文件并在运行时查看它们的渲染效果现在我尝试向控制器添加一些 IBOutlet 因此我将
C# 中是否有与此 Java 代码等效的代码？

public class ThreadTest public static void main String args Runnable runnable new Runnable Override public void run Code
Go 中的旋转数组

这是一个 LeetCode 问题 189 旋转数组 https leetcode com problems rotate array description 给定一个数组将数组向右旋转 k 步其中 k 是非负数示例1 输入 1 2
为什么使用 jQuery(selector).get(0) 而不是 jQuery(selector)[0] 来获取 DOM 元素？

使用 jQuery 有什么好处吗 selector get 0 over selector 0 如果我只想获取 jQuery 数组中的第一项作为 DOM 元素 HTML
使用子模块配置 Android 项目以与 sonarqube gradle 插件一起使用的正确方法是什么？

使用子模块配置 Android 项目以与 sonarqube gradle 插件一起使用的正确方法是什么谷歌不是我的朋友但我可能错过了一些基本的东西我搜索与 android 构建目录和子模块相关的 sonarqube 问题没有有用的
Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

如何有效拆分RDD T into a Seq RDD T Iterable RDD T with n元素并保留原始顺序我希望能够写出这样的东西 RDD 1 2 3 4 5 6 7 8 9 split 3 这应该会导致类似的结果 Seq R

Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序 的相关文章

随机推荐

热门标签

Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序的相关文章