如何使用RDD API反转reduceByKey的结果？

2024-04-04

我有一个 (key, value) 的 RDD，我将其转换为 (key, List(value1, value2, value3) 的 RDD，如下所示。

val rddInit = sc.parallelize(List((1, 2), (1, 3), (2, 5), (2, 7), (3, 10)))
val rddReduced = rddInit..groupByKey.mapValues(_.toList)
rddReduced.take(3).foreach(println)

这段代码给了我下一个 RDD ： (1,列表(2, 3)) (2,列表(5, 7)) (3,列表(10))

但现在我想从我刚刚计算的 rdd（rddReduced rdd）返回到 rddInit。

我的第一个猜测是实现键和列表中每个元素之间的某种叉积，如下所示：

rddReduced.map{
  case (x, y) =>
    val myList:ListBuffer[(Int, Int)] = ListBuffer()
    for(element <- y) {
      myList+=new Pair(x, element)
    }
    myList.toList
}.flatMap(x => x).take(5).foreach(println)

通过这段代码，我得到了初始 RDD 结果。但我不认为在 Spark 作业中使用 ListBuffer 是一个好的做法。还有其他方法可以解决这个问题吗？

我很惊讶没有人提供 Scala 的解决方案用于理解（这被“脱糖”为flatMap and map在编译时）。

我不经常使用这种语法，但是当我使用时......我发现它非常有趣。有些人更喜欢理解而不是一系列flatMap and map，特别是。用于更复杂的转换。

// that's what you ended up with after `groupByKey.mapValues`
val rddReduced: RDD[(Int, List[Int])] = ...
val r = for {
  (k, values) <- rddReduced
  v <- values
} yield (k, v)

scala> :type r
org.apache.spark.rdd.RDD[(Int, Int)]

scala> r.foreach(println)
(3,10)
(2,5)
(2,7)
(1,2)
(1,3)

// even nicer to our eyes
scala> r.toDF("key", "value").show
+---+-----+
|key|value|
+---+-----+
|  1|    2|
|  1|    3|
|  2|    5|
|  2|    7|
|  3|   10|
+---+-----+

毕竟，这就是我们享受 Scala 灵活性的原因，不是吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

RDD

如何使用RDD API反转reduceByKey的结果？的相关文章

如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在scala 2.13中，为什么有时无法显式调用类型类？

这是 Shapeless 2 3 3 中的一个简单示例 val book author gt gt Benjamin Pierce title gt gt Types and Programming Languages id gt gt 2
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
如何执行仅匹配正则表达式的测试？

在 sbt 0 10 1 中我经常使用test only缩小我的测试数量 sbt gt test only com example MySpec 但是我想缩小范围以便只运行名称描述与正则表达式匹配的测试是否有一些语法可以实现这样的
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
IntelliJ IDEA 不会从 SBT 项目加载 Lift 库

我通过创建了一个空白项目sbt使用最基本的指南具体来说 gt cd xyz gt sbt here we create a new project w Scala 2 8 1 gt lift is org lifty lifty 1 6
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr

随机推荐

在 MySQL 的一个查询中使用不同值更新多行

我试图了解如何用不同的值更新多行但我只是不明白解决方案无处不在但对我来说似乎很难理解例如 1 个查询中有 3 个更新 UPDATE table users SET cod user 622057 date 12082014 WHER
Application.LoadComponent 找不到资源

我的项目中有一个 xaml 文件位于Ns1 Ns2 myfile xaml 它的构建操作设置为Page 使用自定义工具MSBuild Compile 我正在尝试在静态构造函数中加载此文件 namespace Ns1 Ns2 interna
如何使用 LINQ 合并两个列表？

如何使用 LINQ 合并两个列表如下所示 class Person public int ID get set public string Name get set public Person Merge Person p return
如何检测字符串是否是Base64Encoded？

检测字符串是否是 Base64Encoded 的最佳方法是什么使用 Delphi 你能做的最好的事情就是尝试解码它如果解码失败则输入未经过 Base64 编码如果字符串成功解码则输入might已经经过base64编码
SOAP suds 和可怕的模式 Type Not Found 错误

我正在使用最新版本的肥皂水 https fedorahosted org suds https fedorahosted org suds 第一次我在第一步就停滞了 suds TypeNotFound Type not found sch
使用 Maven，如何运行特定测试？

我的项目中有数千个单元测试我想选择其中一个或几个从命令行运行执行此操作的命令是什么您可以通过传递以下内容来运行类中的所有测试 Dtest
Symfony2：加载样式表但未在 NGINX 上应用，导致错误页面损坏

我刚刚安装了一个全新且干净的 Symfony 应用程序我使用 NGINX 作为我的网络服务器样式表在 devtools 网络选项卡中不显示 http 404 错误代码我可以在预览选项卡中正确看到它们的内容示例图片有人遇到过这样的问
Eclipse 中的 Scala 执行时间

当我从 Eclipse 运行 Scala 程序时出现了一些可疑的情况我运行一个 App 对象运行需要 7 8 秒实际执行时间用对象中的 System nanoTime 计时当我从命令行运行相同的 class 文件时需要 2 5
从 json_encode($phpArray) 访问 JSON 对象值

我是 JSON Javascript 新手遇到了这种性质的问题在我的 php 脚本中我将 php 数组传递给 javascript 如下所示 echo img src misc arrow right png 在我的 JavaScri
有没有用于集成复杂功能的 Haskell 库？

如何在 Haskell 中对复杂的复值函数进行数值积分有现成的库吗数字工具 http hackage haskell org package numeric tools仅在卷轴上运行我知道在复平面上只有线积分所以我感兴趣的界面是这样
无法压缩分区数量不等的 RDD

现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的
NodeJS 模块与类

对我来说类与 NodeJS CommonJS 模块非常相似您可以拥有许多它们它们可以重复使用它们可以互相使用并且通常每个文件一个是什么让模块与类如此不同使用它们的方式不同命名空间的差异也很明显除此之外它们对我来说似乎非常
PyQt_Fit：无法导入名称路径

我正在尝试使用 PyQt Fit 我从 pip install pyqt fit 安装了它但是当我导入它时它不起作用并显示以下消息 ImportError Traceback most recent call last
使用 Bouncy Castle 在 Java 中复制“openssl smime”？

我手上有个问题我不懂 Java 的同事正在使用 OpenSSL 命令对文件进行签名如下所示 openssl smime binary sign certfile WWDR pem signer passcertificate pem i
.fit() 层的 shuffle = 'batch' 参数如何在后台工作？

当我使用以下方法训练模型时 fit 层的参数 shuffle 预设为 True 假设我的数据集有 100 个样本批量大小为 10 当我设置shuffle True然后 keras 首先随机选择样本现在 100 个样本具有不同的顺序根据
在 Android 应用程序中查看 MS Office 文件

我正在尝试查看应用程序中的文件例如音频视频 PDF 等我已经成功地做到了这一点现在我正在尝试查看 Microsoft Office 文件例如 doc docx xls 和 ppt 在android中有什么办法可以做到这一点比如调
ViewModelProviders 无法在我的片段中工作

这就是我正在尝试做的事情 Set an ArrayListFragment 内的对象从观察者处获取该数组FragmentActivity容器承载所有片段的活动所以我所做的如下首先我创建了SharedViewModel我将从哪里设置
GTK+ CSS 一键式

如何在 GTK 中为一个按钮设置颜色 GtkButton button8 border radius 20 border width 1 1 1 1 font Sans 16 color black background image gtk
使用从 csv 文件读取的矩阵中的 corrplot 函数时，“dimnames”[2] 的长度不等于数组范围

我想从 csv 文件读取数据将其保存为矩阵并将其用于可视化 data lt read table Desktop Decision Tree cor test csv header F sep data V1 V2 V3 V4 V5 V6
如何使用RDD API反转reduceByKey的结果？

我有一个 key value 的 RDD 我将其转换为 key List value1 value2 value3 的 RDD 如下所示 val rddInit sc parallelize List 1 2 1 3 2 5 2 7 3 1

如何使用RDD API反转reduceByKey的结果？

如何使用RDD API反转reduceByKey的结果？ 的相关文章

随机推荐

热门标签

如何使用RDD API反转reduceByKey的结果？的相关文章