可以使用reduceBykey来更改类型和组合值-Scala Spark吗？

2024-03-27

在下面的代码中，我尝试组合值：

val rdd: org.apache.spark.rdd.RDD[((String), Double)] =
    sc.parallelize(List(
      (("a"), 1.0),
      (("a"), 3.0),
      (("a"), 2.0)
      ))

val reduceByKey = rdd.reduceByKey((a , b) => String.valueOf(a) + String.valueOf(b))

reduceByValue应该包含 (a , 1,3,2) 但收到编译时错误：

Multiple markers at this line - type mismatch; found : String required: Double - type mismatch; found : String 
 required: Double

什么决定了reduce函数的类型？类型不能转换吗？

我可以用groupByKey达到相同的结果但只是想了解reduceByKey.

不，给定一个 rdd 类型RDD[(K,V)], reduceByKey将采用类型的关联函数(V,V) => V.

如果我们想应用减少将值的类型更改为另一种任意类型，那么我们可以使用aggregateByKey:

def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)

使用zeroValue和seqOp函数，它在地图端提供类似折叠的操作，而关联函数combOp结合了结果seqOp到最终结果，就像reduceByKey 所做的那样。正如我们从签名中可以看出的，虽然集合值是类型V的结果aggregateByKey将是任意类型U

应用到上面的例子中，aggregateByKey看起来像这样：

rdd.aggregateByKey("")({case (aggr , value) => aggr + String.valueOf(value)}, (aggr1, aggr2) => aggr1 + aggr2)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

RDD

可以使用reduceBykey来更改类型和组合值-Scala Spark吗？的相关文章

实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
运行 JAR 时“JCE 无法验证提供者 BC”

在我的 scala 项目中我使用 org bouncycastle bcprov jdk14 1 51 用于密码学如果它在 Scala IDE 中测试我的项目它工作得很好但是一旦我制作了一个 JAR 并尝试通过以下方式运行它java
结构化 scala 案例类的自定义 json 序列化

我有一些用于往返 scala 案例类的工作 jackson scala 模块代码 Jackson 对于平面案例类非常有用但是当我制作一个包含其他案例类列表的案例时我似乎需要很多代码考虑 abstract class Message c
Scala SBT 和 JNI 库

我正在编写一个简单的应用程序Scala通过以下方式使用 leveldb 数据库leveldbjni图书馆我的build sbt文件看起来像这样 name Whatever version 1 0 scalaVersion 2 10 2 l
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
加特林负载测试期间编译错误

我正在尝试编写一个模拟并且希望能够运行该模拟我在尝试 mvn gatling execute 时遇到错误我的 pom 有以下依赖项
如何使用 scala 宏打印变量名称和值？

我确信有一种更优雅的方式来编写以下宏来打印变量的名称和值 def mprintx c Context linecode c Expr Any c Expr Unit import c universe val namez c enclosi
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
如何在Gradle中支持多种语言（Java和Scala）的多个项目？

我正在尝试将过时的 Ant 构建转换为 Gradle 该项目包含约50个Java子项目和10个Scala子项目 Java 项目仅包含 Java Scala 项目仅包含 Scala 每个项目都是由 Java 和 Scala 构建的这大大减慢
在 Akka 中配置嵌套 Router

我有一些嵌套的路由器应创建它FromConfig 我想要的是这样的 test akka actor deployment worker router round robin nr of instances 5 slave router b
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa

随机推荐

如何仅在服务器调用 PHP 脚本时运行它

我有一个 PHP 脚本只有在服务器本身调用它时才会运行像这样 form submit 运行 AJAX 请求来 POST 表单数据我不想开发一个哈希解码和编码系统来证明请求是否被允许是否可以简单地检查服务器是否运行脚本或客户端是否
特质不就是简单的组合吗？

我正在阅读一篇有关 PHP 5 4 0 中的新功能的文章最值得期待的之一是Traits http php net traits 阅读这些内容Traits 看看它们的全部内容对我来说它们只是编译器辅助的复制粘贴一种语言提供了使用组合的方
D3.js V4 和 Angular 不会发生节点转换

我在用角度打字稿 with D3 js V 4 12我特别使用整齐的径向树 https bl ocks org mbostock 4063550用于代表产品初始步骤随着ng cli 我安装了npm install save d3并创建了
SharedKeyCredential 不是构造函数。 Azure存储反应应用程序

我正在尝试使用以下代码将 blockblob 上传到反应应用程序中的 Azure 存储但是我收到以下错误类型错误 SharedKeyCredential 不是构造函数有任何想法吗 azure 电子邮件受保护 cdn cgi l em
MVC 捆绑包和 IIS 虚拟目录（URL 重写）

我在 IIS 服务器虚拟目录上托管多个应用程序并使用 URL 重写来简化它们所有图像和其他资产都是这样手动编写的 path to my content 有正确的输出 path to my content 但捆绑路径如 client js
金钱图能很好地流动吗？

sql 数据类型 Money 是否映射到 C float 不它映射到decimal 如果该列允许 null 则它映射到Nullable
将 ASP.NET 应用程序迁移到 IIS7 时出现注册表访问错误

我正在运行 Windows 7 64 位和 iis7 我正在尝试在 XP 上设置一个以前在 iis6 中的 Web 应用程序它给了我下面的错误我已将网络服务用户添加到性能监视器用户组中但无济于事对注册表项 Global 的访问是否
如何通过Java Validator消息传递参数？

目前我有类似的东西 NotNull message err required Size min 1 message err required private String firstName In my messages properti
bean 验证获取验证组

是否可以获取调用验证方法的验证器中的组我有多个组创建更新删除它们大多数会导致对一个 bean 进行类似的验证我不想提供多个几乎相同的验证器并创建实用程序函数来外部化相同的验证代码我更愿意有一个验证器来处理有关调用验证的组的验
graphviz 绘图太宽

我正在做练习在 jupyter 笔记本中使用 graphviz 创建决策树然而决策树过于宽泛这是代码 from sklearn tree import export graphviz export graphviz tree out
保存 .php 文件并保存包含内容（可能）

设置我有一个标准 php 文件 index php 其中包含两个包含内容一个用于页眉 header php 一个用于页脚 footer php index php 文件如下所示索引 php h2 Hello h2 p class ed
检查 Windows C/C++ 中的文件夹/文件是否隐藏/系统

我正在使用 C STL Boost 编写一个跨平台应用程序我意识到它们没有提供一种方法来检查文件夹或文件是否隐藏或者是 Windows 中的系统文件在 Windows 的 C C 中执行此操作的最简单方法是什么理想情况下我有一个带有
从 python Fabric 执行远程 bash 命令时“转义”$

所以我尝试通过 python Fabric 脚本自动设置 arch linux 实例如下所示 from fabric api import run sudo def server setup communityrepo run echo
mingw 应用程序中的清单被忽略

我有一个老式的 Windows GDI 应用程序用 C 编写正在使用 Mingw 工具链进行编译我的一些用户一直在抱怨 Windows Vista 和 Windows 7 的虚拟存储其中写入应用程序不应访问的目录的文件会被抽走并存储
可以在 UIWebView 中使用 iframe 吗？

我想在我的应用程序中添加一个类似 facebook 的按钮在developer facebook com 中我对此无能为力是否可以在 UIWebView 中使用 facebook 创建的 iframe 之类的按钮它认为如果可能的话我可
Android Studio 模拟器不断冻结、崩溃并且根本没有响应

我是一名 Android 开发新手最近遇到了一些问题我不知道这是我的硬件问题还是 Android Studio 的问题但模拟器一直冻结或没有响应前 2 天 Android Studio 运行良好但是之后它无法运行我的应用程序我
使用python 3.7创建pipenv虚拟环境时出错

我的操作系统是 ubuntu 20 04 默认的 python 是 3 8 2 我正在尝试使用 Pipenv 和 python 3 7 创建一个虚拟环境当我运行时出现以下错误pipenv install python 3 7 Creati
C++ 将时间字符串转换为纪元的秒数

我有一个具有以下格式的字符串 2010 11 04T23 23 01Z Z 表示时间为 UTC 我宁愿将其存储为纪元时间以便于比较推荐的方法是什么目前经过快速搜索最简单的算法是 1
Google App Engine 中的 Spring Boot 应用程序无法连接到 Cloud SQL

我不确定我还缺少什么但我的应用程序一开始就失败了 Message The connection attempt failed at org flywaydb core internal jdbc JdbcUtils openConnect
可以使用reduceBykey来更改类型和组合值-Scala Spark吗？

在下面的代码中我尝试组合值 val rdd org apache spark rdd RDD String Double sc parallelize List a 1 0 a 3 0 a 2 0 val reduceByKey rdd

可以使用reduceBykey来更改类型和组合值-Scala Spark吗？

可以使用reduceBykey来更改类型和组合值-Scala Spark吗？ 的相关文章

随机推荐

热门标签

可以使用reduceBykey来更改类型和组合值-Scala Spark吗？的相关文章