在 Apache Spark (Scala) 中使用 reduceByKey

2023-12-31

我有一个类型为：（用户 ID、名称、计数）的元组列表。

例如，

val x = sc.parallelize(List(
    ("a", "b", 1),
    ("a", "b", 1),
    ("c", "b", 1),
    ("a", "d", 1))
)

我试图将这个集合简化为一种类型，其中每个元素名称被计算在内。

所以上面的 val x 被转换为：

(a,ArrayBuffer((d,1), (b,2)))
(c,ArrayBuffer((b,1)))

这是我当前使用的代码：

val byKey = x.map({case (id,uri,count) => (id,uri)->count})

val grouped = byKey.groupByKey
val count = grouped.map{case ((id,uri),count) => ((id),(uri,count.sum))}
val grouped2: org.apache.spark.rdd.RDD[(String, Seq[(String, Int)])] = count.groupByKey

grouped2.foreach(println)

我正在尝试使用reduceByKey，因为它的执行速度比groupByKey 更快。

如何实现reduceByKey来代替上面的代码来提供相同的映射？

按照您的代码：

val byKey = x.map({case (id,uri,count) => (id,uri)->count})

你可以这样做：

val reducedByKey = byKey.reduceByKey(_ + _)

scala> reducedByKey.collect.foreach(println)
((a,d),1)
((a,b),2)
((c,b),1)

PairRDDFunctions[K,V].reduceByKey采用可应用于 RDD[(K,V)] 的 V 类型的关联归约函数。换句话说，你需要一个函数f[V](e1:V, e2:V) : V。在这种特殊情况下，整数求和：(x:Int, y:Int) => x+y or _ + _用短下划线表示法。

作为记录：reduceByKey表现优于groupByKey因为它尝试在 shuffle/reduce 阶段之前本地应用 reduce 函数。groupByKey将在分组之前强制对所有元素进行洗牌。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

在 Apache Spark (Scala) 中使用 reduceByKey 的相关文章

Scala：列表中不同的foldRight实现

我刚刚发现 scala 我在 2 12 上提供了完全不同的实现向右折叠 for 不可变列表 and 可变列表不可变列表 List scala override def foldRight B z B op A B gt B B reve
使用 Akka 将文件从服务器流式传输到客户端

基本上我想允许用户从服务器下载 csv 文件假设服务器上已存在 CSV 文件 API 端点通过 GET export 公开如何将文件从 Akka HTTP 服务器流式传输到客户端这就是我到目前为止所拥有的 Service def ex
凿子“Enum(UInt(), 5)”失败

当我尝试使用 Chisel 构建 FSM 时我使用了 Enum 如 Chisel 教程所述然而我遇到了这样的错误 my code val sIdle s1 s2 s3 s4 Nil Enum UInt 5 但是当我执行时sbt ru
从 Java 中的另一个应用程序部署 Apache Spark 应用程序，最佳实践

我是 Spark 的新用户我有一个 Web 服务允许用户请求服务器通过读取数据库并将结果推送回数据库来执行复杂的数据分析我已将这些分析转移到各种 Spark 应用程序中目前我使用spark submit来部署这些应用程序但是我很
从 Monoids 的 HList 类型派生 0 的 HList

我正在学习 Shapeless 目前我正在尝试创建一个执行以下操作的函数给定一个类型HList它返回HList of Nones 与Option对应于给定的类型HList type 例如 create String Int HNil re
我可以使用从 Java 实现 java 接口的 scala 类吗？

我正在学习 Scala 很好奇是否可以创建一个在 Scala 中实现 Java 接口的对象将对象编译成类文件并将其打包使用 Java 中的对象我想在 scala 中实现一个自定义的 lucene 查询解析器并能够让其他人从 jav
如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
如何跟踪通过elastic4s客户端发送到Elasticsearch的json请求？

假设我使用这样的代码 ElasticClient client client execute search in places gt cities query paris start 5 limit 10 如何查看发送到 Elasticse
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧我想检查一列的值是否存在于另一个数据帧的列中我只看到了如何过滤存在的值的解决方案像这样 https stackoverflow com questions 41775281 filtering a
在 Scala 中定义具有多个隐式参数的函数

如何定义具有多个隐式参数的函数 def myfun arg String implicit p1 String implicit p2 Int doesn t work 它们必须全部放入一个参数列表中并且该列表必须是最后一个 def my
登录模块控制标志在 JAAS 配置中不可用 - Scala Kafka

尝试使用 kerberos 身份验证连接到 Kafka 时遇到问题使用 scala 和我的jaas config看起来像这样 KafkaClient com sun security auth module Krb5LoginModule
选择 PySpark 数据框中的列

我正在寻找一种在 PySpark 中选择数据帧列的方法对于第一行我知道我可以使用df first 但不确定列是否存在没有列名我有 5 列想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
mssql 的 UUID 疯狂

我的数据库条目有一个 UUID 及其值使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN
首次使用 SBT - 检索代理背后的依赖项时出现问题

我已经下载了 SBT sbt 0 13 15 zip 并将其解压缩但在运行 sbt bat 时遇到问题最初我遇到了代理问题当我发现需要指定时修复了这些问题onlyhttpsconfig 而不是 http 的当提供两者时它使用的是
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep

随机推荐

如何知道哪个列表项对用户可见？

我通过我的应用程序录制了视频并将其存储在存储卡中在我获取这些视频并将其添加到列表视图后根据屏幕尺寸用户只能看到一个视频如果用户上下滚动并停止那时我想知道哪一个在用户面前如果有人知道解决方案请帮助我或任何其他方法提前致谢好
Apache Lucene TokenStream 合同违规

使用 Appache Lucene TokenStream 删除停用词导致错误 TokenStream contract violation reset close call missing reset called multiple t
Ceres Solver：无法禁用日志记录（google glog）

我在一个项目中使用 ceres 求解器当我调用ceres Solve函数后库开始输出如下行 iterative schur complement solver cc 88 No parameter blocks left in the
根据另一个 NSArray 字符串的排序对自定义对象的 NSArray 进行排序

我有两个NSArray我想要以相同方式排序的对象一个包含NSString对象其他自定义Attribute对象这是我的关键 NSArray 的样子 The master order NSArray stringOrder NSArra
spring-boot 与 tomcat 和 cxf-servlet

我正在尝试使用 spring boot 来建立嵌入式 Tomcat 我想在应用程序中使用 CXF 来提供一组 Web 服务但我不知道如何建立 CXF servlet 我的主课看起来像这样 Configuration EnableAutoC
在 Android 中使用相机活动

如果您想使用使用本机 Android 相机的内置相机 Activity 只需执行以下操作即可 Intent camera new Intent MediaStore ACTION IMAGE CAPTURE this startActivi
为什么我们仍然在 .NET 中使用数据集？

数据集是 NET 1 0 中最重要的东西之一即使现在使用 NET 3 5 我仍然发现自己必须使用它们特别是当我必须调用一个返回数据集的存储过程时我最终会得到该数据集手动转换为对象以使其更易于使用我从来没有真正喜欢过数据集并且发现它
django 将 .values_list('datetimefield') 转换为日期

我想将带有日期时间对象的 value list 字段转换为日期对象 values list time finished flat True 给我 2016 03 22T18 52 53 486Z 我想要的是 2016 03 22 谢谢你您
Autofac多次注册组件

在上一个关于如何可视化依赖关系图的问题中 https stackoverflow com a 59247007 1955317我为现在用来可视化我的依赖关系图的代码奠定了基础因为它是由 Autofac 解析的运行代码我得到一棵树生成
为什么java进程使用的内存比预期多得多

系统信息操作系统 archlinux JDK OpenJDK IcedTea 2 4 3 ArchLinux 版本 7 u45 2 4 3 1 x86 64 运行应用程序 https github com aemoncannon ensi
是否可以将观察者添加到tableView.contentOffset？

我需要跟踪 tableView contentOffset y 是否可以将观察者添加到 tableView contentOffset 我认为这是不可能的因为 contentOffset 不继承 NSObject 类还有其他解决办法吗
将递归函数转换为异步 CPS 实现 (javascript)

这是我的功能 function duplicate step through highlighted element jq target jq char cb console log element jq var contents elem
如何在R中手动更改VisNetwork中节点的位置

我的 VisNetwork 遇到问题我在 R 中创建了一个图表每次单击节点并将其移动到其他位置时它都会回到之前的位置是否有可能手动重新安排网络我想将一些节点移动到其他位置或更改一些节点之间的边的长度以便它更加透明至少有两种可能
我从 C 函数读取嵌套 lua 表作为参数是否正确？

我将用C语言实现一个函数该函数将由Lua脚本调用这个函数应该接收一个lua表甚至包含一个数组作为参数所以我应该读取表中的字段我尝试像下面那样做但是当我运行它时我的函数崩溃了谁能帮我找出问题所在吗 function findI
Fedora 24 上的 libicu 和 stringi 导致 R 头痛

我最近升级到 F24 现在在我的 R 会话中我无法加载一些包 sp reshape2 latex2exp knitr 等我发现的最初问题是 F24 使用 libicu56 而这些软件包需要 libicu54 我遵循了一个建议这个线程 ht
如何以编程方式更改 Chrome 中地址栏的字体大小

我想以编程方式更改 Chrome 中地址栏的字体大小因为它对我来说太大了有什么办法可以做到这一点吗通常地址栏的字体大小由操作系统的默认字体大小决定在这里阅读评论 https code google com p chromium i
如何在 Java 中将十六进制字符串转换为字节值

我有一个字符串数组我想将它转换为字节数组我使用Java程序例如 String str aa 55 转换成 byte new byte 0xaa byte 0x55 我能做些什么 String str Your string byte
通过ParentProcessID杀死进程

我想通过其 ParentProcessID 终止正在运行的进程我想像您在命令行中一样执行此操作 wmic process where parentprocessid 3008 terminate 但现在的问题是在 PowerShell
仪表 D3，显示值位置

我正在尝试使用一些现成的 JavaScript 来制作仪表我快到了但我不知道如何管理值标题 Here is how my code works now And this is how I like it to work 不知道如何处理问
在 Apache Spark (Scala) 中使用 reduceByKey

我有一个类型为用户 ID 名称计数的元组列表例如 val x sc parallelize List a b 1 a b 1 c b 1 a d 1 我试图将这个集合简化为一种类型其中每个元素名称被计算在内所以上面的 val

在 Apache Spark (Scala) 中使用 reduceByKey

在 Apache Spark (Scala) 中使用 reduceByKey 的相关文章

随机推荐

热门标签