在 apache Spark 中替换 groupByKey 的方法

2024-02-21

我想知道更换的最佳方法按键分组与另一个操作。

基本上我想获得一个RDD[(int,列表[测量])，我的情况：

// consider measures like RDD of objects
measures.keyBy(_.getId)
        .groupByKey

我的想法是使用按键减少相反，因为它会导致更少的随机播放：

measures.keyBy(_.getId)
        .mapValues(List(_))
        .reduceByKey(_++_)

但我认为效率非常低，因为它迫使我实例化大量不必要的 List 对象。

任何人都可以有其他想法来替换 groupByKey 吗？

另一种方法是使用aggregateByKey，专门用于将值组合成与原始值不同的类型：

measures.keyBy(_.getId)
        .aggregateByKey(List[Measure]())(_ :+ _, _ ++ _)

这会为每个分区中的每个键创建一个空列表，将所有值附加到每个分区中的这些值，然后最后打乱列表以连接每个键的所有值。

在 Scala 中向列表追加是 O(n)，最好是在前面添加，即 O(1)，但看起来不太干净：

measures.keyBy(_.getId)
        .aggregateByKey(List[Measure]())(_.+:(_), _ ++ _)

or:

measures.keyBy(_.getId)
        .aggregateByKey(List[Measure]())((l, v) => v +: l, _ ++ _)

这可能比你的更有效率reduceByKey示例，但情况reduceByKey and aggregateByKey远远优于groupByKey您可以首先大幅减少数据大小，然后仅对较小的结果进行打乱。在这种情况下，您没有这种减少：中间列表包含您开始使用的所有数据，因此当组合每个分区列表时，您仍在对完整数据集进行洗牌（这对于使用reduceByKey).

此外，正如 Zero323 指出的那样，groupByKey在这种情况下实际上更有效，因为它知道正在构建所有数据的列表，并且可以专门为此执行优化：

它禁用映射端聚合，从而阻止使用所有数据构建大哈希映射
它使用智能缓冲区（CompactBuffer），与逐一构建不可变列表相比，这显着减少了内存分配量。

另一种情况是两者之间的差异groupByKey and reduceByKey or aggregateByKey当键的数量不比值的数量少很多时，可能是最小的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

transformation

在 apache Spark 中替换 groupByKey 的方法的相关文章

将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
使用 scikit-image 和 Transform.PolynomialTransform 进行图像变形

我附上一个压缩档案 https drive google com file d 0B6EnJ Vh6zs1MkVCRlNhZkJsOEk view usp sharing包含说明和重现问题所需的所有文件我还没有上传图片的权限我有一个带有
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

随机推荐

无法连接到远程 SQL 服务器

我的一个客户给了我一个完全合格的服务器名称 servername somedomain net尝试通过 VPN 连接到其 SQL Server 实例所以我尝试使用他们给我的用户名和密码没有运气我可以 ping 通但无法连接收到用户名
如何将 float* 数组绑定到 cuda 中的一维纹理？

我试图了解如何通过将纹理内存绑定到线性设备数组而不是 cudaArray 来使用它我的代码很简单如下我有一个包含 8 个数字的 float 数组我试图将其绑定到 1D 纹理然后在我的内核函数中尝试读取纹理并将值放入输出数组中但
Typescript 和 Google 关闭

我使用 Typescript 命令 tsc 创建一个包含所有平台类的 Javascript 文件 tsc Main ts out script myProject debug js declarations 然后我想用 Google Cl
将 Android Studio 更新到 2020.3.1 Canary 14 Build 后未解决的 Kotlin 引用

我目前遇到 Android Studio 警告我某些不存在的 Kotlin 函数我认为这是 Android Studio 唯一的问题因为我可以很好地编译和运行我的项目例如Android Studio无法识别val rows mutab
如何使用 ASP.NET 5 注册 OData

我有一个 ASP NET 5 应用程序我想将 OData v4 与它一起使用这是我尝试过的 1 我导入了以下nuget包 Microsoft AspNet WebApi 5 2 3 Microsoft AspNet OData 5 7
Mapbox 中路线的多色折线

我用我的应用程序记录路线主要是摩托车路线并希望根据路线每个点的速度为其着色基本上我知道如何在 Mapbox 中做到这一点这就是问题所在由于您只能为一条折线设置颜色因此我必须将速度部分中的路线分开并使用其特定的颜色打印每个路线部
WSO2ESB 4.5.1 axi2 属性 ssl.client.auth.cert.X509 始终为 NULL

当使用NIO SSL监听器 org apache synapse transport nhttp HttpCoreNIOSSLListener 时没有HttpServletContext不再可用显然因此深入研究可能解决我发现的客户端证
如何在 aws elastic beanstalk 环境实例启动上运行 shell 脚本

我正在使用 Terraform 脚本创建 aws elastic beanstalk 环境我需要在实例启动时启动 shell 脚本我已经尝试过以下操作 resource aws elastic beanstalk environment
无边框 TabControl wpf (XP)

我在 WPF 中设置 TabControl 样式时遇到视觉问题因此即使我将选项卡控件的边框设置为 0px 且透明右侧和底部边框上仍然有一条非常细的线我没有找到可以解决这个问题的属性所以也许有人遇到了同样的问题并可以分享提前致谢
LibGDX指导-精灵追踪2D无限随机贝塞尔曲线

我已经能够将平滑的动画应用于我的精灵并使用加速度计控制它我的精灵固定为沿 x 轴左右移动从这里开始我需要弄清楚如何创建一条垂直的无限波浪线供精灵尝试追踪我的游戏的目的是让用户用加速度计控制精灵的左右移动试图尽可能地追踪永无止境的
MVC4 部分视图中的淘汰赛绑定

简而言之我相信我所追求的是一种在 MVC4 部分视图中为剔除绑定 javascript 对象提供范围上下文的方法这样我就可以重用相同的部分而不会让它们互相干扰但仍然能够在客户端引用父子视图模型作为一个出色的菜鸟更广泛地说是真正
查找 html 块中最宽单词的宽度

目标是找到这里最宽单词的宽度文本是由不同字体的单词组成的句子如图所示 the html looks like span style font bold 14px Verdana LONGESTW span span style font
WSO2 API Manager - 移动应用程序如何连接到 API Manager？

我们有一个移动应用程序需要通过 WSO2 API Manager 来访问一些 API 由于oauth2身份验证我们需要在移动应用程序中存储用户名和密码安全吗例如可以使用用户名和密码登录API Store 对于这种情况有其他解决方案
Rails cron 与无论何时，设置环境

如果您了解用于创建 cron 作业的whengem 这个问题可能才有意义我的 Schedule rb 中有一个任务例如 every 1 day at gt 4am do command cd RAILS ROOT rake thinki
SQL Server 存储过程能否以比其调用者更高的权限执行？

我们的 SQL Server 数据库具有报告功能允许调用者读取但不能写入任何表因为用户或者更准确地说代表用户操作的 Web 应用程序打开的连接仅具有以下数据读取器权限数据库我们希望能够编写一个存储过程它是一个特殊的清理报告
为什么使用setTimeout函数会立即执行？

我正在尝试编写简单的代码setTimeout 但是setTimeout只是不会等待它应该等待的时间并且代码会立即执行我究竟做错了什么 setTimeout testfunction 2000 您将立即调用该函数并安排其返回值 Use se
神秘的阴谋集团安装问题

全新安装 Haskell Platform OS X Snow Leopard Platform 2010 1 0 1 这样做会导致简单的序列导致非常奇怪cabal install行为 cabal install time cabal in
如何在 Visual Studio C++ Express 版本中启用自动完成功能？

请指导我如何在 VS C 中启用自动完成功能通过自动完成我的意思是当我在控件名称后面加点时编辑器应该显示一个下拉菜单以供选择谢谢开始写作然后只需按 CTRL SPACE 即可
如何在 Heroku.com 上托管的 Redmine 上安装插件

刚刚把redmine推送到heroku平台虽然我无法让积压插件工作但它在本地工作得很好我已将本地数据库推送到heroku aswwell Heroku 的公共目录不可写但默认的 Redmine 假设要求如此因为在应用程序服务器启
在 apache Spark 中替换 groupByKey 的方法

我想知道更换的最佳方法按键分组与另一个操作基本上我想获得一个RDD int 列表测量我的情况 consider measures like RDD of objects measures keyBy getId groupByKey

在 apache Spark 中替换 groupByKey 的方法

在 apache Spark 中替换 groupByKey 的方法 的相关文章

随机推荐

热门标签

在 apache Spark 中替换 groupByKey 的方法的相关文章