Spark编程中什么时候应该使用groupByKey API？

2024-02-29

GroupByKey 会遭受数据混洗的困扰。而 GroupByKey 功能可以通过使用 mergeByKey 或 reduceByKey 来实现。那么什么时候应该使用这个 API？有使用案例吗？

组合和减少最终也会进行洗牌，但它们具有更好的内存和速度性能特征，因为它们能够做更多的工作来减少数据量before洗牌。

考虑一下是否必须通过组 RDD[(group, num)] 对数字属性求和。groupByKey会给你 RDD[(group, List[num])] 然后你可以使用手动减少map。洗牌需要移动所有个体num到目标分区/节点以获取该列表 - 许多行正在被洗牌。

Because reduceByKey知道你正在做什么nums（即对它们求和），它可以在洗牌之前对每个单独的分区求和 - 所以每个分区最多有一行group被写入随机分区/节点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark编程中什么时候应该使用groupByKey API？的相关文章

为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array

随机推荐

如何删除 GCC 4.6 中的警告：“缺少初始化程序 [-Wmissing-field-initializers]”？

The code GValue value 0 给出以下警告缺少初始化程序 Wmissing field initializers 我知道那是一个GCC bug https stackoverflow com questions 1538
每个Python函数最后都必须返回吗？ [复制]

这个问题在这里已经有答案了所以我正在制作递归函数的图表来让我的头脑围绕递归我注意到显然每个函数都在最后执行 return 还有一个问题函数到底返回什么传递给它的所有参数假设有多个参数或者某种价值 t只是执行实际绘图的实体 def
是否可以使用 django 模型将数组存储在 mysql 数据库中？

我有一个值数组并想存储在mysql数据库使用django模型 py 我可以通过哪些方式存储数组值在的帮助下django mysql我们可以将列表存储到数据库中为此你必须安装 django mysql pip install djang
如何使用 ggplot2 在直方图条上显示百分比标签

我看到很多关于将 y 轴上的计数转换为百分比的问题但其中必须在条形图中我想在直方图中做类似的事情但无法清楚地显示条形图上的标签请告诉我我哪里做错了 x runif 100 min 0 max 10 data1 lt data fra
从 .git 文件夹恢复整个项目[重复]

这个问题在这里已经有答案了我有一个网络项目我已经工作了一段时间了我使用 GIT 和 SourceTree 来跟踪更改但愚蠢地没有适当的备份我有大约 50 次提交想要清理干净并从新的初始状态开始所以我删除了 git 文件夹但是
强类型 ActionLink 的注意事项

我一直在尝试查找有关 Futures 中首次亮相的强类型 ActionLink 辅助方法的更多信息我知道使用它有一些很大的缺点但想了解更多我发现的最好的链接是这个 Asp Net MVC 2 中的强类型 ActionLink http
laravel uuid 作为主键

我正在尝试将 uuid 设置为 Laravel 模型中的主键我已经完成了在我的模型中设置启动方法的工作here https github com webpatser laravel uuid所以我不必每次想要创建和保存模型时都手动创建它
通过 mutableCopy 或 arrayWithArray 创建带有文字的 NSMutableArray：[重复]

这个问题在这里已经有答案了可能的重复 NSMutableDictionary 的字面创建是否比类帮助器方法效率低 https stackoverflow com questions 12426786 is literal creation
java 中的 PHP 相似文本()

你知道 PHP 的任何严格等效的实现吗相似文本 https www php net manual en function similar text phpJava 中的函数这是我在java中的实现 package comwebndesig
Wix：如何设置文件夹和所有子文件夹的权限

我知道如何设置文件夹的权限
LINQ“无法检测到以下存储过程的返回类型”（不是临时表）

长期潜伏者第一次在这里发帖我决定在这里问因为我已经厌倦了在谷歌等搜索将存储过程从 SQL 2005 DB 导入到网站 FW 4 0 C LINQ 项目时我遇到此错误无法检测到以下存储过程的返回类型我有两个疑问我想指出的是我
我的页脚浮动

在三天的大部分时间里我一直在尝试各种粘性页脚解决方案但没有成功当没有足够的内容来跨越窗口的整个高度时我试图将页脚放置在浏览器窗口的底部请帮助这是基本的网站结构 div div
在 dotnetcoreapp2.0 中使用 UnobservedTaskException 处理程序

以下代码在 netcoreapp2 0 应用程序中运行时似乎最终不会抛出UnobservedTaskException using System using System Threading using System Threading
如何从文本中查找数字

这是我的数据框中 pyspark 列字符串的一个小示例 column new column Hoy es d a de ABC KE98789T983456 clase
Gulp.js - 在连接时重写嵌入在 css 中的 url

我正在使用 Gulp 连接来自不同目录的多个 css 文件 Bower 管理的依赖项 Font awesome 是这些依赖项之一它包含对其字体的相对引用url font 当 css 文件连接并放置在不同的目录中时这个相对 url 显然是
为什么依赖属性中的 get/set 没有执行任何操作？

我创建了一个像这样的依赖属性 public partial class MyControl UserControl public static DependencyProperty XyzProperty DependencyPropert
如何将密码显示为星号[重复]

这个问题在这里已经有答案了我正在尝试创建一个登录窗口提示用户输入用户名和密码尽管输入密码时我正在寻找要打印的星号例如常见的密码输入即 Sekr3t 回显为这是我到目前为止的代码我不明白为什么它不回显星号 import msvc
一个好的、免费的、简单的、非“试用”的本地 SMTP 服务器用于开发？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
DAX 条件总和

如何构造返回 A 或 B 之和的 DAX 度量逻辑是如果 A 为空则取 B 所以预期的结果如下所示 A B Expected 1 1 1 1 2 2 1 2 1 2 2 3 6 7 当我使用测量时 Measure IF ISBLANK
Spark编程中什么时候应该使用groupByKey API？

GroupByKey 会遭受数据混洗的困扰而 GroupByKey 功能可以通过使用 mergeByKey 或 reduceByKey 来实现那么什么时候应该使用这个 API 有使用案例吗组合和减少最终也会进行洗牌但它们具有更好的内

Spark编程中什么时候应该使用groupByKey API？

Spark编程中什么时候应该使用groupByKey API？ 的相关文章

随机推荐

热门标签

Spark编程中什么时候应该使用groupByKey API？的相关文章