为什么groupByKey操作总是有200个任务？

2023-12-11

每当我做一个groupByKey在 RDD 上，即使原始表非常大，它也会分为 200 个作业，例如2k 个分区和数千万行。

此外，该操作似乎陷入了最后两个任务，这两个任务的计算时间非常长。

为什么是200？如何增加它，会有帮助吗？

这个设置来自spark.sql.shuffle.partitions，这是分组时要使用的分区数，并且有一个默认设置为 200，但可以增加。这可能会有所帮助，它将依赖于集群和数据。

最后两个任务花费很长时间将是由于数据倾斜，这些键包含更多值。你能用吗reduceByKey / combineByKey而不是groupByKey，或者以不同的方式并行化问题？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

为什么groupByKey操作总是有200个任务？的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp

随机推荐

每隔几秒调用获取当前坐标而不使用 NSTimer

我知道如何用 NSTimer 做到这一点但我不想每隔几秒就在没有计时器的情况下获取当前的 iPhone 坐标我无法使用计时器因为我在应用程序处于后台时获取坐标我尝试过一些方法但每秒都会调用一次而不是每 10 秒调用一次因为我不
CodeIgniter 删除 index.php 不起作用

我正在使用 Ubuntu 13 并为本地 codeigniter 站点进行以下设置 Apache 2 4 6 Ubuntu 5 5 3 1ubuntu2 2 CI VERSION 2 1 2 如果没有 URL 将不再有效index php
已超出传入消息的最大消息大小配额 (65536)

我在为几个表创建范围时遇到此异常所有这些表在设计上都很大
我可以使用参数化查询从 SQL Server VarBinary 列返回字节数组吗？

我编写了一个小型 VBA 过程来测试使用 ADO 将文件作为二进制数据上传到 SQL Server 中的 VarBinary 列以及从中下载文件上传过程似乎可以正常工作但我无法让下载过程正常工作我相信 VarBinary 的输出参数设
ASP.NET MVC RequireHttps 仅在生产环境中

我想使用需要Https属性以防止将不安全的 HTTP 请求发送到操作方法 C RequireHttps apply to all actions in controller public class SomeController Requi
将表格从 Excel 导出到 Outlook（黑莓友好）

因此我从互联网上的不同地方收集了一些代码将表格导出到 Outlook 并自动发送出去并且刚刚注意到该电子邮件并不是真正的黑莓友好主要是因为电子邮件正文以 HTML 形式发送而不是作为富文本请记住表格也需要采用富格式我缺少一行
从 Excel 导入 - 非数字值将被忽略

我有从指定格式的 Excel 工作表导入的代码在其中一列中大多数数据都是数字但也存在非数字值由于某种原因导入代码会忽略非数字值连接字符串如下所示 Dim FileConnectionString As String Provid
启动 celery Worker 并启用它的广播队列

我正在尝试启动芹菜工作人员因此它只侦听单个队列这不是问题我可以这样做 python m celery worker A my module Q my queue c 1 但现在我也想要这个my queue队列成为广播队列所以我在我的
以编程方式将 [AllowAnonymous] 属性添加到我的所有控制器方法

我有一个带有多个控制器的 WebAPI2 REST api 我使用基于角色的身份验证我在所有控制器和一些方法上添加了 Authorize 属性但是在 DEV 环境中我想禁用身份验证我希望我可以将一些代码放入WebApiConfig例
CORS 错误：“请求仅支持协议方案：http…”等

我正在尝试运行一个简单的应用程序我有一个 Express 后端当访问时返回一个 JSON 字符串localhost 4201 ticker 当我运行服务器并从我的 Angular 服务向此链接发出请求时http 我收到以下错误 XMLH
jQuery UI Sortable 手动设置位置

如何使用一些代码手动设置位置 Ok 我有一些具有 sortable 行为的 div div class sort div div class sort div div class sort div div class sort div di
编码为单字节扩展 ascii 值

在 C 中有一种方法可以将扩展 ascii 值 128 255 编码为其单字节值如下所示 http asciitable com 我尝试过使用 Encoding UTF8 GetBytes 但会返回扩展代码的多字节值我不需要超过 25
MATLAB 中的 {} 和 [] 有什么区别？

gt gt A 1 2 2 3 A 1 2 2 3 gt gt A 1 2 2 3 A 1 2 2 3 在我看来它们本质上是同一件事是针对细胞的用于数组矩阵
比较两个可选数组时出现 Swift 错误

I get a 编译错误在下一个 Swift 代码中 var x Array
将十六进制字符串转换为字节数组 (.NET) 的最佳方法是什么？

我有一个十六进制字符串需要将其转换为字节数组最好的方法即高效和最少的代码是 string hexstr 683A2134 byte bytes new byte hexstr Length 2 for int x 0 x lt by
如何使用plot_trisurf

将matplotlib版本从1 3 1更新到2 0 2后当我想使用plot trisurf通过3d点生成TIN时我得到了难以理解的结果我的测试代码如下 import sys import matplotlib import matpl
VBA 运行时错误“70”：无法设置列表属性。没有权限

我试图通过单击列表框来更新数据但出现错误请参阅下面的代码使用下面的代码将列表框值显示到文本框 Private Sub ListBox1 Click Dim i As Integer i Me ListBox1 ListIndex Me
Rspec / Shoulda：测试，调用自定义验证器

我有一个自定义验证器位于 app validators uri validator rb 中用于 validates link uri true 我如何在我的规格中指定这一点理想情况下我希望进行单线通话例如 it should v
通过arg执行函数

我想做的是当我输入特定参数时它会启动一个函数这可以通过argparse 因此如果我在应用程序中点击 add 参数它就会触发 add 函数 parser argparse ArgumentParser description to
为什么groupByKey操作总是有200个任务？

每当我做一个groupByKey在 RDD 上即使原始表非常大它也会分为 200 个作业例如2k 个分区和数千万行此外该操作似乎陷入了最后两个任务这两个任务的计算时间非常长为什么是200 如何增加它会有帮助吗这个设置来自s

为什么groupByKey操作总是有200个任务？

为什么groupByKey操作总是有200个任务？ 的相关文章

随机推荐

热门标签

为什么groupByKey操作总是有200个任务？的相关文章