运行比内核数量更多的分区是否有意义？

2024-03-24

鉴于 Spark 任务数量不能高于核心数量，运行比核心数量更多的分区是否有意义？如果是这样，您能详细说明一下吗？

正如您提到的，您需要至少 1 个任务/核心才能利用所有集群的资源。
根据每个阶段/任务所需的处理类型，您可能会遇到处理/数据倾斜 - 这可以通过使分区更小/更多分区来缓解，这样您就可以更好地利用集群（例如，当执行程序运行更长的任务时，需要5 分钟内其他执行器能够运行 10 个 30 秒的较短任务）。
在其他情况下，您可能希望增加分区数量（例如，如果您达到大小/内存限制）。

查看这篇关于并行性调整的好文章：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/

Update:这如何帮助处理/数据倾斜并为您提供更好的集群利用率和更快的作业执行（下面是 Spark UI 的示例屏幕截图，您可以在其中看到任务之间的倾斜 - 请参阅中值与最大任务持续时间的比较）：

假设您有一个可以并行运行 2 个任务的集群。

1 个任务（1 个空闲核心）处理数据需要 60 分钟 - 作业需要 60m。
如果将其分成 2 个，您可能会发现由于倾斜：Task1：45m，Task-2：15m。作业需要 45m（对于 30m，你有 1 个空闲核心）。
如果将其分成 4 个，您可能会得到：Task1：30m，Task-2：10m，Task-3：10m，Task-4：10m。作业需要 30m（第一个核心运行 1 个任务 30m，而另一个核心运行其他 3 个较小的任务，每个任务 10m）。 ETC。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

运行比内核数量更多的分区是否有意义？的相关文章

Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

将一列中的文本拆分为每行的多列[重复]

这个问题在这里已经有答案了我有以下数据集 Class Range Value A 6 8 19 B 1 3 14 C 5 16 10 D 4 7 5 我想将每个类别的范围分成两列为此我使用了该函数str split fixed如下 m
Delphi7，按向上键时进行形状跳跃

我想在玩家按下UP键时进行形状跳跃所以我能想到的最好的就是这个但我使用的方法很糟糕并且有问题形状坐标 shape1 top 432 procedure TForm1 FormKeyDown Sender TObject var Ke
强制整个网站使用 HTTPS 是好做法还是坏做法？

我有一个网站当所有内容都采用 HTTPS 身份验证 Web 服务等时该网站运行良好如果我混合使用 http 和 https 则需要更多编码跨域问题我似乎没有看到很多完全采用 HTTPS 的网站所以我想知道这样做是否是一个坏主意
如何在 swiftUI 生命周期中为三列视图添加工具栏分隔符

我正在寻找一种方法来实现像 Mail app 这样的三列布局的工具栏此外 Notes app 使用几乎相同的工具栏两个应用程序之间唯一重要的区别是 Notes app 看起来像WindowStyle is a HiddenTitleBa
即使未实现，uilongpressgesturerecognizer也会崩溃

我尝试了所有可能的搜索但一周内没有找到任何类似的东西我正在制作一个显示表格视图的应用程序单元格由自定义类和 Interface Builder 创建可以使用 UIPanGestureRecognizer 进行拖动该 UIPanG
Facebook iOS SDK Feed 对话框在身份验证后出现问题

我似乎遇到了提要对话框的问题这是我以前从未遇到过的我怀疑这是因为 iOS 5 但我不确定如果用户需要身份验证他将被重定向到 Facebook 应用程序然后返回到我的应用程序然后用户单击共享按钮提要对话框appears 但
当工作表的代码隐藏在“代理”接口+类中实现时，正确处理工作表事件

我正在努力进一步发展这个很好的例子 https www dropbox com s vozhez4wwdlfg8f WorkbookProxyExampleDialog xlsm dl 0 它已经实现了这些非常有见地的 Rubberduck
构建 apk 时出错 - “多个 dex 文件定义 Lcom/google/ads/Ad”

我一直在为这个问题抓狂在过去的三个小时里我一直在尝试修复它但一直未能成功我已经创建了一个 Android 应用程序并准备将其放入 Android 市场但在尝试导出到 apk 时出现此错误无法执行dex 多个dex文件定义Lcom
SQLite 如果列存在

我想知道是否有一个很好的 IF NOT EXISTS 用于检查 SQLite 中的列和索引或者我是否需要带回整个数据库模式并对其进行验证有一个系统目录表称为sqlite master http www sqlite org faq ht
Observable.prototype.concatAll 似乎没有产生预期的结果

记住这段代码 const Rx require rxjs var i 3 const obs Rx Observable interval 10 map gt i map function val return Rx Observable
MySql::存储过程递归

我如何重写以下 SP 来面对 MySQL 中的递归限制 CREATE DEFINER root localhost PROCEDURE SP DeleteParentDirectory pParentID INT pIsFolder INT
阻止所有键盘访问、鼠标访问和键盘快捷键事件

为了阻止我的项目之一中的所有键盘访问鼠标访问和键盘快捷键事件我创建了一个全屏透明无边框窗口在其他窗口前面但不可见用简单的方式处理所有键盘和鼠标事件return 窗户本身使window modal NSApp runModalF
在 Xamarin Forms for iOS 上向编辑器底部添加边框

目前我的 Xamarin 表单应用程序中有输入字段这些输入字段在 iOS 上只有底部边框可以使用以下自定义渲染器完美运行 using Xamarin Forms Platform iOS using Xamarin Forms usi
当我使用 ACTION_IMAGE_CAPTURE 拍照时出现 NullPointerException

我有一个相当简单的应用程序可以从菜单启动相机相机启动正常但是当我拍照后点击确定时我的 Nexus 上出现了 NPE E AndroidRuntime 3891 java lang RuntimeException Failure
验证 C# Winforms 上文本框的输入

我正在尝试验证 C winforms 上文本框的输入是否符合有效模式模式必须是仅包含以下字符的字符串 0 to 9 A to Z 我正在考虑使用文本框上的验证事件来执行验证但我正在努力使用正确的正则表达式或者也许有比使用正则表达式
vba正则表达式仅返回第一个匹配项

我在 VBA WORD 中的正则表达式匹配仅给出一个结果我创建了这个函数 Function RE6 strData As String As String Dim RE As Object REMatches As Object Set
React-native-paper 的复选框中出现了奇怪的十字

I am using a checkbox from react native paper library but when I render that checkbox in my component a strange special
Maven 继承和聚合示例架构

我有一个问题关于如何使用继承和聚合的组合最好地重新构建多个单独的 Maven 项目设置场景有 3 个基于代码的现有 Maven 项目全部由同一团队开发 1 项目是一个API 我们调用的是project api 另外 2 个项目是使用
给定项目句柄，获取 Canvas 小部件上项目的当前坐标？

通过阅读文档 http effbot org tkinterbook canvas htm reference http effbot org tkinterbook canvas htm reference 在我看来没有办法做到这一点只
运行比内核数量更多的分区是否有意义？

鉴于 Spark 任务数量不能高于核心数量运行比核心数量更多的分区是否有意义如果是这样您能详细说明一下吗正如您提到的您需要至少 1 个任务核心才能利用所有集群的资源根据每个阶段任务所需的处理类型您可能会遇到处理数据倾斜

运行比内核数量更多的分区是否有意义？

运行比内核数量更多的分区是否有意义？ 的相关文章

随机推荐

热门标签

运行比内核数量更多的分区是否有意义？的相关文章