Spark应用程序中的作业数量由什么决定

2023-12-11

以前我的理解是，一个动作将在 Spark 应用程序中创建一个工作。但是让我们看看下面的场景，我只是使用 .range() 方法创建一个数据框

df=spark.range(10)

由于我的 Spark.default.parallelism 是 10，因此生成的数据帧有 10 个分区。现在我只是在数据帧上执行 .show() 和 .count() 操作

df.show()
df.count()

现在，当我检查 Spark 历史记录时，我可以看到 .show() 的 3 个作业和 .count() 的 1 个作业

为什么 .show() 方法有 3 个作业？

我读过一些内容，其中 .show() 最终将在内部调用 .take() ，它将迭代决定作业数量的分区。但我没听懂那部分？到底是什么决定了就业岗位的数量？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Spark应用程序中的作业数量由什么决定的相关文章

IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro

随机推荐

将 js 变量传递给 html 文件 GAS - BASIC

我正在尝试将一个变量单元格 A1 中的我的名字从我的 code gs 传递到我的 Index html 并通过电子邮件发送有人可以告诉我我做错了什么或指出我正确的方向吗 Code gs function doGet return Ht
当模态 UIImagePickerController 被关闭时 UIView 通知？

当模态视图完成关闭时有没有办法调用代码 EDIT 抱歉我没早说清楚我试图关闭 UIImagePickerController 然后显示 MFMailComposeViewController 并将图像数据附加到电子邮件当我尝试打电话
Android GPS数据获取和过滤，如何改进位置信息

我开始处理 Android 2 1 HTC Hero 上的 GPS 数据并查看有关卡尔曼滤波器和适合位置数据的最小二乘法的主题在使用手机接收和记录 GPS 数据时我发现如果保持在原位置偏差很小但移动时坐标非常准确问题来了 get
如何使用Android SDK监控GPS适配器的状态？

我需要让我的应用程序监控 GPS 适配器是否启用或禁用我并不关心当前是否运行实际的 GPS 功能我需要 GPS 适配器的状态我可以通过调用手动执行此操作 String providers Settings Secure getStri
使用 join、group by、having、order by 进行序列化

如何使用 ORM 编写这个查询 SELECT p id p name COUNT c id counter FROM Posts p LEFT JOIN Comments c ON c post id p id WHERE p rating
Polymer - 迭代模板中的对象

根据聚合物文档可以使用以下方法迭代对象或数组repeat中的声明
R Shiny 使用按钮创建多个随机数并保存

我想创建一个生成随机数的按钮并将所有随机数保存在我的服务器上以便稍后评估该数据不幸的是我无法生成包含所有随机数的向量不知何故 for 循环不起作用谢谢 library shiny ui lt fluidPage actionBu
如何使用 .htaccess 将文本转换为小写 URL

我想在 htaccess 文件中设置 301 重定向因此 URL 如下 http example com Foo http example com Foo Bar http example com Foo Bar Blah 改成 http
通过公共 HTTP 自动将大文件检索到 Google Cloud Storage

出于天气处理的目的我希望在 Google Cloud Storage 中自动检索每日天气预报数据这些文件可在公共 HTTP URL http dcpc nwp meteo fr openwis user portal srv en ma
如何获取google api图表柱形图中的vaxis线？

我在 google api 图表中使用 corechart 包的柱形图在此图表中我需要垂直轴线 y轴线如何获取柱状图中的垂直轴线我提到了这个link用于创建此图表 Actual Expected 使 Y 轴编号不是字符串这是代码
如何使用不变的 URL 抓取多个页面 - python

我正在尝试抓取这个网站 http data eastmoney com xg xg 到目前为止我已经使用 selenium 来执行 javascript 并抓取表但是我的代码现在只能获取第一页我想知道是否有办法访问其他 17 个页面
如何知道当前季度的日期？

使用Linux命令行可以知道当前季度吗我没有找到一种方法来做到这一点date手册页与财政季度开始和结束相对应的日期因国家地区以及进行财务报告的实体的性质公司个人政府其他而异有些公司还有备用时间表因此没有标准的 API
删除 JavaFX TitledPane 中 CSS 不起作用的插图

基于 James D 的解决方案如何在 JavaFX TitledPane 中设置删除插图我已经尝试过似乎通过 CSS 从 JavaFX TitledPane 中删除插入不起作用它确实在场景生成器中正确更新但在运行时插图保持不变
使用 PHP 创建登录页面

我正在尝试使用一些 PHP 代码创建带有登录表单的网站用户将尝试使用用户名和密码登录然后页面将显示欢迎当用户尝试输入用户名和密码时显示的网站是空白的上面什么也没有另外我已经使用用户名和密码创建了 mysql 数据库我的主页
什么时候在 TypeScript 中使用声明？

在TypeScript中为什么有时需要使用declare声明一个变量有时你不这样做同样的问题也适用于函数举个例子我何时以及为什么使用 declare var foo number if let foo number 会做同样的
Maven 编译器插件 3.x：

我现在有一个 Maven 问题我创建了一个新的测试项目来简化问题错误接缝是 Caused by java lang ClassNotFoundException org codehaus plexus util cli CommandL
使
占据整个屏幕的可见高度，其下方有内容

我的客户希望在她的网站主页上显示一个大图像但她希望在页面加载时只有图像可见页面的所有其余部分应位于该图像下方并且仅在滚动页面时才可见当页面首次加载时访问者应该只能看到大图像无论他她使用什么显示器尺寸或分辨率像这样的东西 Sc
我无法安装任何 Bioconductor 软件包：“readRDS(dest) 中的错误：从连接读取时出错”

您好这是我的第一条消息如果有什么问题我很抱歉我已经有这个问题好几天了我无法安装新软件包我读过类似的question但就我而言只有当我尝试安装新的时才会出现问题生物导体软件包或者当我删除旧软件包并尝试重新安装它时问题是我总是
我应该捕获所有可能的特定异常还是只是一般异常并将其包装在自定义异常中？

假设我想将一些 XML 文件反序列化为强类型对象如果此 XML 文件无法反序列化无论出于何种原因我只需创建一个默认对象并继续正常的应用程序工作流程而不向用户显示任何错误实际上这个应用程序作为 Windows 服务运行因此没有用户
Spark应用程序中的作业数量由什么决定

以前我的理解是一个动作将在 Spark 应用程序中创建一个工作但是让我们看看下面的场景我只是使用 range 方法创建一个数据框 df spark range 10 由于我的 Spark default parallelism 是 1

Spark应用程序中的作业数量由什么决定

Spark应用程序中的作业数量由什么决定 的相关文章

随机推荐

热门标签

Spark应用程序中的作业数量由什么决定的相关文章