Spark应用程序中的作业数量由什么决定

2023-12-11

以前我的理解是,一个动作将在 Spark 应用程序中创建一个工作。但是让我们看看下面的场景,我只是使用 .range() 方法创建一个数据框

df=spark.range(10)

由于我的 Spark.default.parallelism 是 10,因此生成的数据帧有 10 个分区。 现在我只是在数据帧上执行 .show() 和 .count() 操作

df.show()
df.count()

现在,当我检查 Spark 历史记录时,我可以看到 .show() 的 3 个作业和 .count() 的 1 个作业

enter image description here

为什么 .show() 方法有 3 个作业?

我读过一些内容,其中 .show() 最终将在内部调用 .take() ,它将迭代决定作业数量的分区。但我没听懂那部分? 到底是什么决定了就业岗位的数量?


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark应用程序中的作业数量由什么决定 的相关文章

随机推荐

  • 将 js 变量传递给 html 文件 GAS - BASIC

    我正在尝试将一个变量 单元格 A1 中的我的名字 从我的 code gs 传递到我的 Index html 并通过电子邮件发送 有人可以告诉我我做错了什么或指出我正确的方向吗 Code gs function doGet return Ht
  • 当模态 UIImagePickerController 被关闭时 UIView 通知?

    当模态视图完成关闭时 有没有办法调用代码 EDIT 抱歉 我没早说清楚 我试图关闭 UIImagePickerController 然后显示 MFMailComposeViewController 并将图像数据附加到电子邮件 当我尝试打电话
  • Android GPS数据获取和过滤,如何改进位置信息

    我开始处理 Android 2 1 HTC Hero 上的 GPS 数据 并查看有关卡尔曼滤波器和适合位置数据的最小二乘法的主题 在使用手机接收和记录 GPS 数据时 我发现如果保持在原位置 偏差很小 但移动时坐标非常准确 问题来了 get
  • 如何使用Android SDK监控GPS适配器的状态?

    我需要让我的应用程序监控 GPS 适配器是否启用或禁用 我并不关心当前是否运行实际的 GPS 功能 我需要 GPS 适配器的状态 我可以通过调用手动执行此操作 String providers Settings Secure getStri
  • 使用 join、group by、having、order by 进行序列化

    如何使用 ORM 编写这个查询 SELECT p id p name COUNT c id counter FROM Posts p LEFT JOIN Comments c ON c post id p id WHERE p rating
  • Polymer - 迭代模板中的对象

    根据聚合物文档 可以使用以下方法迭代对象或数组repeat中的声明
  • R Shiny 使用按钮创建多个随机数并保存

    我想创建一个生成随机数的按钮 并将所有随机数保存在我的服务器上 以便稍后评估该数据 不幸的是 我无法生成包含所有随机数的向量 不知何故 for 循环不起作用 谢谢 library shiny ui lt fluidPage actionBu
  • 如何使用 .htaccess 将文本转换为小写 URL

    我想在 htaccess 文件中设置 301 重定向 因此 URL 如下 http example com Foo http example com Foo Bar http example com Foo Bar Blah 改成 http
  • 通过公共 HTTP 自动将大文件检索到 Google Cloud Storage

    出于天气处理的目的 我希望在 Google Cloud Storage 中自动检索每日天气预报数据 这些文件可在公共 HTTP URL http dcpc nwp meteo fr openwis user portal srv en ma
  • 如何获取google api图表柱形图中的vaxis线?

    我在 google api 图表中使用 corechart 包的柱形图 在此图表中 我需要垂直轴线 y轴线 如何获取柱状图中的垂直轴线 我提到了这个link用于创建此图表 Actual Expected 使 Y 轴编号不是字符串 这是代码
  • 如何使用不变的 URL 抓取多个页面 - python

    我正在尝试抓取这个网站 http data eastmoney com xg xg 到目前为止 我已经使用 selenium 来执行 javascript 并抓取表 但是 我的代码现在只能获取第一页 我想知道是否有办法访问其他 17 个页面
  • 如何知道当前季度的日期?

    使用Linux命令行可以知道当前季度吗 我没有找到一种方法来做到这一点date手册页 与财政季度开始和结束相对应的日期因国家 地区以及进行财务报告的实体的性质 公司 个人 政府 其他 而异 有些公司还有备用时间表 因此 没有标准的 API
  • 删除 JavaFX TitledPane 中 CSS 不起作用的插图

    基于 James D 的解决方案 如何在 JavaFX TitledPane 中设置 删除插图 我已经尝试过 似乎通过 CSS 从 JavaFX TitledPane 中删除插入不起作用 它确实在场景生成器中正确更新 但在运行时插图保持不变
  • 使用 PHP 创建登录页面

    我正在尝试使用一些 PHP 代码创建带有登录表单的网站 用户将尝试使用用户名和密码登录 然后页面将显示 欢迎 当用户尝试输入用户名和密码时 显示的网站是空白的 上面什么也没有 另外 我已经使用用户名和密码创建了 mysql 数据库 我的主页
  • 什么时候在 TypeScript 中使用声明?

    在TypeScript中 为什么有时需要使用declare声明一个变量 有时你不这样做 同样的问题也适用于函数 举个例子 我何时 以及为什么 使用 declare var foo number if let foo number 会做同样的
  • Maven 编译器插件 3.x:

    我现在有一个 Maven 问题 我创建了一个新的测试项目来简化问题 错误接缝是 Caused by java lang ClassNotFoundException org codehaus plexus util cli CommandL
  • 使

    我的客户希望在她的网站主页上显示一个大图像 但她希望在页面加载时只有图像可见 页面的所有其余部分应位于该图像下方 并且仅在滚动页面时才可见 当页面首次加载时 访问者应该只能看到大图像 无论他 她使用什么显示器尺寸或分辨率 像这样的东西 Sc
  • 我无法安装任何 Bioconductor 软件包:“readRDS(dest) 中的错误:从连接读取时出错”

    您好 这是我的第一条消息 如果有什么问题 我很抱歉 我已经有这个问题好几天了 我无法安装新软件包 我读过类似的question但就我而言 只有当我尝试安装新的时才会出现问题生物导体软件包 或者当我删除旧软件包并尝试重新安装它时 问题是我总是
  • 我应该捕获所有可能的特定异常还是只是一般异常并将其包装在自定义异常中?

    假设我想将一些 XML 文件反序列化为强类型对象 如果此 XML 文件无法反序列化 无论出于何种原因 我只需创建一个默认对象并继续正常的应用程序工作流程 而不向用户显示任何错误 实际上这个应用程序作为 Windows 服务运行 因此没有用户
  • Spark应用程序中的作业数量由什么决定

    以前我的理解是 一个动作将在 Spark 应用程序中创建一个工作 但是让我们看看下面的场景 我只是使用 range 方法创建一个数据框 df spark range 10 由于我的 Spark default parallelism 是 1