如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？

2023-12-29

在 Spark 中，如下代码

rdd = sc.textfile("file path")
rdd1 = rdd.filter(filter1).maptopair();
rdd2 = rdd.filter(filter2).maptopair();
rdd3 = rdd1.join(rdd2);
rdd3.saveastextfile();

将生成3个阶段。从 Spark Web UI 中，我看到阶段 1 和阶段 2 并行运行，并且在前两个阶段完成后将触发连接阶段（阶段 3）。我的问题是阶段 1 和阶段 2 同时读取同一个文件？这意味着 Spark 读取同一个文件两次？

TL;博士;是的，它会读两次。

更长的答案是，如果初始读取已经在内存（缓存/操作系统缓存）中，那么它将使用它而不是直接读取。如果不深入研究实现，您的特定场景很可能会导致同时读取。也就是说，原因正是创建 DataFrame 的原因。代码是一个黑匣子，因此除了部分共享的沿袭之外，就调度程序而言，整个阶段（读取和映射*）是不同的。而且，正如已经提到的，它会在可能的情况下重用任何已缓存的谱系。

如果您想要更多共享的内容，请使用 DataFrames，它对完整的谱系以及它可以从合并操作中受益的地方有深入的了解。例如，如果您获取代码并通过 SQL 推送它，那么您就会看到您正在寻找的合并。

*我假设你的意思是map代替filter as join否则就行不通。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？的相关文章

Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces

随机推荐

没有 freetds.conf 的 FreeTds

我可以在没有 freetds conf 的情况下运行 FreeTds API 吗 C C 据我记得可以在没有旧的 interfaces 文件的情况下使用Sybase ctlib None
如何在 Go 中的 POST 请求中发送 JSON 字符串

我尝试使用 Apiary 并制作了一个通用模板来将 JSON 发送到模拟服务器并具有以下代码 package main import encoding json fmt github com jmcvetta napping log net
调整 ScrollViewer.CompulatedVerticalScrollBarVisibility 更改上的列表视图列大小

我正在使用一个星形转换器具有相对大小的列表视图列 https stackoverflow com questions 6338930 how to resize wpf listview proportionally 11421253 11
如何获取程序集的根命名空间？

给定一个实例System Reflection Assembly 当我想通过其清单资源流从当前程序集加载资源时我多次遇到这种困境事实上如果使用 Visual Studio 将文件作为资源嵌入到程序集中则其清单资源名称将从 Visua
如何使用包含完全相同类型但用其他类型参数化的参数的参数列表来重载方法

我有一个方法 public List
如何在 Javascript 中添加或减少工作日？

我需要一个 Date prototype addBusDays 函数这将采用一个整数作为添加到日期的工作日数但是有两个考虑因素 1 周末 2 假期我想这是一个要比较的预设数组如果开始日期和结束日期包含 3 个假期那么您将结束日期
从两列计算并创建百分比列

我有一个 df Apple farm 并且需要根据两列中找到的值计算百分比 Good apples and Total apples 然后将结果值添加到 Apple farm 中名为 Perc Good 的新列中我努力了 Apple fa
由 CAS 引起的 APEX 应用程序生成器的编码问题

我有一段时间对 APEX 应用程序生成器 sql 研讨会有疑问存在编码问题 APEX 必须提供东欧字符最后我找到了问题的根源我已经通过 web xml 将 CAS sso 实现到 APEX 中 APEX 位于 Tomcat ORDS
如何查看 NEAR 协议创世时创建的原始账户结构？

显然账户已经发生了很大的变化但是有没有一种简单的方法可以在网络启动时查看原始账户和余额的映射基本上创世哈希在哪里这是 mainnet genesis json 文件 https github com near nearcore bl
如何从nodejs回调函数返回值？

mturk ops block function callback mongodb collection collectionName function err collection collection distinct workerId
分组和版本控制在 asp.net core 3.1 Web api 中的 swagger 中不能很好地协同工作

我在用着Asp Net核心3 1构建我的 API 我正在使用 swagger 为我的 API 生成文档我决定根据控制器对我的 swagger 文档进行分组所以我最终这样做了启动配置服务 options SwaggerDoc Libr
模拟方法返回 null

我有以下方法 public ResultScanner getScanner Scan scan Table table getTableInstance Sampletable return table getScanner scan 为
文本输入框不接受来自 Angular UI Bootstrap 的模式输入

我有一个模态 nbr 1 我从另一个模态 nbr 2 打开模态 nbr 1 工作正常并且显示了它应该显示的内容但我尝试输入一个输入来过滤模式中的项目但输入不起作用我无法在其中写任何内容它只是不接受我的输入我认为这与它是我的第二个
无法使用子进程从标准输出获取结果

我需要在发出命令后将结果显示在控制台中 e g H path to openssl exe x509 in H path to cert pem noout subject 当放置在打开的 cmd exe 中时此命令会生成加密证书的值但
反应本机中的三元运算符

仅当变量为 true 时我才需要显示组件基本上我将创建两个按钮一个将变量设置为 false 另一个设置为 true 我正在尝试使用 Angular 的 ngIf 想法我需要这样的东西 render return
我可以使用 Facebook 凭据让用户访问我的网站吗？

我开始在一个网站上工作该网站将与相应的网站紧密连接Facebook http facebook com应用程序我希望内容免费供所有人查看但只有注册用户才能编辑它与服务器故障 http serverfault com 实际上因为我认
当查找列表的最后一个但第二个元素时，为什么使用“last”是其中最快的？

下面给出了 3 个函数它们查找列表中最后一个但第二个元素那个使用的是last init看起来比其他人快得多我似乎不明白为什么为了进行测试我使用了输入列表 1 100000000 一亿最后一个几乎立即运行而其他则需要几秒钟 sl
默认声音在 Android v9 中不播放，但在 Android v7 上运行 - ionic v3 cordova 推送插件

I am using FCM to send notification on my app below are the screenshots how I am doing As you can see I enabled the soun
将字节数组转换为双精度数的问题

我在使用以下方法将字节数组转换为双精度数组时遇到问题BitConverter ToDouble 简而言之我的程序将选择一个图像然后将图像转换为字节数组然后它将把字节数组转换为双精度数组问题是当我将字节数组转换为双精度数组时我会在
如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？

在 Spark 中如下代码 rdd sc textfile file path rdd1 rdd filter filter1 maptopair rdd2 rdd filter filter2 maptopair rdd3 rdd1 j

如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？

如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？ 的相关文章

随机推荐

热门标签

如果两个阶段使用相同的 RDD，spark 是否会读取同一个文件两次？的相关文章