为什么spark sql查询第一次和第二次执行的时间不同？

2023-12-28

我正在使用 Spark sql 对 parquet 数据源运行一些聚合查询。

我的 parquet 数据源包括一个表，其中包含以下列：id int、时间时间戳、位置 int、counter_1 long、counter_2 long、...、counter_48。总数据大小约为887 MB。

我的spark版本是2.4.0。我在一台机器上运行一主一从（4核，16G内存）。

使用 Spark-shell，我运行了 Spark 命令：

spark.time(spark.sql("SELECT location, sum(counter_1)+sum(counter_5)+sum(counter_10)+sum(counter_15)+sum(cou
nter_20)+sum(counter_25)+sum(counter_30)+sum(counter_35 )+sum(counter_40)+sum(counter_45) from parquet.`/home/hungp
han227/spark_data/counters` group by location").show())

执行时间为17s。

我第二次运行类似的命令（仅更改列）：

spark.time(spark.sql("SELECT location, sum(counter_2)+sum(counter_6)+sum(counter_11)+sum(counter_16)+sum(cou
nter_21)+sum(counter_26)+sum(counter_31)+sum(counter_36 )+sum(counter_41)+sum(counter_46) from parquet.`/home/hungp
han227/spark_data/counters` group by location").show())

执行时间约为3s。

我的第一个问题是：为什么它们不同？我知道这不是数据缓存，因为镶木地板格式。是关于重用查询计划之类的东西吗？

我做了另一个测试：第一个命令是

spark.time(spark.sql("SELECT location, sum(counter_1)+sum(counter_5)+sum(counter_10)+sum(counter_15)+sum(cou
nter_20)+sum(counter_25)+sum(counter_30)+sum(counter_35 )+sum(counter_40)+sum(counter_45) from parquet.`/home/hungp
han227/spark_data/counters` group by location").show())

执行时间为17s。

在第二个命令中，我更改了聚合函数：

spark.time(spark.sql("SELECT location, avg(counter_1)+avg(counter_5)+avg(counter_10)+avg(counter_15)+avg(cou
nter_20)+avg(counter_25)+avg(counter_30)+avg(counter_35 )+avg(counter_40)+avg(counter_45) from parquet.`/home/hungp
han227/spark_data/counters` group by location").show())

执行时间约为5s。

我的第二个问题是：为什么第二个命令比第一个命令快，但执行时间差异却比第一个场景略小？

最后，我有一个与上述场景相关的问题：大约有 200 个公式，例如：

formula1 = sum(counter_1)+sum(counter_5)+sum(counter_10)+sum(counter_15)+sum(cou
nter_20)+sum(counter_25)+sum(counter_30)+sum(counter_35 )+sum(counter_40)+sum(counter_45)

formula2 = avg(counter_2)+avg(counter_5)+avg(counter_11)+avg(counter_15)+avg(cou
nter_21)+avg(counter_25)+avg(counter_31)+avg(counter_35 )+avg(counter_41)+avg(counter_45)

我必须经常运行以下格式：

select formulaX,formulaY, ..., formulaZ from table where time > value1 and time < value2 and location in (value1, value 2...) group by location

我的第三个问题是：有没有办法优化性能（使用过一次的查询如果将来再次使用应该会更快）？ Spark 会自我优化还是我必须编写一些代码，更改配置？

这称为交换重用。当 Spark 运行混洗（即聚合、连接）时，它会在本地工作节点上存储混洗数据的副本以供重用。这是内部控制的行为，最终用户无法直接影响。如果您发现不断重复使用数据的特定部分（或查询结果），您可以考虑使用 cache() 显式缓存它。但是，请记住，虽然这允许 Spark 重用缓存结果以获得更快的查询性能（当且仅当缓存查询的分析器计划与新查询匹配时），但过度使用 CACHE 可能会导致大量不同的性能问题。

一个不好的例子是，当您的数据集非常大时，可能会导致磁盘溢出问题。也就是说，数据集不适合集群的可用内存，需要写入速度较慢的硬盘。

另一个不好的例子是当您的查询只需要访问缓存数据的子集时。通过将整个数据集缓存在内存中，Spark 被迫执行完整的内存表扫描。这不仅浪费资源，而且与根本不使用缓存相比，还会导致查询性能变慢。

最好的做法是使用您自己的一些示例查询进行尝试和错误，查看 Spark UI 并检查是否存在磁盘溢出或大量输入数据扫描的迹象。

每个查询/数据组合都是唯一的，因此您需要进行一些试验才能找到适合您自己的工作负载的最佳性能调整方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

为什么spark sql查询第一次和第二次执行的时间不同？的相关文章

在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

随机推荐

处理 SQL 连接

我有一个连接到数据库并检索数据表的 SQL 类我知道 SqlConnection 必须在完成后释放我知道这可以使用using块但是也可以接受Dispose 在这个类的析构函数中调用这是我的代码 public class SQLEng
使用 Visual Studio 2010 时出现 System.OutOfMemoryException

当我的笔记本电脑中确实有很多未使用的内存时我收到了名为 system outofmemory exception 的非常烦人的消息除非我关闭并重新打开解决方案否则它不会让我继续我的工作是否有任何配置或服务包可以解决该问题 Thank
编辑后保留文本的突出显示颜色

删除前面一行的内容后无法保留我在 RichTextBox 中设置的文本上的突出显示效果无论我从控件中删除多少文本它总是会删除我设置为已包含在其中的文本的自定义选择颜色和选择背景颜色我的删除方法的代码 private void btn
asdf erlang 在 macOS 上编译失败

我正在尝试通过 asdf 在 macOS 11 3 1 上安装 erlang 22 3 4 18 erlang 的 asdf 插件 https github com asdf vm asdf erlang OSX 特定的说明说要安装auto
NSCoding 和 Codable 可以共存吗？

在测试新的 Codable 如何与 NSCoding 交互时我整理了一个游乐场测试涉及使用包含 Codable 结构的类的 NSCoding 到惠特 struct Unward Codable var id Int var job St
django python 排序错误

出现以下错误的原因是什么当我尝试使用以下内容进行过滤时 if MyObject objects filter location aDictionary address 其中位置定义为 location models CharField m
在 Postgres 中通过未知键从 jsonb 获取元素

我有以下数据结构 proccess1 error error1 description nextRetryAt 2018 02 22T07 39 00 325Z attemptsMade 148 firstFailedAt 2018 02
在路径中绘制不同颜色的形状（HTML5 Canvas / Javascript）

我正在尝试绘制多个填充不同颜色的圆弧 draw ctx beginPath ctx fillStyle black ctx arc 30 30 20 0 Math PI 2 true ctx fill ctx fillStyle red c
std::iterator、指针和 VC++ 警告 C4996

int arr int malloc 100 sizeof int int arr copy int malloc 100 sizeof int srand 123456789L for int i 0 i lt 100 i arr i r
如何添加一个链接，将事件从 Safari 添加到您的 iPhone 日历？

这看起来应该很简单但经过几个小时的谷歌搜索后我还没有弄清楚我知道我可以使用 ICS 文件添加 iCal 链接但这在 iPhone 上不起作用顺便说一句当我说 iPhone 时我希望它也能在触摸屏上运行有人有这样的运气吗您可以
Swift Date：如何判断一个月是否可以有闰日？

我正在构建一个日历视图我希望与年份无关只需列出一个月内可能发生的所有可能日期 IE 显示日历中的最大天数例如 2 月 29 日从这个答案 https stackoverflow com questions 41318604 is t
jquery .off 似乎不起作用

所以我会简短地说 jquery off 不会禁用我设置的监听 on html span lol span
旋转共享扩展中的图像

我有这个扩展它在应用程序目标中运行完美但在尝试旋转相机上捕获的图像时在共享扩展中崩溃如何旋转共享扩展中的图像或者也许可以从照片库中加载已经处于正确方向的图像 extension UIImage func fixOrientation
向 SurrealDB 发送 `create` RPC 消息返回“数据库出现问题：表不存在”错误

我正在调试 NET SurrealDB 库的一些测试我可以很好地打开与数据库的连接但是当我发送create向数据库 docker 容器发送 RPC 消息它返回一个错误内容为数据库出现问题表不存在 TRACE tungsteni
在 FireFox / Mozilla 中设置

为什么spark sql查询第一次和第二次执行的时间不同？

为什么spark sql查询第一次和第二次执行的时间不同？ 的相关文章

随机推荐

为什么spark sql查询第一次和第二次执行的时间不同？的相关文章