Spark DataFrame 中的 queryExecution 有什么用？

2024-02-14

我必须了解数据帧对象上名为 queryExecution 的变量，并在 console 中找到以下输出。但不确定它有什么帮助。请在控制台中找到输出。

scala> df.queryExecution
res5: org.apache.spark.sql.SQLContext#QueryExecution =
== Parsed Logical Plan ==
Project [_1#0 AS ID#2,_2#1 AS Token4#3]
 LocalRelation [_1#0,_2#1], [[1,a],[2,b]]

== Analyzed Logical Plan ==
ID: int, Token4: string
Project [_1#0 AS ID#2,_2#1 AS Token4#3]
 LocalRelation [_1#0,_2#1], [[1,a],[2,b]]

== Optimized Logical Plan ==
LocalRelation [ID#2,Token4#3], [[1,a],[2,b]]

== Physical Plan ==
LocalTableScan [ID#2,Token4#3], [[1,a],[2,b]]

Code Generation: true

Thanks

为了实现 Spark SQL，Spark 实现了一个可扩展的优化器，称为Catalyst，基于 Scala 中的函数式编程结构。

Catalyst 的核心包含一个通用库，用于表示树并应用规则来操纵它们。

在此框架之上构建了关系查询处理的特定库（例如表达式、逻辑查询计划），以及处理查询执行不同阶段的几组规则：分析、逻辑优化、物理规划和编译部分的代码生成对 Java 字节码的查询。

就这样queryExecution是数据集/数据框架的一个组成部分，它代表将创建和转换数据的查询执行。

我们主要用它来调试和优化改造。

您可以在以下博客文章中详细了解 Catalyst 的介绍深入研究 Spark SQL 的 Catalyst 优化器 https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html以及 @JacekLaskowski 的《Mastering Apache Spark》：

查询执行 https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sql-debugging-execution.html. [WIP]
调试查询执行 https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sql-query-execution.html. [WIP]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Spark DataFrame 中的 queryExecution 有什么用？的相关文章

Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在

随机推荐

C++ 从图中删除顶点

3he 以下使用 boost 1 46 1 进行编译 include
无法使用 MPMoviePlayerViewController 播放视频

我使用以下 ViewController m 创建了一个新项目当我运行该应用程序时我可以看到一个预期来源大小 38 100 250 163 的框但它是黑色的并且没有视频播放 Xcode 中有一个奇怪的输出 2012 08 23 15
Java调用重载方法[重复]

这个问题在这里已经有答案了考虑这个代码段 class StockServer StockServer String company int Shares double currentPrice double cashOnHand doub
phpMyAdmin 4.5.0.2 中无法识别 MySql“NOT IN”子句

一个简单的 SQL 语句例如 SELECT 1 from MyTable WHERE 1 NOT IN 2 生成 4 Errors were found during analysis 1 Unrecognized keyword nea
测量网格之间的距离

对于我的项目我需要测量两个 STL 文件之间的距离我编写了一个脚本允许读取文件将它们相对于彼此放置在所需的位置现在在下一步中我需要检查一个物体到另一个物体的距离库上是否有可用的函数或脚本允许我执行此过程因为那时我想要定义诸
Flutter ListView.builder() 小部件的交叉轴占据了整个屏幕高度

我在用ListView builder scrollDirection Horizo ntal 小部件内Container在颤振中 ListView 的主轴占据了预期的整个屏幕宽度我希望ListView的crossAxis 垂直方向占据
如何通过将 python 中的列表与单独的列表进行比较来对列表进行排序？ [复制]

这个问题在这里已经有答案了假设我有一个清单 A cat dog mouse horse bird rabbit 将用作参考列表以及另一个列表 B dog rabbit horse bird cat dog 它具有与参考列表完全相同的元素
颜色必须是 aRGB 十六进制值？

所以我之前为污染数据集运行了一些代码并且代码运行得很好现在我收到此错误颜色必须是 aRGB 十六进制值我唯一的代码行如下 pollution jawn pd read excel ObservationData irkfioc c
C++ 中的友元函数可以有一个类型具有私有析构函数的默认参数吗？

在下一个示例中类U带有私有析构函数有一个友元函数foo 这个友元函数有类型参数U带默认值U class U U friend void foo U void foo U Clang 和 MSVC 接受此代码但 GCC 拒绝它并出现错误
“提交”和“修订”有什么区别

提交和修订有什么区别我们使用 SVN 并从 Atlassian Fisheye 获取指标 Fisheye 中有一份报告显示了顶级提交者按修订和顶级提交者按提交这里没有人能告诉我有什么区别非常感谢安迪一次提交可以包含许多文
微调超参数不会提高分类器的分数

我遇到一个问题即使用 GridSearchCV 微调超参数并不能真正改善我的分类器我认为改进应该比这更大我使用当前代码获得的分类器的最大改进约为 0 03 我有一个包含八列和不平衡二进制结果的数据集对于评分我使用 f1 并使用 K
为什么我的 Snort 日志为空？

我运行的是 macOS Sierra 10 12 3 sw vers ProductName Mac OS X ProductVersion 10 12 3 BuildVersion 16D32 我已经使用安装了snorthomebrew
什么是“ld-2.11.1.so”以及如何查看源代码？

我正在尝试对计算机上 RDTSC 指令的使用进行分类我的第一个想法是运行我的 lib文件夹通过objdump并搜索 RDTSC for f in ls lib do echo f objdump d f grep n rdtsc done
在oracle中使用触发器更改日期时出现问题

我想创建一个触发器可以修改或插入我的表合同中的日期如果拥有当前合同的客户签署新合同结束日期前一个活动将是新活动开始日期的前一天 So my trigger is CREATE OR REPLACE TRIGGER TRIGGER
如何检查 iOS 或 macOS 上的活动互联网连接？

我想使用以下命令检查我在 iOS 上是否有互联网连接可可触感 https en wikipedia org wiki Cocoa Touch库或在 macOS 上使用Cocoa https en wikipedia org wiki Coc
如何生成两个数字之间的随机值[重复]

这个问题在这里已经有答案了可能的重复 Java 生成一定范围内的随机数 https stackoverflow com questions 363681 java generating random number in a range 如
有没有一种方法可以在没有基于登录的身份验证的情况下保护 API 的安全？

我目前正在为一个网站开发一个 API 但该网站不需要登录即可使用因此该 API 必须在没有个人用户身份验证的情况下工作目标是防止 API 被第三方使用有没有办法保护API仅由我的网站使用而不使用登录身份验证来防止第三方调用后端服务
如何在 Android 上以编程方式安装 CA 证书而无需用户交互

我正在尝试安装证书而不提示用户我知道这不是一个好的做法但这就是总理想要的 Using KeyChain createInstallIntent http developer android com reference android s
发现多个文件具有与操作系统无关的路径“org/apache/http/client/version.properties”

在将 Android studio 从 2 3 更新到 3 0 之前一切正常我在Android Studio中运行应用程序时遇到此错误编译通过我不明白为什么会出现这个错误我在互联网上什么也没找到这是我的 gradle 文件 pa
Spark DataFrame 中的 queryExecution 有什么用？

我必须了解数据帧对象上名为 queryExecution 的变量并在 console 中找到以下输出但不确定它有什么帮助请在控制台中找到输出 scala gt df queryExecution res5 org apache spa

Spark DataFrame 中的 queryExecution 有什么用？

Spark DataFrame 中的 queryExecution 有什么用？ 的相关文章

随机推荐

热门标签

Spark DataFrame 中的 queryExecution 有什么用？的相关文章