如何测量 Spark 上查询的执行时间

2024-04-02

我需要测量 Apache Spark (Bluemix) 上查询的执行时间。我尝试过的：

import time

startTimeQuery = time.clock()
df = sqlContext.sql(query)
df.show()
endTimeQuery = time.clock()
runTimeQuery = endTimeQuery - startTimeQuery

这是个好办法吗？相对于我看到桌子时，我得到的时间看起来太短了。

要在 Spark-Shell (Scala) 中执行此操作，您可以使用spark.time().

看我另一个回复：https://stackoverflow.com/a/50289329/3397114 https://stackoverflow.com/a/50289329/3397114

df = sqlContext.sql(query)
spark.time(df.show())

输出将是：

+----+----+
|col1|col2|
+----+----+
|val1|val2|
+----+----+
Time taken: xxx ms

有关的：关于测量 Apache Spark 工作负载指标以进行性能故障排除 https://db-blog.web.cern.ch/blog/luca-canali/2017-03-measuring-apache-spark-workload-metrics-performance-troubleshooting.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

time

apachespark

ibmcloud

如何测量 Spark 上查询的执行时间的相关文章

总和和不同不会改变结果？

我是一个新手试图在这里解决这个问题到目前为止还没有运气非常感谢任何帮助 Select Distinct AB agency no ab branch no AS AGENCY BRANCH count AB agency no ab
如何使用 MySQL 选择有特定值的 2 个连续行？

我正在构建一个系统该系统应该显示学生何时连续缺席两天例如此表包含缺勤情况 day id missed 2016 10 6 1 true 2016 10 6 2 true 2016 10 6 3 false 2016 10 7 1 tr
基本的多对多sql选择查询

我认为这应该很容易但它却在逃避我我的帐户和帐户组之间存在多对多关系一个帐户可以位于零个或多个组中因此我使用标准连接表 Accounts ID BankName AcctNumber Balance AccountGroups ID
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
重用 t-sql 游标的起始位置？

我正在开发一个在临时表上使用游标的存储过程我已经阅读了一些关于为什么不需要游标的内容但在这种情况下我相信我仍然需要使用游标在我的过程中我需要遍历表的行两次声明游标后已经单步执行临时表并关闭游标重新打开时游标的位置是否仍保留在表
替换字符串中的多个字符，而不使用任何嵌套替换函数

我的表中存储了一个方程我一次获取一个方程并希望将所有运算符替换为任何其他字符输入字符串 N 100 6858 6858 N 100 0 2 N 35 运算符或模式替换字符输出字符串 N 100 6858 6858 N 100 0
如何在 MySQL 中构建跨数据库查询？

我在同一台服务器上有两个数据库谷歌给了我一些提示但我找不到任何官方的东西有人可以向我指出解释如何执行此操作的文档吗使用 PHP 进行解释也很有用谢谢我在同一台服务器上有两个数据库如何在 MySQL 中构建跨数据库查询您可
处理ON INSERT触发器时，innodb表如何锁定？

我有两个 innodb 表 articles id title sum votes 1 art 1 5 2 art 2 8 3 art 3 35 votes id article id vote 1 1 1 2 1 2 3 1 2 4 2
如何在Word 2010中从SQL数据库检索数据？

我想用 MS SQL 数据库中的数据填充 Word 文档这可能吗如果可能的话如何实现我过去曾通过多种方式做到这一点这取决于用户是从 Microsoft Word 外部还是从 Microsoft Word 内部启动操作 From I
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
将用户定义的表类型从 VBA 传递到 SQL

我的任务是创建一个 Excel 电子表格作为 SQL 数据库的前端以及一些对数据执行复杂计算的 C 我的老板想要前端作为电子表格而计算对于 VBA 来说似乎太复杂了目前检索数据集的存储过程运行良好然后用户将在 Excel 中编辑
MySQL 中的创建/写入权限

我的设备遇到一些权限问题SELECT INTO OUTFILE陈述当我登录数据库并执行简单的导出命令时例如 mysql gt select from XYZ into outfile home mropa Photos Desktop
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
将动物园转换为数据框

我转换了一个zoo time series到数据框中R日期成为数据框的索引有没有办法将日期表示为数据框中的普通列 monthly df lt data frame monthly zoo head monthly zoo head mon
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
司机和提供商之间的区别

数据库中的驱动程序和提供程序有什么区别有没有解释一下不胜感激样本 ADO NET driver for MySQL vs providerName System Data EntityClient 来自 MSDN 论坛驱动程序是安装
SQL。 SP 或函数应计算周五的下一个日期

我需要编写一个存储过程来返回给定日期的下周五日期例如如果日期是 05 12 2011 那么它应该返回下周五日期 05 13 2011 如果您通过 05 16 2011 那么它应该返回日期是 5 20 2011 星期五如果您将星期五作为
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
作为 UDF 结果的列上的 Where 子句

我有一个用户定义的函数例如myUDF a b 返回一个整数我试图确保该函数仅被调用一次并且其结果可以用作WHERE clause SELECT col1 col2 col3 myUDF col1 col2 AS X From myTa

随机推荐

带有 nginx 的网络服务器一直工作到创建 .save 文件

在过去 48 小时内到处进行谷歌搜索以找出为什么我的服务器突然停止工作后最后我自己找到了答案我决定将其发布在这里供那些在整个周末都在谷歌上搜索如此琐碎事情的人使用在 nginx 上加载了所有内容 LEMP 工作完美但后来我尝试进
Excel 中的数据整理 - 重新排列列和行

我有一个巨大的 Excel 数据集我想重新排列行和列这是数据的片段它看起来是什么样子以及我希望它看起来是什么样子 Area Channel Unit Year1 Year2 Year3 Year4 bel dc share 25 36
使用 java11 构建和部署 javafx 应用程序

我按照以下步骤操作https blog jetbrains com idea 2013 03 packaging javafx 2 applications in intellij idea 121 https blog jetbrains
为什么 SQL Server SET DEADLOCK_PRIORITY HIGH 不被遵守？

我捕获了 SQL Server 2012 死锁图使用盖尔肖的 https www red gate com simple talk sql performance sql server deadlocks by example 查询显
MongoDB C# 连接/断开（官方驱动程序）

请告诉我如何通过官方 C 驱动程序连接断开到 MongoDB 问题很简单乍一看问题很微不足道但是 1 我是否需要自己调用Disconnect方法或者它会被诸如Dispose之类的方法关闭 2 每次需要向Mongo发出请求时都需要连接
statsmodel 预测开始和结束索引

我正在尝试实现 statsmodel 包中的预测功能 prediction results predict start 1 end len test exog test 输入测试和输出预测的日期不一致前者为2012年1月4日至2012年
getter 和 setter 的 Google 样式指南属性

我对其中的一项建议感到好奇有关属性的 Google Python 风格指南 https google github io styleguide pyguide html Properties 他们在其中给出了以下示例 class Squar
SQLite 与 Android NDK

是否可以在 Android 手机上将 SQLite 与 C 结合使用我还没有找到任何关于如何实现这一点的文档只需从以下位置下载 SQLite3 合并源文件 http www sqlite org download html http w
如何将 Xcode 项目转换为使用 ARC（自动引用计数）？

当我运行 Convert to Obj C 时它首先运行预检查我希望预检查忽略一些文件并且我认为可以在这些文件上设置编译器标志 fno objc arc 但预检查阶段似乎忽略了该标志并重置了它所以我真的不知道如何超越预检查预检查
按名称调用 Django celery 任务

我需要从models py调用一个celery任务在tasks py中唯一的问题是 tasks py导入models py 所以我无法从models py导入tasks py 有没有什么方法可以仅使用名称来调用 celery 任务而无
将多个数组作为参数传递给 Bash 脚本？

我看过但只看到了脚本中传递的一个数组的答案我想将多个数组传递给 bash 脚本该脚本将它们分配为单独的变量如下所示 myScript sh array1 array2 array3 这样 var1 array1 and var2 a
Java 和 C++ 中的简单变量

我在一些资料中看到这样一句话在 Java 中简单数据类型例如 int 和 char 的运行方式与 C 中一样我想知道 Java 和 C 中它们实际上是不同的在C 中像Java中的基元这样的简单变量也被分配了一个内存地址因此C
使用 SQL 获取每小时统计信息

我们有一张桌子名字员工注册有字段 employeeNo employeeName Registered on Here 注册日期是一个时间戳我们要求在几天内按小时进行注册例如 08 年 1 月 1 日 12 点下午 1 点 15
C# 为 ++ 运算符生成 IL - 前缀/后缀表示法何时以及为何更快

由于这个问题是关于增量运算符和前缀后缀表示法的速度差异我将非常仔细地描述这个问题以免 Eric Lippert 发现它并激怒我有关我为什么要问的更多信息和更多详细信息请访问http www codeproject com KB c
Silverlight：拉伸到 StackPanel 中的剩余空间

我有一个带有两个元素的垂直 StackPanel 一个按钮和一个列表框如何让列表框拉伸到剩余页面高度
将一个 Artifactory 连接到另一个 Artifactory

我们的设置包括一个全公司范围的 Artifactory 它保存内部构建的工件并出去获取公开可用的工件我正在尝试在我们的位置建立一个本地 Artifactory 它将通过常规互联网获取公开可用的工件但会连接到公司范围内的 Artifac
Python open("x", "r") 函数，我如何知道或控制文件应该具有哪种编码？

如果 python 脚本使用open filename r 函数打开并随后读取文本文件的内容我如何知道该文件应该具有哪种编码请注意由于我是从自己的程序执行此脚本因此如果有任何方法可以通过环境变量来控制它那么这对我来说就足够了顺便
Python 中子类化 string.Template 的示例？

尽管我在文档中看到了多次这样做的参考但我还没有找到在 Python 中子类化 string Template 的好例子网上有这方面的例子吗我想将更改为不同的字符并且可能更改标识符的正则表达式来自蟒蛇docs http docs
谷歌应用程序引擎中的 OAuth

我正在尝试在 python 上的谷歌应用程序引擎中实现 Oauth 对于我的应用程序我使用 gae 会话和我的模型来验证用户身份这对我来说会更有帮助如果你能提供一些例子您可能想查看以下资源 The App Engine OAuth
如何测量 Spark 上查询的执行时间

我需要测量 Apache Spark Bluemix 上查询的执行时间我尝试过的 import time startTimeQuery time clock df sqlContext sql query df show endTimeQ

如何测量 Spark 上查询的执行时间

如何测量 Spark 上查询的执行时间 的相关文章

随机推荐

热门标签

如何测量 Spark 上查询的执行时间的相关文章