我需要测量 Apache Spark (Bluemix) 上查询的执行时间。
我尝试过的:
import time
startTimeQuery = time.clock()
df = sqlContext.sql(query)
df.show()
endTimeQuery = time.clock()
runTimeQuery = endTimeQuery - startTimeQuery
这是个好办法吗?相对于我看到桌子时,我得到的时间看起来太短了。
要在 Spark-Shell (Scala) 中执行此操作,您可以使用spark.time()
.
看我另一个回复:https://stackoverflow.com/a/50289329/3397114 https://stackoverflow.com/a/50289329/3397114
df = sqlContext.sql(query)
spark.time(df.show())
输出将是:
+----+----+
|col1|col2|
+----+----+
|val1|val2|
+----+----+
Time taken: xxx ms
有关的:关于测量 Apache Spark 工作负载指标以进行性能故障排除 https://db-blog.web.cern.ch/blog/luca-canali/2017-03-measuring-apache-spark-workload-metrics-performance-troubleshooting.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)