是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？

2024-04-02

我通常看到Dataset.count在 3 个场景中的整个代码库：

logging log.info("this ds has ${dataset.count} rows")
分枝if (dataset.count > 0) do x else do y
强制缓存dataset.persist.count

它是否会通过强制查询优化器在任何这些场景中过早地急切来阻止查询优化器创建最有效的 dag？

TL;DR1) 和 2) 通常可以避免，但不会对您造成伤害（忽略评估成本），3) 通常是有害的货物崇拜编程 https://en.wikipedia.org/wiki/Cargo_cult_programming实践。

Without cache

Calling count独自一人大多是浪费。虽然并不总是那么简单，但可以用从侦听器检索的信息来替换日志记录（这是 RDD 的示例 https://stackoverflow.com/q/37496650/9613318），并且控制流要求通常（并非总是）可以通过更好的管道设计来调节。

单独它不会对执行计划产生任何影响（计数的执行计划通常与父级的执行计划不同。一般来说，Spark 会做尽可能少的工作，因此它会删除部分执行计划，这不需要计算计数）。

With cache:

count with cache是从 RDD API 使用的模式中天真复制的糟糕做法。已经有争议了RDDs，但与DataFrame can 打破了很多内部优化 https://stackoverflow.com/q/49798098/9613318（选择和谓词下推）从技术上讲，甚至不能保证工作 http://apache-spark-developers-list.1001551.n3.nabble.com/Will-count-always-trigger-an-evaluation-of-each-row-tp21018p21024.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？的相关文章

IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset

随机推荐

Istio 入口网关：404 NRroute_not_found

我想配置一个 Istio 入口网关它根据 HTTP 路径的前缀将流量路由到不同的服务例如 HTTP 流量路径我的服务应路由至服务我的服务到目前为止我已经创建了以下 YAML 配置 apiVersion apps v1 kind D
非虚拟析构函数的未定义行为 - 这是现实世界的问题吗？

考虑以下代码 class A public A A class B public A B B A b new B delete b undefined behaviour 我的理解是 C 标准说删除 b 是未定义的行为即 anything
优化 BaseX 中缓慢的 XQuery 查询

我有一个 BaseX XML 数据库只有一个小的 XML 文件这些文件基本上由两种结构组成一是PlatformCategory有 46 个实例另一个PlatformGenericType有 213 个实例 PlatformGener
UICollectionView 单元格阴影

我正在尝试为我的自定义添加阴影UICollectionViewCell 这是我在自定义集合视图单元格类中使用的代码 self layer shadowOffset CGSizeMake 1 0 self layer shadowColor
单击节点时打开分支？

我被困住了jsTree http www jstree com 这里到目前为止它有效我可以使用图标浏览和展开节点并在单击节点时打开页面但我仍然希望它在有人单击节点时展开所有直接节点我环视了至少两个小时但什么也没找到官方网站
如何更改Material UI表格中排序图标的样式？

我想让材质表中的排序图标即使在隐藏时也稍微可见目前当未选择不可见时图标的不透明度为 0 但我想将其更改为 0 4 以便它们稍微可见并且选择后不透明度将为 1 以便它们完全可见由于图标是 tableHead 的一部分并且我无权
从项目资源加载 json 时，json.net 反序列化抛出异常

这是产生问题的反序列化 public MyType ProblematicDeserialization jsonString return Newtonsoft Json JsonConvert DeserializeObject
如何使用包含额外数据的 Gzip 文件？

我正在编写一个脚本它将以 gzip 流的形式处理来自仪器的数据在大约 90 的情况下 gzip模块工作完美但某些流导致它产生IOError Not a gzipped file 如果 gzip 标头被删除并且 deflate 流直接馈
Spring + Lombok：我可以@Autowired @Setter

class Foo Setter Autowired private Bar bar Spring在这里将使用字段注入目前有什么方法告诉它使用 setter 注入吗我不知道在 Spring 中是否有办法做到这一点但你可以尝试使用以下方
当我有多个文本视图时，如何动态修复我的滚动视图？

我有一个scrollView 它由detailView 中的3 个textView 按钮和标签组成我使用 3 个文本视图因为我的视图标题日期和描述需要不同的字体问题是有时描述很长有时又很小而且与标题相同那么视图看起来根本就不好
如何自定义 Selenium IDE 导出？

在 Firefox 的 Selenium IDE 中在选项 gt C NUnit Webdriver 下有一个源按钮用于查看转换格式化程序它以只读格式显示是否可以访问此文件以自定义导出过程抱歉如果这似乎是一个微不足道的问题
将 HTML 表单字段转换为带有内部对象的 JSON 对象

给定以下 HTML 表单
在名为“dispatcherServlet”的 DispatcherServlet 中未找到带有 URI [/WEB-INF/pages/MainPage.jsp] 的 HTTP 请求的映射 [重复]

这个问题在这里已经有答案了我正在尝试使用注释来配置 Spring Boot 我有课 EnableWebMvc Configuration ComponentScan EnableTransactionManagement EnableAu
如何升级巴泽尔？

我成功构建了 bazel 0 4 0 然后我尝试将其升级到最新版本巴泽尔 0 5 1 using compile sh compile bazel 0 4 0 output bazel exe 它给了我一个错误巴泽尔 0 5 0 巴泽尔
java for 循环执行太快导致 System.currentTimeMillis() 重复

Java 我在使用 System currentTimeMillis 函数时遇到问题我正在使用 System currentTimeMillis 在 foo 循环中生成唯一值问题是循环执行太快而 System currentTimeM
使用 ember.js 时出现 Access-Control-Allow-Origin 错误（使用 ember-cli）

这是我在 app routes customers js 中的路线 export default Ember Route extend model function return getJSON http 127 0 0 1 3000 od
基于值的颜色填充？

我正在 Python matplotlib pandas 中寻找一种方法来为与此类似的图形创建颜色填充来源 http www scminc com resources SCM TIPSTRICKS Petrel Well Sections
如果用户通过oauth2授权对应用程序进行授权，如何刷新Linkedin oauth token？

我需要刷新用户 linkedin 访问令牌而无需他们重新执行初始授权过程我也看过这个文档http developer linkedin com documents exchange jsapi tokens rest api oauth
如何创建自定义 SynchronizationContext 以便所有延续都可以由我自己的单线程事件循环处理？

假设您正在编写一个自定义单线程 GUI 库或任何具有事件循环的库根据我的理解如果我使用async await 或者只是常规的 TPL 延续它们都将安排在TaskScheduler Current or on Synchronizat
是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？

我通常看到Dataset count在 3 个场景中的整个代码库 logging log info this ds has dataset count rows 分枝if dataset count gt 0 do x else do y

是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？

是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？ 的相关文章

随机推荐

热门标签

是否有任何性能问题迫使使用 Spark 中的计数进行急切评估？的相关文章