为什么在 Spark 数据集上调用缓存需要很长时间？

2023-12-21

我正在加载大型数据集，然后缓存它们以供我的代码中参考。代码看起来像这样：

val conversations = sqlContext.read
  .format("com.databricks.spark.redshift")
  .option("url", jdbcUrl)
  .option("tempdir", tempDir)
  .option("forward_spark_s3_credentials","true")
  .option("query", "SELECT * FROM my_table "+
                   "WHERE date <= '2017-06-03' "+
                   "AND date >= '2017-03-06' ")
  .load()
  .cache()

如果我离开缓存，代码会快速执行，因为数据集是延迟计算的。但是如果我使用cache()，该块需要很长时间才能运行。

从在线 Spark UI 的事件时间轴来看，SQL 表正在传输到工作节点，然后缓存在工作节点上。

为什么缓存会立即执行？源代码似乎仅在计算数据时将其标记为缓存：

The 数据集的源代码 https://github.com/apache/spark/blob/258bff2c3f54490ddca898e276029db9adf575d9/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala调用此代码在 CacheManager.scala 中 https://github.com/apache/spark/blob/258bff2c3f54490ddca898e276029db9adf575d9/sql/core/src/main/scala/org/apache/spark/sql/execution/CacheManager.scala当调用缓存或持久时：

  /**
   * Caches the data produced by the logical representation of the given [[Dataset]].
   * Unlike `RDD.cache()`, the default storage level is set to be `MEMORY_AND_DISK` because
   * recomputing the in-memory columnar representation of the underlying table is expensive.
   */
  def cacheQuery(
      query: Dataset[_],
      tableName: Option[String] = None,
      storageLevel: StorageLevel = MEMORY_AND_DISK): Unit = writeLock {
    val planToCache = query.logicalPlan
    if (lookupCachedData(planToCache).nonEmpty) {
      logWarning("Asked to cache already cached data.")
    } else {
      val sparkSession = query.sparkSession
      cachedData.add(CachedData(
        planToCache,
        InMemoryRelation(
          sparkSession.sessionState.conf.useCompression,
          sparkSession.sessionState.conf.columnBatchSize,
          storageLevel,
          sparkSession.sessionState.executePlan(planToCache).executedPlan,
          tableName)))
    }
  }

这似乎只是标记为缓存而不是实际缓存数据。我希望缓存能够根据 Stack Overflow 上的其他答案立即返回。

有没有其他人看到缓存发生在action https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions是在数据集上执行的？为什么会发生这种情况？

cache是导致数据集执行的运算符之一。 Spark 会将整个数据集具体化到内存中。如果您在相当大的中间数据集上调用缓存，这可能需要很长时间。

可能存在的问题是缓存的数据集仅存储在内存中。当它不再适合时，数据集的分区将被逐出并根据需要重新计算（请参阅https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence）。如果内存太少，您的程序可能会花费大量时间来重新计算。

为了加快缓存速度，您可以为应用程序提供更多内存，或者您可以尝试使用persist(MEMORY_AND_DISK)代替cache.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么在 Spark 数据集上调用缓存需要很长时间？的相关文章

使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
使用 Akka 1.3 的 actor 时，我需要注意生产者-消费者速率匹配吗？

使用 Akka 1 3 时我是否需要担心当生成消息的 Actor 生成消息的速度比使用消息的 Actor 的处理速度快时会发生什么如果没有任何机制在长时间运行的进程中队列大小将增大以消耗所有可用内存 The doc http doc
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
如何使方法通用而不出现“未找到匹配的形状”

除了编写大量样板文件之外我不知道如何克服这个找不到匹配的形状错误要点中说明的基本思想是我有一个非常基本的方法版本有效但非常具体然后是一个采用mapper参数并且更通用也可以工作但特定于一种特定类型然后是第三个版本它采
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
检查缓存后 System.Web.HttpContext.Current 自身为空

今天我遇到了一个奇怪的问题这对我来说毫无意义总结如下在方法内部我检查缓存的项目如下所示 private async Task
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

从 Jenkinsfile 中的共享库导入类

我有一个具有以下结构的共享库存储库 root src com company DeploySteps groovy vars MainDeploySteps groovy 该库通过 Jenkinsfile 导入到作业中如下所示 libra
保存后显示相同页面

我想显示一个带有某些字段示例中的一个的表单提交它保存并显示同一页面并重置所有字段当我提交问题时我执行保存操作但是当我显示视图时表单仍然被填写该模型 public class TestingModel public st
多个已编译的 linq 查询可以链接在一起吗？

我正在尝试将多个已编译的 linq 查询链接在一起我已经成功地将两个查询链接在一起但我无法让三个查询链正常工作因此这里减少了我的代码以重现问题我的两个问题是为什么这不起作用以及是否有更好的方法来保持编译查询的性能优势并避免重
如何在 PHP Web 应用程序中实现 Mozilla DeepSpeech 以将语音转换为文本？

我有一个 PHP Web 应用程序正在寻找一种开源高精度的语音到文本识别实现该实现将采用语音命令来打开用户的网页例子进行销售这将打开创建销售 PHP 页面下达采购订单打开日终报告 etc 我的问题我想知道我们是否可以使用M
如何使用代表点对复杂形状进行建模？

我想将该图像中的白色像素数量减少到输出图像中的一些候选点或代表点目标是对不同类型的形状进行建模如果您只是将输出图像中的灰点连接在一起您将拥有相同的路径但白色像素较少这条路径应该只有一个起点和一个终点并且涵盖从起点到终点的所有路径
GDB未知目标异常（在64位环境下调试32位目标时）

我想使用 64 位版本的 MinGW w64 x86 64 w64 mingw32 提供的 GDB 调试器来调试使用 32 位版本的 MinGW w64 x86 64 w64 mingw32 创建的 32 位目标根据在 64 位环境中使用
GSON 未以 UTF-8 发送

以下方法发送 JSON 回复然而在接收端我不断收到无效字符并且 UTF 8 无法解码数据我究竟做错了什么对客户端的响应数据输出流 Get the client request clientRequest new Buffere
Android oreo 在白色圆形内显示图标

我的 Android 应用程序在 Android oreo 版本上显示白色圆圈内的启动器图标我想显示启动器图标因为默认情况下它在奥利奥设备上是方形的浏览了各种博客发现 1 移动用户可以从主屏幕设置屏幕更改图标类型但我不想要我想默
getElementById 的 Javascript 简写

JavaScript document getElementById 是否有简写或者有什么方法可以定义一个吗它会重复重新输入over and over var function id return document getElement
C# 中的自动属性是什么？它们的用途是什么？

有人可以对 C 中的自动属性及其用途提供一个非常简单的解释吗也许还可以提供一些示例请尽量用通俗易懂的语言来表达拜托当属性访问器中不需要附加逻辑时将使用自动属性该声明看起来像这样 public int SomeProperty g
Jersey 不支持嵌套资源中的声明性超链接，这是否正确？

public class Widget Ref resource WidgetResource class URI url public URI getUrl return url public Wonkle getWonkle retur
匹配函数来匹配多个值

我有两列 Column A Column B Apple A banana B Grape C Apple D Banana F 现在我想找到有数据的行的行号Apple D 他们的使用方式是Match函数获取行号你可以使用这个 LOOKU
Jqgrid 数据类型从数组本地加载

在我询问如何在从本地 js var 刷新下划线数据后重新应用工具栏过滤器时在这里问 https stackoverflow com questions 12983215 alternative to jqgrid triggertoolba
如果您已经拥有资源，为什么要将 ETag 设置为必须要求？

为什么要将 ETag 设置为必须要求级别您在 ETag 返回之前获取资源我正在开发一个项目其中我是向服务器发送 HTTP 请求的客户端该服务器返回带有 ETag 的 HTTP Cache Control 标头来缓存响应其中在每个
插入具有多对一关系的 Hibernate 实体

我对 Hibernate 相当陌生并且有一个关于当实体具有 FK 时如何处理插入的问题具体来说如何创建要插入的实体我的实体简化了以下结构 Entity Table name event public class Event imple
访问修饰符有什么用

编程语言中需要使用访问修饰符吗如果我们选择所有成员和方法作为私有那么输出会是什么 See 封装 http en wikipedia org wiki Encapsulation object oriented programming 维
java 8 嵌套流

假设您有这样的结构类 public class Review private Integer idReview private String description private ArrayList
Apache 2.4 with mod_wsgi: 403 Forbidden, 无权访问此服务器上的 /calbase

所以我尝试使用 apache 2 4 和 mod wsgi 和 pythong 3 4 在 Windows 服务器上部署我的 django 项目在我配置 httpd conf 并尝试启动安装了 mod wsgi 的 apache 之前它
Java 进程中的 Sudo

我正在开发一个终端应用程序它允许人们从 Swing GUI 执行 bash 命令尝试使用 sudo 执行命令时遇到以下问题 sudo cd Users myname Desktop sudo 不存在 tty 且未指定 Askpass 程
为什么在 Spark 数据集上调用缓存需要很长时间？

我正在加载大型数据集然后缓存它们以供我的代码中参考代码看起来像这样 val conversations sqlContext read format com databricks spark redshift option url jd

为什么在 Spark 数据集上调用缓存需要很长时间？

为什么在 Spark 数据集上调用缓存需要很长时间？ 的相关文章

随机推荐

热门标签

为什么在 Spark 数据集上调用缓存需要很长时间？的相关文章