load() 在 Spark 中做什么？

2023-12-19

火花很懒吧？那么什么是load() do?

start = timeit.default_timer()

 df = sqlContext.read.option(
     "es.resource", indexes
 ).format("org.elasticsearch.spark.sql")
 end = timeit.default_timer()

 print('without load: ', end - start) # almost instant
 start = timeit.default_timer()

 df = df.load()
 end = timeit.default_timer()
 print('load: ', end - start) # takes 1sec

 start = timeit.default_timer()

 df.show()
 end = timeit.default_timer()
 print('show: ', end - start) # takes 4 sec

If show()我猜这是唯一的行动load不会花费太多时间，如 1 秒。所以我得出结论load()是一个动作（与 Spark 中的转换相对）

load 是否真的将整个数据加载到内存中？我不这么认为，但是它有什么作用呢？

我搜索并查看了文档https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html但这没有帮助..

tl;dr load()是一个 DataFrameReader api(org.apache.spark.sql.DataFrameReader#load）从下面的代码可以看出，它返回一个DataFrame，可以在其上应用 Spark 转换。

/**
   * Loads input in as a `DataFrame`, for data sources that support multiple paths.
   * Only works if the source is a HadoopFsRelationProvider.
   *
   * @since 1.6.0
   */
  @scala.annotation.varargs
  def load(paths: String*): DataFrame

需要创建一个 DataFrame 来执行转换。
要从路径（HDFS、S3 等）创建数据帧，用户可以使用spark.read.format("<format>").load().（还有特定于数据源的 API，可以自动加载文件，例如spark.read.parquet(<path>))

为什么需要整整1秒？

在基于文件的源中，这一次可以归因于文件列表。在 HDFS 中，这些列表并不昂贵，而在像 S3 这样的云存储中，这个列表非常昂贵，并且需要与文件数量成比例的时间。
在您的情况下，使用的数据源是elastic-search，时间可归因于连接建立、收集元数据以执行分布式扫描等，这取决于 Elastic Serach 连接器实现。我们可以启用调试日志并检查更多信息。如果elasticsearch有办法记录它收到的请求，我们可以检查elasticsearch日志中是否有在该时间之后发出的请求load()被解雇。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

elasticsearchhadoop

load() 在 Spark 中做什么？的相关文章

创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location

随机推荐

如何在 linkedin 开发者应用程序中设置“r_fullprofile”访问权限？

我在我的应用程序中应用了一个 API 来访问需要 r fullprofile 访问权限的 linkedin 推荐在 linkdin api 升级之前它工作正常但现在 linkedIn 应用程序不提供设置完整配置文件访问权限这就是我的
ARM 上 TLS 的代码序列

The 线程本地存储的 ELF 处理 http www akkadia org drepper tls pdf文档给出了各种架构的各种模型本地执行初始执行一般动态的汇编序列但 ARM 不行有什么地方可以看到 ARM 的此类代码序
使用 ColumnText 会导致“文档没有页面”异常

我想将文本包装在图像下方或左侧或右侧的矩形中如下所示请参阅链接 http upanh in SLk http upanh in SLk 我在代码中使用 ColumnText 来换行文本 protected void doGet Ht
Java 8 是否提供了重复值或函数的好方法？

在许多其他语言中例如 Haskell 很容易多次重复一个值或函数例如获取值 1 的 8 个副本的列表 take 8 repeat 1 但我在Java 8中还没有找到这个功能 Java 8的JDK中有这样的功能吗或者相当于类似范围的东
内存流为空

我需要从不同的来源函数生成一个巨大的 xml 文件我决定使用XmlTextWriter因为它使用的内存比XmlDocument 首先发起一个XmlWriter与底层MemoryStream MemoryStream ms new M
如何在 .NET 4.5 中“同时”运行这两个方法？

我有一个方法可以执行 2独立的逻辑片段我希望我能同时运行它们同时并且仅在这两个子方法完成后才继续我试图弄清楚async await语法但我就是不明白这是代码 public PewPew SomeMethod Foo foo var
为什么我对模型实例的更改有时无法保存在 Rails 3 中？

我有一个名为 Post 的模型并在模型中创建了两个方法来更改字段当调用保存时第一个方法的更改将被保留第二种方法的更改不会保存我之前在其他模型中注意到过这种行为我认为我缺少一些关于模型如何工作的基本知识对此的任何帮助将不胜感激
Node-mysql插入有两个值的查询？

这是我当前的 JavaScript var connection mysql createConnection host localhost user root password root database codify port 8889
Constexpr 放置新？

C 标准明确禁止调用new在常量表达式中 N4296 第 5 20 节 expr const 条件表达式 e 是核心常量表达式除非对 e 的求值遵循抽象机 1 9 的规则将求值以下表达式之一新表达式 5 3 4 该禁令据我所知延伸
我什么时候需要三斜线参考？

当 Anders Hejlsberg 在下面的视频中 35 00 左右谈论外部模块时 Anders Hejlsberg TypeScript 简介 http channel9 msdn com posts Anders Hejlsberg
在Java中使用相同的内部类名和对象名

在下面的代码片段中大概看起来应该会发出一些编译错误但事实并非如此 class Outer public static class Inner static String obj Inner static Optional Inner n
GROUP_BY 内的活动记录 LIMIT

SCENARIO我有一个充满帖子的表和一个用户表我希望能够获取所有帖子并按用户对它们进行分组但我想要将限制设置为每个用户 10 个 class Post lt ActiveRecord Base belongs to user end
Flickity 2 - groupCells 和 pageDots 不能同时工作

我是新来的flickity http flickity metafizzy co 我想对单元格进行分组并同时显示点但在我的项目中它们似乎是相互排斥的我可以对单元格进行分组或显示点即使从这里codepen http codepen i
PHP 将变量发送到 file_get_contents()

我希望能够通过以下方式将一些变量发送到文件file get contents 这是firstfile php 这是第二个文件 php The value of myvar is 我想要变量 mystr等于 The value of myva
ios 8 中的 UIWindow 框架与 Landscape 中的 ios 7 不同

我创建了简单的模块将子视图添加到 UIWindow 中在模拟器 ios 7 Xcode 5 1 1 中我打印了 self windows 并得到
我有三种字体类型 - Gotham-bold、Gotham-medium、Gotham-thin，所以我需要使用三次 @font-face 吗？

实际上我的字体文件夹中有三个文件这些都是Gotham Bold ttf Gotham Medium ttf Gotham Thin ttf 那么我需要使用 font face这三种类型重复三次请任何人帮助我我目前使用的代码如下 fon
JavaScript 中的请求地址[重复]

这个问题在这里已经有答案了可能的重复使用 JavaScript 获取当前 URL https stackoverflow com questions 1034621 如何在 JavaScript 中获取当前页面的地址例如如果我有一个
如何从命令行在 os x 中打开和关闭网络代理

在 OS X 中您可以从系统偏好设置 gt 网络 gt 代理打开和关闭 Web 代理方法是选中 Web 代理 HTTP 并指定 Web 代理服务器等然后单击确定然后单击应用这步骤太多了有没有办法从命令行和 shell 脚
如何在代理后面使用 HTTPBuilder 并进行身份验证

我尝试了2个小时但没能成功这就是我所做的 grails add proxy myproxy host
load() 在 Spark 中做什么？

火花很懒吧那么什么是load do start timeit default timer df sqlContext read option es resource indexes format org elasticsearch spa

load() 在 Spark 中做什么？

为什么需要整整1秒？

load() 在 Spark 中做什么？ 的相关文章

随机推荐

热门标签

load() 在 Spark 中做什么？的相关文章