Spark，执行器加载/查询数据 - 性能非常低

2024-04-29

我的用例如下：

写作RDD归档依据saveAsTable（对于 ORC 文件也是如此）。每次保存都会创建新文件（因此1000 000著作给我1000 000ORC 文件）。我知道每个 RDD 都会创建新的 ORC 文件，这是很自然的。但是，我不知道为什么从 ThriftServer 查询它们时如此慢。

我的问题是：如何理解这种奇怪的行为？
例如，SELECT COUNT(*)1000 000 行（因此相同的文件）大约需要1 minute (!).
但是，当我保存时1000 000行到一个文件，相同的查询适用于50ms.

我想了解这种差异。毕竟，1000 000文件数量很少。

计数操作的高级执行计划将如下所示（假设您的文件位于分布式文件系统中，例如我将使用 HDFS）：

从 HDFS NameNode 请求文件
将 HDFS 块加载到执行器中
对每个分区进行计数（使用 ORC 元数据或直接 - 取决于实现）并将所有分区加在一起

一些估计：1000 000 个文件需要向 NameNode 发出相同数量的请求来解析数据块的物理位置。它在文档:

例如ORC文件格式与RCFile格式相比有很多优点如：
a single file as the output of each task, which reduces the NameNode's load

当 ORC 试图减少文件数量时，您的代码却做了相反的事情。和

默认条带大小为 250 MB。大条纹尺寸可实现大、从 HDFS 高效读取。

文件页脚包含文件中的条带列表，条带的数量每个条带的行数以及每列的数据类型。它还包含列级聚合计数、最小值、最大值和总和。

像计数这样的简单统计数据是预先计算的，不应该是性能问题。您可以尝试通过暴力简单地向 HDFS NameNode 添加内存和 CPU 能力来解决问题，但我认为保留适度数量的文件是合理的。如果您的数据来自某个流源，您可以创建某种压缩作业，将小文件合并为大文件并定期运行。或者，作为替代方案，如果这种延迟适合您的用例，您可以每 2-5 分钟从源读取一次。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark，执行器加载/查询数据 - 性能非常低的相关文章

如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe

随机推荐

Autodesk Forge Viewer 如何获取线起点/终点的坐标

我正在尝试在 forge 查看器中突出显示房间在 Revit 中我创建了代表房间边界的线条转换为 svf 后我知道这些行的 dbids 现在我想知道这些线的起点和终点顶点以便我可以创建房间边界的 Three Shape 编辑我
PyCharm 上的远程调试

我的源代码存储在远程计算机上我想远程编码和调试我的Python源代码我应该如何配置PyCharm启用远程调试对于远程调试您需要将源代码复制到本地计算机设置项目配置到远程计算机的部署并添加远程 Python 解释器以在远程系统上运
Xcode：如何让目标设置从项目继承

我们的目标设定是继承 https stackoverflow com a 1642738 47281从项目设置我们更改了目标设置中断继承但现在希望目标再次开始从项目继承你怎么能这样做呢清除有问题的目标设置似乎不起作用清除目标设置
MS Access DAO 连接在退出时放弃更改

因此我有一个 Access 表单我在其中使用此 VBA 代码以及与 MySQL 数据库的 DAO 连接一切都很好但如果用户关闭表单而不单击保存按钮新记录无论如何都会保存所以我正在寻找的是是否有任何方法可以在关闭事件时阻止将
在 Android 中设置 Signalr：崩溃/挂起问题

我跟着本教程 https whathecode wordpress com 2014 03 20 getting started with the java signalr sdk 为我的 Android 应用程序设置一个 NET 后端来实
如何获取Linux中进程或端口的网络带宽使用情况

我想获取每个进程的网络带宽使用情况我找了很多这方面的资料比如iftop nethogs http nethogs sourceforge net Linux进程浏览器 http sourceforge net projects proc
Google Sheets API v4：batchGet 不起作用

无法使用 batchGet 让 Google Sheets API v4 返回多个范围值它给出以下错误尽管文档说它需要 valueRanges 但所有范围和电子表格 ID 都是正确的额外的参数块必须是 javascript 对象文字
处理 DBNull.Value

我经常需要处理连接到网格控件的数据表自定义更新似乎总是产生大量与 DBNull Value 相关的代码我在这里看到了类似的问题但认为必须有更好的答案处理 DBNull 的最佳方法是什么 https stackoverflow com
退格键删除整个跨度元素

是否可以通过退格键防止跨度删除 div class form control span class correct answer span The correct answer is A 1 to 2 span span class sen
F# 是卡牌游戏 AI 的好语言吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
消息 discord.py 中的可点击链接

我希望我的机器人将消息发送到聊天中如下所示 await ctx send This country is not supported you can ask me to add it here 但是为了使这里成为可点击的链接在 HT
在函数中使用node-mysql

我对 Nodejs 很陌生有一个问题尝试创建一个函数该函数将调用我在表中提到其 ID 的任何字段的值 function getUserInfo userID dynamicField var query connection quer
破译vtable转储

我正在玩 C 中的虚拟继承我想知道类对象是如何布局的我有这三个课程 class A private int a public A this gt a 47 virtual void setInt int x this gt a x v
我怎样才能找出MySQL中的默认字符集/排序规则[重复]

这个问题在这里已经有答案了我在 Ubuntu 18 04 上使用 MySQL 和 MySQL Workbench 8 0 当我创建字符串类型的列时我将字符集排序规则保留为默认值在 MySQL Workbench 中它只是告诉我就是
在 sails.js 中跟踪用户在线/离线状态

我必须在我的 Web 应用程序中使用 sails js 中的 websockets 找出用户状态即用户是否在线离线请帮我多谢从 Sails v0 9 8 开始您可以使用onConnect and onDisconnect功能于c
CSS 的用户选择和可访问性

如果我使用以下内容 webkit touch callout none webkit user select none khtml user select none moz user select none ms user select n
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
从 X.509 证书中提取 PEM 公钥

我已经创建了一个包含公钥 DER 文件的证书但我现在需要 PEM 格式的公钥用于不同的平台目的是使用相同的公钥我使用创建它iOS 中的 RSA 加密并使用 PHP 解密 http jslim net blog 2013 01 05 r
Android - NumberPicker 滚动/快速滑动更快

如何使数字选择器滚动快速滑动更快目前从00分钟到59分钟需要付出很大的努力我尝试过一些例子Android 中 Viewpager 控制器速度减慢 https stackoverflow com questions 8155257 sl
Spark，执行器加载/查询数据 - 性能非常低

我的用例如下写作RDD归档依据saveAsTable 对于 ORC 文件也是如此每次保存都会创建新文件因此1000 000著作给我1000 000ORC 文件我知道每个 RDD 都会创建新的 ORC 文件这是很自然的但是我不知

Spark，执行器加载/查询数据 - 性能非常低

Spark，执行器加载/查询数据 - 性能非常低 的相关文章

随机推荐

热门标签

Spark，执行器加载/查询数据 - 性能非常低的相关文章