如何高效更新文件修改频繁的Impala表

2024-03-05

我们有一个基于 Hadoop 的解决方案 (CDH 5.15)，我们可以在 HDFS 的某些目录中获取新文件。在这些目录的顶部，我们有 4-5 个 Impala (2.1) 表。在 HDFS 中写入这些文件的过程是 Spark Structured Streaming (2.3.1)

现在，一旦我们将文件写入 HDFS，我们就会运行一些 DDL 查询：

ALTER TABLE table1 RECOVER PARTITONS检测添加到表中的新分区（及其 HDFS 目录和文件）。
REFRESH table1 PARTITIONS (partition1=X, partition2=Y)，使用每个分区的所有键。

目前，此 DDL 花费的时间有点太长，并且它们在我们的系统中排队，从而损害了系统的数据可用性。

所以，我的问题是：有没有一种方法可以更有效地进行数据合并？

我们考虑过：

使用ALTER TABLE .. RECOVER PARTITONS但根据文档 https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_alter_table.html，它只刷新新分区。
尝试使用REFRESH .. PARTITON ...一次具有多个分区，但语句语法不允许这样做。
尝试对查询进行批处理，但 Hive JDBC 驱动器不支持批处理查询。
鉴于系统已经很忙，我们是否应该尝试并行进行这些更新？
您还知道其他什么方式吗？

Thanks!

Victor

注意：我们知道哪些分区需要刷新的方法是使用 HDFS 事件，就像 Spark 结构化流一样，我们不知道文件何时写入。

注意#2：此外，HDFS 中写入的文件有时很小，因此如果能够同时合并这些文件那就太好了。

由于似乎没有人能解决我的问题，我想分享我们为提高处理效率而采取的方法，非常欢迎提出意见。

我们发现（文档对此不是很清楚）HDFS 中的 Spark“检查点”中存储的一些信息是许多元数据文件，描述每个 Parquet 文件的写入时间及其大小：

$hdfs dfs -ls -h hdfs://...../my_spark_job/_spark_metadata

w-r--r--   3 hdfs 68K   2020-02-26 20:49 hdfs://...../my_spark_job/_spark_metadata/3248
rw-r--r--  3 hdfs 33.3M 2020-02-26 20:53 hdfs://...../my_spark_job/_spark_metadata/3249.compact
w-r--r--   3 hdfs 68K   2020-02-26 20:54 hdfs://...../my_spark_job/_spark_metadata/3250
...

$hdfs dfs -cat hdfs://...../my_spark_job/_spark_metadata/3250
v1
{"path":"hdfs://.../my_spark_job/../part-00004.c000.snappy.parquet","size":9866555,"isDir":false,"modificationTime":1582750862638,"blockReplication":3,"blockSize":134217728,"action":"add"}
{"path":"hdfs://.../my_spark_job/../part-00004.c001.snappy.parquet","size":526513,"isDir":false,"modificationTime":1582750862834,"blockReplication":3,"blockSize":134217728,"action":"add"}
...

所以，我们所做的是：

Build a Spark Streaming Job polling that _spark_metadata folder.
- 我们使用一个fileStream因为它允许我们定义要使用的文件过滤器。
- 该流中的每个条目都是这些 JSON 行之一，解析该行以提取文件路径和大小。
按文件所属的父文件夹（映射到每个 Impala 分区）对文件进行分组。
For each folder:
- 读取数据帧加载only目标 Parquet 文件（以避免与写入文件的其他作业发生竞争情况）
- 计算要写入的块数（使用 JSON 中的大小字段和目标块大小）
- 将数据帧合并到所需数量的分区并将其写回 HDFS
- 执行DDLREFRESH TABLE myTable PARTITION ([partition keys derived from the new folder]
最后删除源文件

我们取得的成果是：

通过对每个分区和批次进行一次刷新来限制 DDL。
通过可配置批处理时间和块大小，我们能够使我们的产品适应具有更大或更小数据集的不同部署场景。
该解决方案非常灵活，因为我们可以为 Spark Streaming 作业分配更多或更少的资源（执行程序、核心、内存等），并且我们还可以启动/停止它（使用其自己的检查点系统）。
我们还在研究在执行此过程时应用一些数据重新分区的可能性，以使分区尽可能接近最佳大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

impala

SparkStructuredStreaming

clouderacdh

如何高效更新文件修改频繁的Impala表的相关文章

在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
如何在 Ubuntu 上安装 Impala？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我要安装Impala https impala apache org 在 Ubuntu 实例上到目前为止以下方法都不起作用如何在 U
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach

随机推荐

Spring Boot JSF 集成

环境雄猫8 春季启动 1 5 JSF 2 2 阿帕奇 MyFaces 春季MVC Code 我正在 Servlet 3 0 环境中集成 Spring Boot 和 JSF 2 2 配置类 JSFConfig java JSF 的配置 Co
无法通用导入Python包

假设我有以下目录结构 workspace init py ys manage init py manage py ys utils init py project dicts py 现在假设我需要访问project dicts py in
如何合并多个数组而不减慢编译器速度？

添加这行代码会使我的编译时间从 10 秒缩短到 3 分钟 var resultsArray hashTagParticipantCodes prefixParticipantCodes asterixParticipantCodes att
C# 中引用类型和值类型有什么区别？

几个月前有人问我这个问题我无法详细解释 C 中引用类型和值类型有什么区别我知道值类型是int bool float等参考类型是delegate interface等等或者这也是错误的吗你能用专业的方式给我解释一下吗你的例子有点奇
Windows 8 ARM（A.K.A.）吗？ “Windows RT”有可供第三方开发人员使用的 Winapi (win32) 吗？

Windows 8 for ARM 也称为 Windows RT 它是否具有与 Win32 API 等效的功能 I don t意味着它是否可以运行 Win32 x86 代码但如果它具有 Win32 API可用的给第三方开发商是的 ARM
Rake 任务只调用一次就执行两次

我编写了一个非常简单的 rake 任务来尝试找到这个问题的根源 namespace foo do task bar environment do puts RUNNING end end 在控制台执行时rake foo bar输出是 RUN
SSIS 格式化货币输出

在我的输出 CSV 文件中有 4 列数据类型为货币我的输出是平面文件 CSV 文件我希望输出中的每一列都采用以下格式这并没有发生输出 CSV 文件中出现实际包含美分的列50 79 no 以以下结尾的列0正在压制0 40 8 零列看
Rest API 与客户端分离的多租户数据库

我有一个带有组合键的多租户数据库 clientId docId 路由看起来像这样 api controller clientId docId 对于身份验证我使用全局用户名例如电子邮件密码通过 https 在每个请求的 http
Spring Data动态查询

我正在尝试使用 spring 数据设置一个动态查询基本上我有一个具有一堆特征的数组我需要根据这些特征组装查询几乎类似于 WHEREcharacteristic A ANDcharacteristic B AND特征 C 但特征的数量可
单击 FusionTablesLayer 多边形时的事件

每次客户端点击多边形时我都需要在我的 JavaScript 中知道我还需要知道它对应于我的融合表中的哪一行有这样做的活动吗有这样做的活动吗 FusionTables鼠标事件 https developers google com m
将 functools 与 IronPython 结合使用

我正在使用带有 IronPython 的 functools 库它在开发机器上运行良好但在生产中无法导入库抛出异常 IronPython Runtime Exceptions ImportException 没有命名的模块 funct
如何重命名 MongoDB 数据库？

我的 MongoDB 数据库名称有一个拼写错误我正在尝试重命名该数据库 I can copy http www mongodb org display DOCS Copy Database Commands然后像这样删除 db copyD
OpenGL 3.0 中 glDrawPixels 的替代品？

所以我知道 glDrawPixels 已被弃用有没有做同样事情的函数我想过使用纹理但它们是由当前矩阵修改的与 glDrawPixels 绘制的像素不同我想过使用纹理但它们被当前矩阵修改了当前矩阵在 3 0 中已弃用并在 3
在 HTML 5 画布上创建 Reuleaux 多边形的函数

我正在开展一个使用 HTML 5 画布设计系统艺术作品的项目为了给我的作品带来更有机和多样化的感觉我想要一个创建 reuleaux 多边形的函数我认为可能有一种方法可以改变我的draw sharp polygon center pos
UITableViewCell 中的 UILabel 大小不正确（分配文本后的动画）

文本在一个UILabel显示后闪烁首先以省略号出现在单行上然后占据其适合的 2 行请注意单元格高度没有改变问题是这样的标签朋友们快来参与并填满盒子吧首先出现被截断的并在视图转换期间错位为这种情况仅发生在装有 iOS 8
为什么我应该更喜欢使用成员初始值设定项列表？

我偏向于在构造函数中使用成员初始值设定项列表但我早已忘记了其背后的原因您是否在构造函数中使用成员初始值设定项列表如果是这样为什么如果没有为什么不呢 For POD https stackoverflow com a 146454
SpyOn TypeORM 存储库可更改单元测试 NestJS 的返回值

我想对我的 TypeORM 数据库调用进行单元测试我已经用有效数据模拟了我所有的 TypeORM 存储库但我想监视存储库并更改 TypeORM 的返回值形式我怎么做 import INestApplication from nestj
PowerShell - 如何在运行空间中导入模块

我正在尝试用 C 创建一个 cmdlet 代码看起来像这样 Cmdlet VerbsCommon Get HeapSummary public class Get HeapSummary Cmdlet protected override
更改 WooCommerce 电子邮件通知中的订单项目元数据

我需要更改自定义 WooCommerce 电子邮件通知的特定订单项元数据但我找不到解决方案 I found one https stackoverflow com a 52684694 1354580 但它用于从 Woocommerce
如何高效更新文件修改频繁的Impala表

我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件在这些目录的顶部我们有 4 5 个 Impala 2 1 表在 HDFS 中写入这些文件的过程是 Spark Structured

如何高效更新文件修改频繁的Impala表

如何高效更新文件修改频繁的Impala表 的相关文章

随机推荐

热门标签

如何高效更新文件修改频繁的Impala表的相关文章