对 Parquet 批量格式使用压缩

2024-05-08

从 Apache Flink 1.15 版本开始，您可以使用压缩功能将多个文件合并为一个。https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/filesystem/#compaction https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/filesystem/#compaction

我们如何使用批量 Parquet 格式进行压缩？ RecordWiseFileCompactor.Reader 的现有实现（DecoderBasedReader 和 ImputFormatBasedReader）似乎不适合 Parquet。

此外，我们找不到任何压缩 Parquet 或其他批量格式的示例。

flink 的文档中提到了两种类型的文件压缩器。

OutputStreamBasedFileCompactor ：用户可以将压缩结果写入输出流。当用户不想或无法从输入文件中读取记录时，这非常有用。

RecordWiseFileCompactor ：压缩器可以像 FileWriter 一样从输入文件中逐条读取记录并写入结果文件。

如果我没记错的话，Parquet 将元信息保存在文件末尾。显然我们需要使用RecordWiseFileCompactor。因为我们需要读取整个 Parquet 文件，以便我们可以获取文件末尾的元信息。然后我们可以使用元信息（行组数、模式）来解析文件。

来自java api https://nightlies.apache.org/flink/flink-docs-release-1.15/api/java//org/apache/flink/connector/file/sink/compactor/RecordWiseFileCompactor.html#RecordWiseFileCompactor-org.apache.flink.connector.file.sink.compactor.RecordWiseFileCompactor.Reader.Factory-，要构造一个 RecordWiseFileCompactor，我们需要一个 RecordWiseFileCompactor.Reader.Factory 的实例。

RecordWiseFileCompactor.Reader.Factory接口有两个实现，分别是DecoderBasedReader.Factory和InputFormatBasedReader.Factory。

DecoderBasedReader.Factory 创建一个 DecoderBasedReader 实例，它从 InputStream 读取整个文件内容。我们可以将字节加载到缓冲区中并从字节缓冲区中解析文件，这显然是痛苦的。所以我们不使用这个实现。

InputFormatBasedReader.Factory 创建一个 InputFormatBasedReader，它使用以下方法读取整个文件内容文件输入格式 https://nightlies.apache.org/flink/flink-docs-release-1.15/api/java//org/apache/flink/api/common/io/FileInputFormat.html我们传递给 InputFormatBasedReader.Factory 构造函数的供应商。

InputFormatBasedReader 实例使用 FileInputFormat 来逐条读取记录 https://github.com/apache/flink/blob/aec2d38710a67d90bd819bfdce66b5a5a646a882/flink-connectors/flink-connector-files/src/main/java/org/apache/flink/connector/file/sink/compactor/InputFormatBasedReader.java#L50，并将记录传递给我们传递给 forBulkFormat 调用的 writer，直到文件末尾。

作者收到所有记录并将记录压缩到一个文件中 https://github.com/apache/flink/blob/8488368b86a99a064446ca74e775b67ffff0b94a/flink-connectors/flink-connector-files/src/main/java/org/apache/flink/connector/file/sink/compactor/RecordWiseFileCompactor.java#L40.

那么问题就变成了什么是FileInputFormat以及如何实现它。

尽管FileInputFormat类有很多方法和字段，但从上述InputFormatBasedReader源代码中我们知道，只有四个方法是从InputFormatBasedReader中调用的。

open(FileInputSplit fileSplit)，打开文件
reachEnd()，它检查我们是否到达文件末尾
nextRecord()，从打开的文件中读取下一条记录
close()，清理站点

幸运的是，我们可以使用 org.apache.parquet.avro 包中的 AvroParquetReader。它已经实现了打开/读取/关闭。因此，我们可以将读取器包装在 FileInputFormat 中，并使用 AvroParquetReader 来完成所有脏活。

这是一个示例代码片段

import org.apache.avro.generic.GenericRecord;
import org.apache.flink.api.common.io.FileInputFormat;
import org.apache.flink.core.fs.FileInputSplit;
import org.apache.hadoop.conf.Configuration;
import org.apache.parquet.avro.AvroParquetReader;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.util.HadoopInputFile;
import org.apache.parquet.io.InputFile;

import java.io.IOException;

public class ExampleFileInputFormat extends FileInputFormat<GenericRecord> {

    private ParquetReader<GenericRecord> parquetReader;
    private GenericRecord readRecord;


    @Override
    public void open(FileInputSplit split) throws IOException {
        Configuration config = new Configuration();
        // set hadoop config here
        // for example, if you are using gcs, set fs.gs.impl here
        // i haven't tried to use core-site.xml but i believe this is feasible
        InputFile inputFile = HadoopInputFile.fromPath(new org.apache.hadoop.fs.Path(split.getPath().toUri()), config);
        parquetReader = AvroParquetReader.<GenericRecord>builder(inputFile).build();
        readRecord = parquetReader.read();
    }

    @Override
    public void close() throws IOException {
        parquetReader.close();
    }

    @Override
    public boolean reachedEnd() throws IOException {
        return readRecord == null;
    }

    @Override
    public GenericRecord nextRecord(GenericRecord genericRecord) throws IOException {
        GenericRecord r = readRecord;
        readRecord = parquetReader.read();
        return r;
    }
}

然后您可以使用示例 FileInputFormat 如下

FileSink<GenericRecord> sink = FileSink.forBulkFormat(
                new Path(path),
                AvroParquetWriters.forGenericRecord(schema))
        .withRollingPolicy(OnCheckpointRollingPolicy.build())
        .enableCompact(
                FileCompactStrategy.Builder.newBuilder()
                        .enableCompactionOnCheckpoint(10)
                        .build(),
                new RecordWiseFileCompactor<>(
                        new InputFormatBasedReader.Factory<>(new SerializableSupplierWithException<FileInputFormat<GenericRecord>, IOException>() {
                            @Override
                            public FileInputFormat<GenericRecord> get() throws IOException {
                                FileInputFormat<GenericRecord> format = new ExampleFileInputFormat();
                                return format;
                            }
                        })
                ))
        .build();

我已成功将其部署到 k8s 上的 flink 和 gcs 上的压缩文件。有一些部署注意事项。

您需要从以下位置下载 flink 着色的 hadoop jarhttps://flink.apache.org/downloads.html https://flink.apache.org/downloads.html（在网页中搜索 Pre-bundled Hadoop）并将 jar 放入 $FLINK_HOME/lib/
如果要将文件写入某些对象存储（例如 gcs），则需要遵循插件说明 https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/filesystems/gcs/。请记住将插件 jar 放入插件文件夹中，而不是放入 lib 文件夹中。
如果您要将文件写入某些对象存储，则需要从云服务供应商下载连接器jar。例如，我正在使用 gcs 并下载 gcs-connector jar 以下GCP指令 https://cloud.google.com/dataproc/docs/concepts/connectors/cloud-storage。将 jar 放入 $FLINK_HOME/lib 或 $FLINK_HOME/plugins 之外的某个文件夹中。我将连接器 jar 放入新建的文件夹 $FLINK_HOME/hadoop-lib 中
设置环境 HADOOP_CLASSPATH=$FLINK_HOME/lib/YOUR_SHADED_HADOOP_JAR:$FLINK_HOME/hadoop-lib/YOUR_CONNECTOR_JAR

完成所有这些步骤后，您就可以开始工作了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对 Parquet 批量格式使用压缩的相关文章

Flink 模式演化不适用于 POJO 类

我有一个类满足被视为 POJO 的要求这是我的流媒体工作中的主要传输类它只包含原语和Map
使用 Flink LocalEnvironment 进行生产

我想了解本地执行环境的局限性以及它是否可以用于在生产中运行感谢任何帮助见解谢谢 LocalExecutionEnvironment 启动一个 Flink MiniCluster 它在单个 JVM 中运行整个 Flink 系统 JobM
处理时间窗口不适用于 Apache Flink 中的有限数据源

我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流本地无集群这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
从 PySpark 中的 s3 子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件包括子目录中的所有文件这些实际上是前缀在 S3 URL 中使用通配符仅适用于指定文件夹中的文件例如使用此代码将仅读取下面的镶木地板文件target folder df spar
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径

我有多个作业想要并行执行这些作业使用分区将每日数据附加到同一路径中 e g dataFrame write partitionBy eventDate category mode Append parquet s3 bucket save
从结构数组中选择 Spark DataFrames 中的特定列

我有一个 Spark 数据框df具有以下架构 root k integer nullable false v array nullable true element struct containsNull true a integer nu
Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth
Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
使用复制命令和清单文件将 parquet 格式文件加载到 Amazon Redshift 时出错

我正在尝试使用清单文件加载镶木地板文件并出现以下错误查询 124138由于内部错误而失败文件 https s3 amazonaws com sbredshift east data 000002 0 https s3 amazonaws
基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序
如何将 500GB SQL 表转换为 Apache Parquet？

也许这是有详细记录的但我很困惑如何做到这一点有很多 Apache 工具当我创建 SQL 表时我使用以下命令创建表 CREATE TABLE table name column1 datatype column2 datatype c
Flink Logging 获取作业名称或作业 ID

我正在尝试设置 logback xml 以便它将包含与日志记录关联的 JobName 或 JobId 我还没有找到一种方法来做到这一点是否可以最终我想要实现的是能够将日志发送到 ElasticSearch 并用消息标记 JobName
Apache Flink 上的 zipWithIndex

我想为我的输入的每一行分配一个id 这应该是一个数字0 to N 1 where N是输入中的行数粗略地说我希望能够执行以下操作 val data sc textFile textFilePath numPartitions val r
Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http
创建具有通用返回类型的 FlinkSQL UDF

我想定义函数MAX BY接受类型值T和类型的订购参数Number并根据排序从窗口返回最大元素类型为T 我试过了 public class MaxBy
如何正确处理自定义MapFunction中的错误？

我已经实施了MapFunction对于我的 Apache Flink 流程它正在解析传入元素并将其转换为其他格式但有时会出现错误即传入数据无效我看到两种可能的处理方法忽略无效元素但似乎我无法忽略错误因为对于任何传入元素我必须
我可以将 flink RocksDB 状态后端与本地文件系统一起使用吗？

我正在探索使用 FlinkrocksDb 状态后端文档似乎暗示我可以使用常规文件系统例如 file data flink checkpoints 但代码 javadoc 仅在此处提到 hdfs 或 s3 选项我想知道是否可以将本地文件
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我
Flink中为什么DataStream不支持聚合

我是 Flink 的新手有时我想在 DataStream 上进行聚合而不需要先执行 keyBy 为什么 Flink 不支持 DataStream 上的聚合 sum min max 等谢谢你艾哈迈德 Flink 支持非 keyed

随机推荐

nohup 不适用于 OS X Yosmite - 出现错误“无法从控制台分离，没有这样的文件或目录”

我使用 nohup 从 php 应用程序运行命令我有一个网页该网页向 php 服务器发送 POST 请求以在后台启动 shell 脚本这就像 exec nohup home user test sh gt home user test
读取原始输入行并输出单个数组

我有一个目录其中包含文件我想从该文件列表创建一个数组我以为这会很容易比如 ls mydir jq R file1 file2 file3 我唯一能弄清楚的是 ls mydir jq sR split n select length
const 变量悖论

如果我有一些关于 C 的表达式 const int x 3 我可以说 x 是一个变量吗这看起来很奇怪因为 x 不是变量因为我无法更改它提前感谢您的任何解释 Edited附感谢您的所有回答我明白根据 C 的定义我的问题的答案可能
MySQL 中电话号码的最佳数据类型是什么？它的 Java 类型映射应该是什么？

我正在将 MySQL 与 Spring JDBC 模板一起用于我的 Web 应用程序我需要存储仅包含数字的电话号码 10 我对使用数据类型的数据类型有点困惑 MySQL 中最适合它的数据类型是什么为此 Bean POJO 类中的 Jav
Simplify-Java (by hgoebl) 减少点列表大小始终为 2 的问题

我正在尝试实现减少算法https github com hgoebl simplify java https github com hgoebl simplify java 我查看了他的测试代码并试图找出我认为正确的逻辑我正在列出一份清
为什么 C++ 构造函数不被继承？

为什么这段代码中需要 Child 传递构造函数我认为不会但是当我删除它时编译器 gcc 和 VS2010 会抱怨有一个优雅的解决方法吗必须将此填充程序插入到子类中似乎毫无意义 class Parent public Parent i
错误：“tidyverse”的包或命名空间加载失败：“namespace:dplyr”未导出对象“relocate”

我使用以下命令安装了 tidyverse install packages tidyverse 但是安装后当我使用以下命令调用库时 library tidyverse 我收到此错误 Error package or namespace l
如何在 PyCharm 中设置运行配置的默认工作目录

当我想运行众多 python 脚本之一时我点击运行这会创建一个新的运行配置该配置的工作目录是 python 脚本文件所在的文件夹相反它应该从项目范围的固定文件夹运行我想以某种方式进行设置但我真的不明白为什么这有点奇怪因为我
内存泄漏？！在“array_map”中使用“create_function”时，垃圾收集器是否正确？

我在 StackOverflow 上找到了以下解决方案从对象数组中获取特定对象属性的数组 PHP 从对象数组中提取属性 https stackoverflow com questions 1118994 php extracting a
MySQL：主键的所有部分都必须为 NOT NULL；如果您需要在键中使用 NULL，请使用 UNIQUE 代替

我的 MySQL 有问题我创建了名为 BucketList 的数据库然后尝试创建名为 tbl user 的表它看起来像这样 CREATE TABLE BucketList tbl user user id BIGINT NULL AU
为无向无权图实现推重标签算法 s-t 最小割边

我正在寻找一个好的解决方案来在无向和未加权图中找到 s t 最小切割边我想使用推送重新标记算法但我不确定如何实现它以在无向和未加权图上找到最小割在每对顶点之间有两条反向边并在所有边上赋予相同的权重并应用推送重新标记算法我可以用这
如何更改所有 ListView 的默认分隔线颜色

我正在尝试为 style xml 中的所有 listView 应用默认样式请注意在某些地方我使用嵌套列表视图 In 样式 xml
您使用什么复制保护技术？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Windows Phone 目前是否有用于接近传感器和光传感器的 API？

Windows Phone 目前是否有用于接近传感器和光传感器的 API 我想访问这两个传感器但找不到API 有一些方法可以使用它们吗很不幸的是不行此处列出了可用的传感器 API http msdn microsoft com en
在 IOS9 中的 Cordova 应用程序上使用 JQuery/Javascript 的 window.history 问题

我在 IOS9 测试版下使用 Cordova 应用程序时遇到问题我正在使用最新的 Cordova 和 JQuery 移动版本 window history 未更新导致以下故障 window history go 1 无法返回页面即使
在 javascript/jquery 中获取图像的完整尺寸

我在页面上有一个图像该图像已调整大小以适合 div 例如 400x300 如何在 jQuery 中获取图像的完整尺寸 4000x3000 width 和 height 似乎只返回图像的当前大小图像有naturalWidth and na
ViewStart 和 Layout - 有什么区别？

我刚刚开始阅读 ASP NET MVC 4 这本书并遇到一个问题在 Razor 部分作者说如果我不在 View cshtml 文件中设置布局变量它将默认搜索 ViewStart cshtml 但在另一部分中他在 Views Shar
如何显示 matplotlib 饼图中的实际值

我有一个饼图绘制从 CSV 文件中提取的值当前显示值的比例百分比显示为 autopct 1 1f 有没有办法显示每个切片的数据集中表示的实际值 Pie for Life Expectancy in Boroughs import pa
覆盖 Rails ActiveRecord 销毁行为的最佳方法是什么？

我有一个应用程序我想在其中覆盖许多模型的销毁行为用例是用户可能有删除特定记录的合法需要但实际上从数据库中删除该行会破坏引用完整性从而影响其他相关模型例如系统的用户可能想要删除不再与其有业务往来的客户但需要维护与该客户的交易看
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre

对 Parquet 批量格式使用压缩

对 Parquet 批量格式使用压缩 的相关文章

随机推荐

热门标签

对 Parquet 批量格式使用压缩的相关文章