如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？

2024-01-02

通常在 Impala 中，我们在将数据插入基础文件为 Parquet 格式的表之前使用 COMPRESSION_CODEC。

用于设置 COMPRESSION_CODEC 的命令：

set compression_codec=snappy;
set compression_codec=gzip;

是否可以通过对 Parquet 文件执行任何类型的操作来找出所使用的压缩编解码器的类型？

找到 Impala parquet 表使用的压缩算法的一种方法是通过镶木地板工具 https://github.com/apache/parquet-mr/tree/master/parquet-tools。例如，该实用程序与 Cloudera CDH 打包在一起，否则只需从源代码构建即可。

$ parquet-tools meta <parquet-file>
creator:     impala version 2.13.0-SNAPSHOT (build 100d7da677f2c81efa6af2a5e3a2240199ae54d5)

file schema: schema
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
code:        OPTIONAL BINARY R:0 D:1
description: OPTIONAL BINARY R:0 D:1
value:       OPTIONAL INT32 O:INT_32 R:0 D:1

row group 1: RC:823 TS:20420
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
code:         BINARY GZIP DO:4 FPO:1727 SZ:2806/10130/3.61 VC:823 ENC:RLE,PLAIN_DICTIONARY
description:  BINARY GZIP DO:2884 FPO:12616 SZ:10815/32928/3.04 VC:823 ENC:RLE,PLAIN_DICTIONARY
value:        INT32 GZIP DO:17462 FPO:19614 SZ:3241/4130/1.27 VC:823 ENC:RLE,PLAIN_DICTIONARY

由于通常在 Parquet（不通过 Impala）中可以逐列设置压缩，因此对于每个 Parquet 行组，您将看到针对每个列统计数据使用压缩。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

parquet

impala

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？的相关文章

保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt
如何在 Ubuntu 上安装 Impala？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我要安装Impala https impala apache org 在 Ubuntu 实例上到目前为止以下方法都不起作用如何在 U
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Apache Spark Parquet：无法构建空组

我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的今天切换我有一个数据集 root muons array nullable true element struct containsNull true reco
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
AWS Lambda 错误：无法导入模块“function_name”：没有名为“module._module”的模块

阅读后请特别查看屏幕截图我正在 AWS Lambda 上部署一个使用该包的 python 脚本impyla它依赖于包bitarray from impala dbapi import connect 我的Python文件名为authori
我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗？

我刚刚读到 HDF5 允许您访问数据查找而无需将整个文件读入内存这种寻找行为在没有 Java 的 Parquet 文件中是否可能非 pyspark 解决方案我使用 Parquet 是因为它有强大的 dtype 支持 import h
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim

随机推荐

如何在iOS swift中实现评论和回复系统

我必须在我的应用程序中实现评论和回复系统我正在从 API 获取数据但我不明白如何执行此操作因为我以前没有做过类似的事情我知道我必须为这种类型的系统采用两个不同的单元格但我不知道如何过滤评论和回复的数据并将它们显示在各自的单元格中
在 2 个 React DOM 之间传递数据

在一个网站中我有多个反应渲染元素我想在这两个单独的元素之间传递数据在两个元素之间传递数据的可能选项有哪些 ReactDOM render
元素中的文本居中对齐

body margin 0 header width 80 height 20 margin left 10 position fixed top 0 box sizing border box border style solid bor
为什么较小的块大小（相同的总线程数）会暴露更多的并行性？

我正在阅读 Cheng 等人的专业 CUDA C 编程并且有一些示例说明如何运行非常简单的单行内核例如 lt lt lt 1024 512 gt gt gt 表现比一个差 lt lt lt 2048 256 gt gt gt 然后
是否有 git-merge --dry-run 选项？

我正在合并一个可能有很多冲突的远程分支我怎么知道它是否会发生冲突我没有看到任何类似的东西 dry run on git merge 如前所述传入 no commit标志但为了避免快进提交也传入 no ff 像这样 git merg
AccessDeniedException：403 没有 storage.buckets.get 访问 Google Cloud Storage 存储桶的权限

我在这里关注 Firebase 的文档 https firebase google com docs storage web download files https firebase google com docs storage web
使用 Django 在 html 文件中绘制图表

我正在使用 Django 做一个监控系统在我的视图文件中我定义了一个名为 showImage 的类它收集使用 matplotlib 绘制图形所需的信息一开始我只是将图像存储在字符串缓冲区中以用 HttpResponse 表示它
将列数据拆分为多行

I have data currently in my table like below under currently section I need the selected column data which is comma deli
初学者 Apache URL 重写问题

我只是想弄清楚我是否走在正确的道路上如果能提供有关在我的示例中重写 URL 的其他详细信息我们将不胜感激我已经安装了 CMS 程序并且只想将 www example com 指向 www example com cms 我只是想知道
Java 堆空间 - 内存不足错误 - 具有 SASL_SSL 的 Kafka Broker

当我在带有 PLAIN TEXT 端口 9092 的 Kafka 代理中使用下面的 usr bin kafka delete records 命令时该命令工作正常但是当我使用 SASL SSL 端口 9094 时该命令会抛出以下错误
应用程序启动失败并出现 Json 读取错误

这本来是一个很容易解决的问题但事实证明它非常难以捉摸我不断收到错误消息 An error occurred while starting the application JsonReaderException Invalid prope
HTML - “持久性导航栏”？

我想知道是否可以在 HTML 中执行以下操作索引 html p Content p 导航栏 html div li a href 1 html 1 a li li a href 2 html 2 a li li a href 3 html
pandas 根据其他单元格设置的条件将行值除以聚合和

您好希望得到一些帮助我有两列数据框df as Source ID 1 2 2 3 1 2 1 2 1 3 3 1 我的目的是对源进行分组并根据分组的源将 ID 单元格除以总数并将其附加到原始数据帧以便新列看起来像这样 Source
在 .NET 反射中将 GetProperties() 与 BindingFlags.DeclaredOnly 结合使用

如果我使用 sometype GetProperties 我从类型及其父级获取所有属性但是我只想检索此类型中显式定义的属性而不是父级我以为这就是BindingFlags DeclaredOnly选项是为了但是当我尝试这样做时 s
Spring：如何从属性文件设置 @DateTimeFormat 的模式？

我正在使用 Spring 3 1 1 RELEASE 我有一个模型已提交给我的一位控制器其中有以下字段 DateTimeFormat pattern appProps class date format private java ut
为什么 AJAX 成功调用中的代码不起作用？

我有一个 AJAX 脚本将数据从表单插入到 MySQL 数据库这就是 AJAX f product on submit function event event preventDefault data this serialize aja
通过 pyqtdeploy 和 Qt5 将 PyQt5 应用程序部署到 Android

是否可以我的意思是是的 pyqt部署 http www riverbankcomputing com software pyqtdeploy introintro 页面说 pyqtdeploy 是一个用于部署 PyQt 应用程序的工具
必须使用实例作为第一个参数来调用未绑定方法 - python

我不断收到错误 TypeError unbound method get num students must be called with Student instance as first argument got nothing ins
在 Heroku 上使用 Rails API 部署 Create-React-App

我在让我的 React rails 应用程序在 heroku 上运行时遇到问题我已经成功部署它并且 Rails 服务器启动但我没有看到我的 React 应用程序我觉得我已经很接近了但不知道还缺少什么所以我的进程当前正在运行npm
如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？

通常在 Impala 中我们在将数据插入基础文件为 Parquet 格式的表之前使用 COMPRESSION CODEC 用于设置 COMPRESSION CODEC 的命令 set compression codec snappy se

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？ 的相关文章

随机推荐

热门标签

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？的相关文章