在 Parquet 中使用嵌套数据类型有什么好处？

2023-12-30

在 Parquet 文件格式中使用嵌套数据类型是否会带来任何性能优势？

AFAIK Parquet 文件通常是专门为查询服务创建的，例如Athena，因此创建这些值的过程也可以简单地展平这些值 - 从而允许更轻松的查询、更简单的模式并保留每列的列统计信息。

使用嵌套数据类型可以获得什么好处，例如struct?

在镶木地板中保留嵌套结构会产生负面后果。问题是，如果 parquet 文件中有嵌套结构，则 Spark 谓词下推无法正常工作。

因此，即使您正在处理镶木地板数据集中的几个字段，spark 也会加载并具体化整个数据集。

这里是ticket https://issues.apache.org/jira/browse/SPARK-17636关于这个问题已经开放了很长时间。

EDIT

该问题已在spark 2.4版本中得到解决。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

nested

parquet

datafiles

在 Parquet 中使用嵌套数据类型有什么好处？的相关文章

如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset

随机推荐

非托管 C++ - 需要强名称才能由具有强名称的 C++/CLI dll 引用吗？

我有一个非托管 C dll 它将由托管 C CLI 包装器 dll 使用最终将由 C 项目使用 C 项目是强名称的包装器 dll 也是如此我尝试使用 KEYFILE 对非托管 dll 执行相同的操作但似乎不起作用包装器正在抱怨 i
在命令行程序中使用 emacs 或 vim 的语法荧光笔？

我有一个可以输出 JSON 和 YAML 的命令行程序默认情况下它会检测 pygments pygmentize 是否可用如果可用则将输出传递给它以获得漂亮的彩色输出但是默认情况下大多数运行该程序的计算机上并未安装 pygme
如何查找 Webpack 条目的块

我正在使用 webpack 对遗留的多页 ASP NET Web 表单应用程序进行现代化改造在我尝试使用之前我已经取得了相当大的成功SplitChunks插件 https webpack js org plugins split chu
React.js app.js 文件大小

我创建了非常简单的 React 应用程序包含 7 个页面和 13 个组件我使用 gulp 来编译它使用 browserify 来获取依赖项所有文件都被最小化我建造的app js文件有1 1 MB 我认为它相当大我可以做什么来减小
Odoo.sh 升级到 v15：如何迁移过时但继承的视图？

我目前正在按照 odoo sh 中的升级流程迁移到 Odoo v15 由于某些模板在 v15 中已被删除或重命名因此我收到了 100 个类似以下内容的错误 ValueError External ID not found in the s
nlme 错误

For IGF数据来自nlme库我收到此错误消息 lme conc 1 data IGF random age Lot Error in lme formula conc 1 data IGF random age Lot nlminb
jQuery Mobile：获取上一页的 ID

我基本上需要一个自定义函数仅在例如从主页单击 reviews 页面时使用这是我当前使用的代码 document bind mobileinit function reviews live pagebeforeshow function
phpmyadmin 导出不带 DATABASE_NAME 或算法的视图

当使用 phpmyadmin 导出 sql 转储时它会创建如下所示的 VIEW 表 CREATE ALGORITHM UNDEFINED DEFINER root localhost SQL SECURITY DEFINER VIEW d
使用 git，如何将一些未提交的更改从一个分支移动到不同文件夹中的另一个分支？

我每天使用的同一个软件有两个不同的分支然而每次我检查另一个分支时我的构建过程可能需要长达一个小时为了解决这个问题我刚刚在两个单独的文件夹中为每个分支检查了一次项目我在一个分支中做了一些工作并在提交之前意识到我位于错误的文件夹中
CodeIgniter 中分页的自动加载配置不起作用

我正在尝试在我的 CI web 应用程序中实现分页现在我将分页配置放入这样的配置文件中
使用 VB.NET 执行存储过程

这是我的程序 ALTER PROCEDURE sp addUser UserName nvarchar 50 Prenom nvarchar 50 Nom nvarchar 50 Mail nvarchar 50 Password char
“静态合成”是什么意思？

我正在查看一些从 Java 字节码获得的反汇编代码我看到一些声明如下 method static synthetic access 0 Lcom package Sample 我不明白是什么synthetic or access 0意思是
SQL Server 上的 Int PK 内连接与 Guid PK 内连接。执行计划

我刚刚对 Int PK join 与 Guid PK 进行了一些测试表结构和记录数如下所示在这两种情况下使用 EF4 进行 CRUD 操作的性能非常相似众所周知在连接中使用 Int PK 比字符串具有更好的性能所以SQL Ser
将 Service Worker 请求中的响应修改为图像

您好提前谢谢您我的问题是关于使用响应网络请求服务工作者我能够在文本或 html 的情况下处理它但是当我尝试处理image我失败了这是我的代码 self addEventListener fetch function event e
本地主机上的 Firebase console.log？

拿起去年春天我离开的 Firebase 项目我不记得是怎么做的console log工作在firebase server 我有一个函数有效我尝试在其中编写一些调试信息像这样 exports myfun functions https
获取对象调用层次结构

假设我有 3 个课程 class A void do A Check object call hierarchy class B void do B A a a do A class C void do C B b b do A 然后我打电
Facebook iOS SDK 3.2.1 - [NSError fberrorShouldNotifyUser]：无法识别的选择器发送到实例

我刚刚将我的应用程序从 Facebook iOS SDK 3 1 升级到 3 2 1 并且我正在尝试利用 NSError 上的新 FBError 类别提供的新错误处理代码在底部它编译得很好但是当发生 FB 错误时我在运行时得到以下信
R从字符串中提取数字

字符串将是 042 195 143 192 001 145 045 125 125 如何提取最后一组数字 195 192 145 125 125 Try v1 lt c 042 195 143 192 001 145 045 125 125
Arduino 上的 Timer1 导致串行打印无法工作

运行下面的代码当我从串行监视器向 Arduino 发送任何字符时 Arduino 不会打印 a 我认为timer1代码有问题但它应该可以工作因为这段代码是我的C课老师给我的 void setup Serial begin 115200
在 Parquet 中使用嵌套数据类型有什么好处？

在 Parquet 文件格式中使用嵌套数据类型是否会带来任何性能优势 AFAIK Parquet 文件通常是专门为查询服务创建的例如Athena 因此创建这些值的过程也可以简单地展平这些值从而允许更轻松的查询更简单的模式并保留每列的列

在 Parquet 中使用嵌套数据类型有什么好处？

在 Parquet 中使用嵌套数据类型有什么好处？ 的相关文章

随机推荐

热门标签

在 Parquet 中使用嵌套数据类型有什么好处？的相关文章