parquet

如何使用 Pandas 编写分区的 Parquet 文件

我正在尝试将 Pandas 数据帧写入分区文件 df to parquet output parquet engine pyarrow partition cols partone partwo TypeError cinit got an

python pandas parquet pyarrow

将 Spark 数据帧写入镶木地板格式时出现内存不足错误

我正在尝试从数据库中查询数据对其进行一些转换并将新数据以 parquet 格式保存在 hdfs 上由于数据库查询返回大量行因此我正在批量获取数据并在每个传入批次上运行上述过程更新2 批处理逻辑为 import scala colle

Java scala apachespark parquet

Spark 中的 RDD 内存占用

我不确定内存占用的概念当加载例如镶木地板文件时 1GB 并在 Spark 中创建 RDD 每个 RDD 的内存食物打印是什么当您从 parquet 文件创建 RDD 时在您对 RDD 运行操作例如首先收集之前不会加载执行任何

apachespark Compression RDD parquet memoryfootprint

gzipped Parquet 文件在 HDFS for Spark 中可拆分吗？

在互联网上搜索和阅读有关此主题的答案时我收到了令人困惑的消息有人可以分享他们的经验吗我知道 gzipped csv 不是这样的事实但也许 Parquet 的文件内部结构是这样的 Parquet 与 csv 的情况完全不同使用 GZ

apachespark gzip parquet

保存之前和加载之后的数据框状态 - 有什么不同？

我有一个包含一些 SQL 表达式合并 case when 等的 DF 我后来尝试映射平面映射这个 DF 在那里我得到了Task not serializable由于字段包含 SQL 表达式而导致错误为什么我需要 map flatMa

scala apachespark DataFrame RDD parquet

创建文件作为流并上传到 Azure

我正在使用 ChoETL 和 ChoETL Parquet 库根据其他一些数据创建镶木地板文件我可以在本地很好地创建该文件 using ChoParquetWriter parser new ChoParquetWriter parque

c Azure parquet choetl

查询 Parquet 记录中的嵌套数组

我正在尝试不同的方法来查询记录数组中的记录并将完整的行显示为输出我不知道哪个嵌套对象有字符串 pg 但我想查询特定对象对象是否有 pg 如果 pg 存在那么我想显示完整的行如何在嵌套对象上编写 spark sql查询而不指定对象索

apachespark apachesparksql HiveQL parquet

如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件恕我直言最直接的方法是在写入 parquet 文件之前使用重新分区合并除非数据倾斜并且您想要创建相同大小的输出

apachespark SparkStreaming apachesparksql parquet

如何使用 C# 将 CSV 文件转换为 Parquet

我是 C 新手我想将 CSV 文件转换为 Parquet 格式我搜索了一些网站但没有得到预期的结果无论如何 C 有什么办法吗 With 辛乔 ETL 一个开源库可以将 CSV 文件转换为 Parquet 容易地安装Nuget包

c parquet

将 JSON 转换为 Parquet

我有一些 JSON 格式的 TB 日志数据我想将它们转换为 Parquet 格式以便在分析阶段获得更好的性能我已经成功地通过编写一个mapreduce java作业来做到这一点该作业使用镶木地板先生 and 镶木地板阿夫罗我唯一不

Avro parquet

如何使用Pyarrow实现流式写入效果

我拥有的数据是一种流数据我想将它们存储到一个 Parquet 文件中但是 Pyarrow 每次都会覆盖 Parquet 文件那么我该怎么办呢我尝试不关闭编写器但这似乎是不可能的因为如果我不关闭它那么我将无法读取该文件这是包

parquet pyarrow

保存到分区 parquet 文件时实现并发

当写一个dataframe to parquet using partitionBy df write partitionBy col1 col2 col3 parquet path 我期望正在写入的每个分区都是由单独的任务独立完成的并且

scala apachespark parquet

为什么 Spark DataFrame 创建错误数量的分区？

我有一个包含 2 列的 Spark 数据框 col1 and col2 scala gt val df List 1 a toDF col1 col2 df org apache spark sql DataFrame col1 int c

scala apachespark apachesparksql parquet

Scala Spark - 覆盖镶木地板文件无法删除文件或目录

我正在尝试在本地创建镶木地板文件几天我第一次运行代码时一切正常第二次删除文件失败第三次删除另一个文件失败哪个文件无法删除是完全随机的我需要这个工作的原因是因为我想在过去 7 天每天创建镶木地板文件因此已经存在的 parque

scala apachespark parquet

是否有工具可以查询 S3 存储中托管的 Parquet 文件？

我的 S3 存储桶中有 Parquet 文件但它不是 AWS S3 是否有一个工具可以连接到任何 S3 服务例如 Wasabi Digital Ocean MinIO 并允许我查询 Parquet 文件如果您需要 GUI 工具那么您

MongoDB amazons3 DigitalOcean parquet wasabi

pandas.read_parquet 错误地解释了日期字段

我有一个镶木地板文件其中有一个日期字段名为 BusinessDate 当我将其导入数据框时它会自动确定字段 BusinessDate 是日期 datetime64 ns UTC 然而由于这种格式 BusinessDate 场是 YY

python pandas date parquet

AWS 粘合作业将字符串映射到日期和时间格式，同时从 csv 转换为 parquet

while converting from csv to parquet using AWS glue ETL job following mapped fields in csv read as string to date and ti

PySpark parquet awsglue amazonathena

Spark 异常：写入行时任务失败

我正在读取文本文件并将它们转换为镶木地板文件我正在使用 Spark 代码来做到这一点但是当我尝试运行代码时出现以下异常 org apache spark SparkException Job aborted due to stage f

Java Hadoop apachespark apachesparksql parquet

“谓词下推”和“投影下推”有什么区别？

我找到了多种信息来源例如发现的一个here 将谓词下推解释为如果您可以将部分查询下推到数据存储的位置从而过滤掉大部分数据那么您可以大大减少网络流量但是我还在其他文档中看到了术语投影下推例如here 这似乎是同一件事

apachespark Bigdata parquet

基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快？

我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有性能改进查询速度通常我将如下所示的 CS

apachespark apachesparksql parquet