parquet

为什么 Spark DataFrame 创建错误数量的分区？

我有一个包含 2 列的 Spark 数据框 col1 and col2 scala gt val df List 1 a toDF col1 col2 df org apache spark sql DataFrame col1 int c

scala apachespark apachesparksql parquet

Scala Spark - 覆盖镶木地板文件无法删除文件或目录

我正在尝试在本地创建镶木地板文件几天我第一次运行代码时一切正常第二次删除文件失败第三次删除另一个文件失败哪个文件无法删除是完全随机的我需要这个工作的原因是因为我想在过去 7 天每天创建镶木地板文件因此已经存在的 parque

scala apachespark parquet

是否有工具可以查询 S3 存储中托管的 Parquet 文件？

我的 S3 存储桶中有 Parquet 文件但它不是 AWS S3 是否有一个工具可以连接到任何 S3 服务例如 Wasabi Digital Ocean MinIO 并允许我查询 Parquet 文件如果您需要 GUI 工具那么您

MongoDB amazons3 DigitalOcean parquet wasabi

pandas.read_parquet 错误地解释了日期字段

我有一个镶木地板文件其中有一个日期字段名为 BusinessDate 当我将其导入数据框时它会自动确定字段 BusinessDate 是日期 datetime64 ns UTC 然而由于这种格式 BusinessDate 场是 YY

python pandas date parquet

AWS 粘合作业将字符串映射到日期和时间格式，同时从 csv 转换为 parquet

while converting from csv to parquet using AWS glue ETL job following mapped fields in csv read as string to date and ti

PySpark parquet awsglue amazonathena

Spark 异常：写入行时任务失败

我正在读取文本文件并将它们转换为镶木地板文件我正在使用 Spark 代码来做到这一点但是当我尝试运行代码时出现以下异常 org apache spark SparkException Job aborted due to stage f

Java Hadoop apachespark apachesparksql parquet

“谓词下推”和“投影下推”有什么区别？

我找到了多种信息来源例如发现的一个here 将谓词下推解释为如果您可以将部分查询下推到数据存储的位置从而过滤掉大部分数据那么您可以大大减少网络流量但是我还在其他文档中看到了术语投影下推例如here 这似乎是同一件事

apachespark Bigdata parquet

基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快？

我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有性能改进查询速度通常我将如下所示的 CS

apachespark apachesparksql parquet

Pandas 无法读取在 PySpark 中创建的 parquet 文件

我正在通过以下方式从 Spark DataFrame 编写镶木地板文件 df write parquet path myfile parquet mode overwrite compression gzip 这将创建一个包含多个文件的文件

python pandas apachespark PySpark parquet

如何使用 s3 select 从镶木地板文件中获取所有列的列表？

我有一个 parquet 文件存储在 S3 存储桶中我想获取镶木地板文件所有列的列表我在用s3 select但它只是给我所有行的列表没有任何列标题无论如何是否可以从该镶木地板文件中获取所有列名称而不完全下载它由于镶木地板文件可能

Java sql amazons3 parquet amazons3select

将 MySQL 表转换为 parquet 时出现 Spark 异常

我正在尝试使用 Spark 1 6 2 将 MySQL 远程表转换为 parquet 文件该进程运行 10 分钟填满内存然后以以下消息开始 WARN NettyRpcEndpointRef Error sending message

apachespark apachesparksql parquet

InternalError_：频谱扫描错误。 S3 到 Redshift 复制命令

我正在尝试使用 COPY 命令将一些数据从 S3 存储桶复制到 redshift 表文件的格式是 PARQUET 当我运行执行 COPY 命令查询时出现 InternalError Spectrum Scan Error 这是我第一次尝

python amazons3 amazonredshift parquet

使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件

我正在尝试使用 AWS Lambda 在 S3 中加载处理和写入 Parquet 文件我的测试部署过程是 https github com lambci docker lambda作为模拟 Amazon 环境的容器因为需要安装本机库

python amazons3 awslambda parquet pyarrow

如何使用 ParquetWriter 将 TIMESTAMP 逻辑类型 (INT96) 写入 parquet？

我有一个工具使用org apache parquet hadoop ParquetWriter将 CSV 数据文件转换为 Parquet 数据文件目前它只处理int32 double and string 我需要支撑镶木地板times

Java apachespark Hadoop parquet

使用 maven 制作 fat jar 时出现“无法找到数据源：parquet”

我正在使用 Maven 组装插件组装 fat jar 并遇到以下问题 Exception in thread main java lang ClassNotFoundException Failed to find data source

Java Maven apachespark parquet

具有 Parquet 和分区的 Spark DataFrames

我无法找到有关此主题的太多信息但假设我们使用数据帧读取 10 个块的 parquet 文件 spark 自然会创建 10 个分区但是当数据帧读入文件来处理它时它不会处理很大的数据与分区比率因为如果它处理未压缩的文件块大小会更大

apachespark apachesparksql parquet

Spark Parquet 统计（最小/最大）集成

我一直在研究 Spark 如何在 Parquet 中存储统计信息最小最大以及它如何使用这些信息进行查询优化我有几个问题第一次设置 Spark 2 1 0 下面设置一个1000行的Dataframe 一个long类型和一个strin

apachespark parquet

安装镶木地板工具

我正在尝试在 FreeBSD 机器上安装 parquet 工具我克隆了这个仓库 git clone https github com apache parquet mr 然后我做了cd parquet mr parquet tools 然

Java Maven FreeBSD parquet parquetmr

如何覆盖在 Spark 中读取 DataFrame 的 parquet 文件

这是我面临的问题的缩影我遇到了错误让我尝试在这里重现它我正在保存一个DataFrame as a parquet 但是当我重新加载时DataFrame from parquet文件并再次保存为parquet 我收到错误 valuesC

python apachespark metadata parquet

使用 Java API 将 Parquet 格式写入 HDFS，而不使用 Avro 和 MR

简单的写法是什么实木复合地板格式 to HDFS 使用Java API 通过直接创建 Parquet SchemaPojo 的不使用avro and MR 我发现的示例已经过时并且使用已弃用的方法还使用 Avro spark 或 MR

Java Hadoop HDFS parquet