parquet

对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre

apacheflink parquet flinkstreaming

我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗？

我刚刚读到 HDF5 允许您访问数据查找而无需将整个文件读入内存这种寻找行为在没有 Java 的 Parquet 文件中是否可能非 pyspark 解决方案我使用 Parquet 是因为它有强大的 dtype 支持 import h

parquet pyarrow fastparquet

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

In nodeJS 我正在尝试读取镶木地板文件压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet

javascript nodejs amazons3 parquet snappy

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod

python awslambda parquet amazonathena pyarrow

Apache Spark Parquet：无法构建空组

我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的今天切换我有一个数据集 root muons array nullable true element struct containsNull true reco

apachespark parquet

如何识别 Pandas 的 Parquet 后端

据我所知 Pandas 可以使用不同的后端读取和写入 Parquet 文件 pyarrow and fastparquet 我有一个带有 Intel 发行版的 Conda 发行版并且它可以工作我可以使用pandas DataFrame

python pandas parquet

如何读取箭头镶木地板键值元数据？

当我在 R 和 Python 中保存 parquet 文件使用 pyarrow 时我得到一个保存在元数据中的箭头模式字符串如何读取元数据是Flatbuffer编码的数据吗模式的定义在哪里它没有在箭头文档网站上列出元数据是一个键

parquet pyarrow apachearrow

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa

Hadoop apachespark amazons3 amazonemr parquet

保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt

python googlebigquery parquet pyarrow

是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理

Hadoop clouderacdh impala parquet

S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

我使用了以下依赖项

Java amazonwebservices Hadoop amazons3 parquet

将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

这个问题在这里已经有答案了我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源因此架构在到达之前无法更改该文件包含属性映射在我收到文件之前属性名称是未知的属性名称包含不能在 parq

apachespark apachesparksql parquet

Spark Streaming以Parquet格式附加到S3，小分区太多

我正在构建一个使用 Spark Streaming 从 AWS EMR 上的 Kinesis 流接收数据的应用程序目标之一是将数据持久保存到 S3 EMRFS 中为此我使用 2 分钟的非重叠窗口我的做法 Kinesis Stream

apachespark amazons3 Streaming parquet

如何将 500GB SQL 表转换为 Apache Parquet？

也许这是有详细记录的但我很困惑如何做到这一点有很多 Apache 工具当我创建 SQL 表时我使用以下命令创建表 CREATE TABLE table name column1 datatype column2 datatype c

mysql sqlserver Hadoop parquet

使用复制命令和清单文件将 parquet 格式文件加载到 Amazon Redshift 时出错

我正在尝试使用清单文件加载镶木地板文件并出现以下错误查询 124138由于内部错误而失败文件 https s3 amazonaws com sbredshift east data 000002 0 https s3 amazonaws

amazonredshift parquet

从 parquet 文件创建 SQL 表

我正在使用 R 来处理大型数据集最大数据帧 30 000 000 x 120 这些文件作为 parquet 文件存储在 Azure Datalake 存储中我们需要每天查询这些文件并将其还原到本地 SQL 数据库中无需将数据加载到内存

sql r sqlserver apachespark parquet

为什么“plain_dictionary”编码的字典页偏移量为 0？

parquet由Spark v2 4 Parquet mr v1 10生成 n 10000 x 1 0 2 0 3 0 4 0 5 0 5 0 None n y u u u u u a None u a n z np random rand

parquet arrows pyarrow parquetmr

使用Python编写Parquet文件的方法？

我无法找到允许使用 Python 编写 Parquet 文件的库如果我可以结合使用 Snappy 或类似的压缩机制那就加分了到目前为止我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持我有一

python apachespark apachesparksql parquet snappy

Spark 驱动程序不会因异常而崩溃

我们在 Kubernetes 上以客户端模式运行 Spark 3 1 1 我们是一个简单的 scala Spark 应用程序它从 S3 加载 parquet 文件并聚合它们 sparkSession read parquet paths

scala apachespark amazons3 Kubernetes parquet

从 Pyspark 中的多个目录读取 parquet 文件

我需要从不是父目录或子目录的多个路径读取镶木地板文件例如 dir1 dir1 1 dir1 2 dir2 dir2 1 dir2 2 sqlContext read parquet dir1 从 dir1 1 和 dir1 2 读取镶木地

PySpark parquet