parquet

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

我有这段代码它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col

python amazons3 parquet pyarrow

Spark DataFrame 重新分区和 Parquet 分区

我在列上使用重新分区来将数据存储在镶木地板中但我看到没有 parquet 分区文件的数量与不 Rdd 分区 rdd分区之间是否没有相关性和镶木地板隔断当我将数据写入镶木地板分区并使用 Rdd 时重新分区然后我从 parquet

apachespark parquet

将 pandas 数据帧写入 s3 AWS 中的 parquet

我想以 parquet 格式将数据帧写入 s3 存储桶中我知道如何以 csv 格式编写数据框但我不知道如何以镶木地板格式编写以下是 csv 格式的代码我不显示 ServerSideEncryption 和 SSEKMSKeyId 字

python pandas amazonwebservices amazons3 parquet

如何配置 AWS Athena 结果的文件格式

目前 Athena 查询结果在 S3 中为 tsv 格式有没有办法配置 Athena 查询以返回 Parquet 格式的结果 Answer 目前无法直接与 Athena 进行此操作在配置 Athena 查询结果时您只能设置查询结果位置

amazonwebservices csv amazons3 parquet amazonathena

获取 HDFS 中 parquet 文件的大小，以便在 Scala 中使用 Spark 重新分区

我在 HDFS 上有许多 parquet 文件目录每个目录包含数千个小大多数使用以下代码我可以将本地镶木地板文件重新分区为更少数量的部分 val pqFile sqlContext read parquet file home ha

scala Hadoop apachespark HDFS parquet

从 Azure Blob 容器读取 Parquet 数据，而无需在本地下载

我正在使用 azure SDK avro parquet 和 hadoop 库从 Blob 容器读取 parquet 文件目前我正在将文件下载到临时文件然后创建一个 ParquetReader try InputStream inpu

Java Azure Streaming parquet

Spark SQL - gzip、snappy 和 lzo 压缩格式之间的区别

我正在尝试使用 Spark SQL 来编写parquet file Spark SQL 默认支持gzip 但它也支持其他压缩格式例如snappy and lzo 这些压缩格式有什么区别压缩率 GZIP 压缩比 Snappy 或 LZO

apachespark gzip parquet snappy lzo

有效合并大镶木地板文件

我正在使用 parquet tools 来合并 parquet 文件但 parquet tools 似乎需要与合并文件一样大的内存我们是否有其他方法或 parquet tools 中的可配置选项来更有效地使用内存因为我在 hadoop

Hadoop parquet

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？

通常在 Impala 中我们在将数据插入基础文件为 Parquet 格式的表之前使用 COMPRESSION CODEC 用于设置 COMPRESSION CODEC 的命令 set compression codec snappy se

Hadoop parquet impala

为什么读取镶木地板数据集需要比数据集大小更多的内存？

我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码尽管 RA

python amazons3 OutOfMemory parquet pyarrow

如何将 dask 数据帧保存到与 dask 调度程序/工作人员相同的机器上的镶木地板？

我试图通过 Dask Dataframe 保存到与 dask 调度程序工作人员所在的同一台机器上的镶木地板然而我在这期间遇到了麻烦我的 Dask 设置我的 python 脚本在本地计算机笔记本电脑 16 GB RAM 上执行但

python Dask parquet

为什么 UnixSystem().getUsername() 返回 null（Docker 中的 OpenJDK 17）

以下代码适用于 OSX var hadoopInputFile org apache parquet hadoop util HadoopInputFile fromPath parquetPath new Configuration 但在

Java Hadoop parquet JAVA17

使用 parquet 文件元数据创建 Hive 表

我编写了一个 DataFrame 作为镶木地板文件而且我想使用镶木地板中的元数据使用 Hive 读取文件写入 parquet write 的输出 common metadata part r 00000 0def6ca1 0f54 4

scala apachespark hive parquet

如何将 Parquet 文件读入 Pandas DataFrame？

如何在不设置 Hadoop 或 Spark 等集群计算基础设施的情况下将适度大小的 Parquet 数据集读取到内存中的 Pandas DataFrame 中这只是我想在笔记本电脑上使用简单的 Python 脚本在内存中读取的适量数据数

python pandas DataFrame parquet Blaze

在 SparkSQL 中使用 Avro 模式和 Parquet 格式进行读/写

我正在尝试从 SparkSQL 写入和读取 Parquet 文件出于模式演变的原因我想在写入和读取中使用 Avro 模式我的理解是这可以在 Spark 之外或在 Spark 中手动使用例如AvroParquetWriter 和

apachespark apachesparksql Avro parquet

从 Spark 保存分区 parquet HIVE 表时出现问题

火花1 6 0 蜂巢1 1 0 cdh5 8 0 我在将数据帧从 Spark 保存到镶木地板支持的分区 Hive 表中时遇到一些问题这是我的代码 val df sqlContext createDataFrame rowRDD schem

apachespark hive partitioning parquet

在 Parquet 中使用嵌套数据类型有什么好处？

在 Parquet 文件格式中使用嵌套数据类型是否会带来任何性能优势 AFAIK Parquet 文件通常是专门为查询服务创建的例如Athena 因此创建这些值的过程也可以简单地展平这些值从而允许更轻松的查询更简单的模式并保留每列的列

apachespark nested parquet datafiles

将 Kafka 中的 Avro 转换为 Parquet 直接转入 S3

我的 Kafka 主题以 Avro 格式存储我想使用整个主题在收到时不会更改任何消息并将其转换为 Parquet 直接保存在 S3 上我目前正在这样做但它需要我一次使用来自 Kafka 的消息并在本地计算机上处理将它们转换为

amazons3 ApacheKafka parquet apachekafkaconnect

使用 Python 在 Parquet 中嵌套数据

我有一个文件每行一个 JSON 这是一个示例 product id abcdef price 19 99 specs voltage 110v color white user Daniel Severo 我想创建一个包含以下列的镶木地板

python json parquet Dask

从用 C++ 编写的文件中从 pyarrow 中的字段和架构中读回 KeyValueMetadata

如果我使用脚本编写一个简单的 Parquet 文件简单写入镶木地板 cpp https gist github com dantrim 33f9f14d0b2d3ec45c022aa05f7a45ee 我希望有一个带有单列的简单 Parqu

parquet pyarrow apachearrow