parquet

Hive alter table 更改列名称为重命名的列提供“NULL”

我曾尝试将表中的现有列重命名为新列但名称更改后新列只给我 NULL 值 Parquet 中表的存储格式例如 user 是 Test 表中字符串数据类型的列插入了值为 John 的示例记录 Select user from Test

Hadoop hive Bigdata HiveQL parquet

多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径

我有多个作业想要并行执行这些作业使用分区将每日数据附加到同一路径中 e g dataFrame write partitionBy eventDate category mode Append parquet s3 bucket save

apachespark parquet

无法编译 parquet-tools

我克隆了存储库parquet mr from 这个链接 http git 20clone 20https github com Parquet parquet mr git 我想要建造的parquet tools正如所解释的here htt

Java Hadoop compilererrors parquet

从 PySpark 中的 s3 子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件包括子目录中的所有文件这些实际上是前缀在 S3 URL 中使用通配符仅适用于指定文件夹中的文件例如使用此代码将仅读取下面的镶木地板文件target folder df spar

apachespark parquet awsglue PySpark

在 R 中通过 Arrow 包编写 Parquet 文件的问题

只是想知道在 Windows 和 Linux 操作系统中运行时 R 中的 arrow 包的读写 parquet 功能是否有区别示例代码在数据框中插入任何内容 mydata data frame write parquet mydata

r parquet apachearrow

简单 SparkSQL 查询中未修剪分区

我正在尝试从 SparkSQL 表 S3 中的 parquet 有效地选择各个分区但是我看到 Spark 打开表中所有 parquet 文件的证据而不仅仅是那些通过过滤器的文件对于具有大量分区的表来说即使是小型查询也会变得昂贵这

amazons3 apachespark apachesparksql PySpark parquet

Pandas read_parquet() 错误：pyarrow.lib.ArrowInvalid：从时间戳 [us] 转换到时间戳 [ns] 将导致时间戳超出范围

我正在尝试读取此处找到的镶木地板格式的 02 2019 fhv 数据 https d37ci6vzurychx cloudfront net trip data fhv tripdata 2019 02 parquet https d37c

python3x pandas datetime parquet

Spark DataFrame 的 SparkRcollect() 和 head() 错误：参数意味着行数不同

我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n

r apachespark parquet sparkr apachesparksql

读取 Parquet 文件时是什么控制分区数量？

我的设置两个 Spark 集群一份在 EC2 上一份在 Amazon EMR 上两者均使用 Spark 1 3 1 EMR集群已安装emr 引导操作 https github com awslabs emr bootstrap ac

amazonwebservices apachespark parquet

S3 Select 会加速 Parquet 文件的 Spark 分析吗？

您可以使用Amazon EMR 上使用 Spark 选择 S3 https docs aws amazon com emr latest ReleaseGuide emr spark s3select html and 与数据块 https

apachespark amazons3 parquet

Spark SQL：嵌套类镶木地板错误

我似乎无法写镶木地板JavaRDD

Java apachespark apachesparksql parquet

Spark读取不同版本的Parquet文件

我使用 Version1 架构生成了一年多的镶木地板文件随着最近的架构更改较新的镶木地板文件具有 Version2 架构额外列因此当我从旧版本和新版本一起加载镶木地板文件并尝试过滤更改的列时我得到一个异常我希望 Spark 读取

apachespark parquet versions

使用 AWS Glue ETL 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件 python Spark (pyspark)

我每 15 分钟运行一次 AWS Glue ETL 作业每次在 S3 中生成 1 个 parquet 文件我需要创建另一个作业以在每小时结束时运行以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 par

amazons3 PySpark parquet awsglue

Cloudera 5.6：Parquet 不支持日期。参见 HIVE-6384

我目前正在使用 Cloudera 5 6 尝试根据另一个表在 hive 表中创建镶木地板格式表但遇到错误 create table sfdc opportunities sandbox parquet like sfdc opportun

hive Cloudera parquet

不使用 Spark 从 Parquet 读取特定列

我正在尝试在不使用 Apache Spark 的情况下读取 Parquet 文件并且我能够做到这一点但我发现很难读取特定列我无法找到任何好的谷歌资源因为几乎所有帖子都是关于使用 parquet 文件读取的下面是我的代码 impor

scala parquet

使用 C# 从 Parquet 文件中读取前 100 行

我有这些巨大的镶木地板文件存储在一个 blob 中有超过 60 万行我想检索前 100 个以便我可以将它们发送到我的客户端应用程序这是我现在用于此功能的代码 private async Task lt Table gt getPa

c NET parquet parquetnet

如何使用 parquet-cpp 编写流式/面向行的数据而不进行缓冲？

我的 C 应用程序中基本上有面向行流数据 Netflow 我想将数据写入 Parquet gzip 文件看着示例 reader writer cc 程序 https github com apache parquet cpp blob

c parquet

Spark 读取镶木地板文件时出现问题

我有 2 个镶木地板零件文件part 00043 0bfd7e28 6469 4849 8692 e625c25485e2 c000 snappy parquet 是 2017 年 11 月 14 日运行的部分文件和part 00199

scala apachespark parquet apachesparkdataset

Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

我正在使用本地计算机上的 Apache Spark 3 0 将分区数据 Parquet 文件写入 AWS S3 而无需在计算机中安装 Hadoop 当我有很多文件要写入大约 50 个分区 partitionBy date 时我在写入 S

apachespark Hadoop amazons3 parquet

Tensorflow Dataset API：带有 parquet 文件的输入管道

我正在尝试使用 Dataset API 设计输入管道我正在处理镶木地板文件将它们添加到我的管道中的好方法是什么我们已经发布了万能风暴 https github com uber petastorm 一个开源库允许您通过 Tensor

tensorflow pipeline parquet