Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Hive alter table 更改列名称为重命名的列提供“NULL”
我曾尝试将表中的现有列重命名为新列 但名称更改后 新列只给我 NULL 值 Parquet 中表的存储格式 例如 user 是 Test 表中字符串数据类型的列 插入了值为 John 的示例记录 Select user from Test
Hadoop
hive
Bigdata
HiveQL
parquet
多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径
我有多个作业想要并行执行 这些作业使用分区将每日数据附加到同一路径中 e g dataFrame write partitionBy eventDate category mode Append parquet s3 bucket save
apachespark
parquet
无法编译 parquet-tools
我克隆了存储库parquet mr from 这个链接 http git 20clone 20https github com Parquet parquet mr git 我想要建造的parquet tools正如所解释的here htt
Java
Hadoop
compilererrors
parquet
从 PySpark 中的 s3 子目录读取数据
我想从 S3 存储桶中读取所有 parquet 文件 包括子目录中的所有文件 这些实际上是前缀 在 S3 URL 中使用通配符 仅适用于指定文件夹中的文件 例如 使用此代码将仅读取下面的镶木地板文件target folder df spar
apachespark
parquet
awsglue
PySpark
在 R 中通过 Arrow 包编写 Parquet 文件的问题
只是想知道在 Windows 和 Linux 操作系统中运行时 R 中的 arrow 包的读 写 parquet 功能是否有区别 示例代码 在数据框中插入任何内容 mydata data frame write parquet mydata
r
parquet
apachearrow
简单 SparkSQL 查询中未修剪分区
我正在尝试从 SparkSQL 表 S3 中的 parquet 有效地选择各个分区 但是 我看到 Spark 打开表中所有 parquet 文件的证据 而不仅仅是那些通过过滤器的文件 对于具有大量分区的表来说 即使是小型查询也会变得昂贵 这
amazons3
apachespark
apachesparksql
PySpark
parquet
Pandas read_parquet() 错误:pyarrow.lib.ArrowInvalid:从时间戳 [us] 转换到时间戳 [ns] 将导致时间戳超出范围
我正在尝试读取此处找到的镶木地板格式的 02 2019 fhv 数据 https d37ci6vzurychx cloudfront net trip data fhv tripdata 2019 02 parquet https d37c
python3x
pandas
datetime
parquet
Spark DataFrame 的 SparkRcollect() 和 head() 错误:参数意味着行数不同
我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n
r
apachespark
parquet
sparkr
apachesparksql
读取 Parquet 文件时是什么控制分区数量?
我的设置 两个 Spark 集群 一份在 EC2 上 一份在 Amazon EMR 上 两者均使用 Spark 1 3 1 EMR集群已安装emr 引导操作 https github com awslabs emr bootstrap ac
amazonwebservices
apachespark
parquet
S3 Select 会加速 Parquet 文件的 Spark 分析吗?
您可以使用Amazon EMR 上使用 Spark 选择 S3 https docs aws amazon com emr latest ReleaseGuide emr spark s3select html and 与数据块 https
apachespark
amazons3
parquet
Spark SQL:嵌套类镶木地板错误
我似乎无法写镶木地板JavaRDD
Java
apachespark
apachesparksql
parquet
Spark读取不同版本的Parquet文件
我使用 Version1 架构生成了一年多的镶木地板文件 随着最近的架构更改 较新的镶木地板文件具有 Version2 架构额外列 因此 当我从旧版本和新版本一起加载镶木地板文件并尝试过滤更改的列时 我得到一个异常 我希望 Spark 读取
apachespark
parquet
versions
使用 AWS Glue ETL 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件 python Spark (pyspark)
我每 15 分钟运行一次 AWS Glue ETL 作业 每次在 S3 中生成 1 个 parquet 文件 我需要创建另一个作业以在每小时结束时运行 以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 par
amazons3
PySpark
parquet
awsglue
Cloudera 5.6:Parquet 不支持日期。参见 HIVE-6384
我目前正在使用 Cloudera 5 6 尝试根据另一个表在 hive 表中创建镶木地板格式表 但遇到错误 create table sfdc opportunities sandbox parquet like sfdc opportun
hive
Cloudera
parquet
不使用 Spark 从 Parquet 读取特定列
我正在尝试在不使用 Apache Spark 的情况下读取 Parquet 文件 并且我能够做到这一点 但我发现很难读取特定列 我无法找到任何好的谷歌资源 因为几乎所有帖子都是关于使用 parquet 文件读取的 下面是我的代码 impor
scala
parquet
使用 C# 从 Parquet 文件中读取前 100 行
我有这些巨大的镶木地板文件 存储在一个 blob 中 有超过 60 万行 我想检索前 100 个 以便我可以将它们发送到我的客户端应用程序 这是我现在用于此功能的代码 private async Task lt Table gt getPa
c
NET
parquet
parquetnet
如何使用 parquet-cpp 编写流式/面向行的数据而不进行缓冲?
我的 C 应用程序中基本上有面向行 流数据 Netflow 我想将数据写入 Parquet gzip 文件 看着示例 reader writer cc 程序 https github com apache parquet cpp blob
c
parquet
Spark 读取镶木地板文件时出现问题
我有 2 个镶木地板零件文件part 00043 0bfd7e28 6469 4849 8692 e625c25485e2 c000 snappy parquet 是 2017 年 11 月 14 日运行的部分文件 和part 00199
scala
apachespark
parquet
apachesparkdataset
Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置
我正在使用本地计算机上的 Apache Spark 3 0 将分区数据 Parquet 文件 写入 AWS S3 而无需在计算机中安装 Hadoop 当我有很多文件要写入大约 50 个分区 partitionBy date 时 我在写入 S
apachespark
Hadoop
amazons3
parquet
Tensorflow Dataset API:带有 parquet 文件的输入管道
我正在尝试使用 Dataset API 设计输入管道 我正在处理镶木地板文件 将它们添加到我的管道中的好方法是什么 我们已经发布了万能风暴 https github com uber petastorm 一个开源库 允许您通过 Tensor
tensorflow
pipeline
parquet
«
1
2
3
4
5
6
7
»