Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
为什么 Spark DataFrame 创建错误数量的分区?
我有一个包含 2 列的 Spark 数据框 col1 and col2 scala gt val df List 1 a toDF col1 col2 df org apache spark sql DataFrame col1 int c
scala
apachespark
apachesparksql
parquet
Scala Spark - 覆盖镶木地板文件无法删除文件或目录
我正在尝试在本地创建镶木地板文件几天 我第一次运行代码时 一切正常 第二次删除文件失败 第三次删除另一个文件失败 哪个文件无法删除是完全随机的 我需要这个工作的原因是因为我想在过去 7 天每天创建镶木地板文件 因此 已经存在的 parque
scala
apachespark
parquet
是否有工具可以查询 S3 存储中托管的 Parquet 文件?
我的 S3 存储桶中有 Parquet 文件 但它不是 AWS S3 是否有一个工具可以连接到任何 S3 服务 例如 Wasabi Digital Ocean MinIO 并允许我查询 Parquet 文件 如果您需要 GUI 工具 那么您
MongoDB
amazons3
DigitalOcean
parquet
wasabi
pandas.read_parquet 错误地解释了日期字段
我有一个镶木地板文件 其中有一个日期字段 名为 BusinessDate 当我将其导入数据框时 它会自动确定字段 BusinessDate 是日期 datetime64 ns UTC 然而 由于这种格式 BusinessDate 场是 YY
python
pandas
date
parquet
AWS 粘合作业将字符串映射到日期和时间格式,同时从 csv 转换为 parquet
while converting from csv to parquet using AWS glue ETL job following mapped fields in csv read as string to date and ti
PySpark
parquet
awsglue
amazonathena
Spark 异常:写入行时任务失败
我正在读取文本文件并将它们转换为镶木地板文件 我正在使用 Spark 代码来做到这一点 但是当我尝试运行代码时出现以下异常 org apache spark SparkException Job aborted due to stage f
Java
Hadoop
apachespark
apachesparksql
parquet
“谓词下推”和“投影下推”有什么区别?
我找到了多种信息来源 例如发现的一个here 将 谓词下推 解释为 如果您可以将部分查询 下推 到数据存储的位置 从而过滤掉大部分数据 那么您可以大大减少网络流量 但是 我还在其他文档中看到了术语 投影下推 例如here 这似乎是同一件事
apachespark
Bigdata
parquet
基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快?
我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有 性能 改进 查询速度 通常 我将如下所示的 CS
apachespark
apachesparksql
parquet
Pandas 无法读取在 PySpark 中创建的 parquet 文件
我正在通过以下方式从 Spark DataFrame 编写镶木地板文件 df write parquet path myfile parquet mode overwrite compression gzip 这将创建一个包含多个文件的文件
python
pandas
apachespark
PySpark
parquet
如何使用 s3 select 从镶木地板文件中获取所有列的列表?
我有一个 parquet 文件存储在 S3 存储桶中 我想获取镶木地板文件所有列的列表 我在用s3 select但它只是给我所有行的列表 没有任何列标题 无论如何 是否可以从该镶木地板文件中获取所有列名称而不完全下载它 由于镶木地板文件可能
Java
sql
amazons3
parquet
amazons3select
将 MySQL 表转换为 parquet 时出现 Spark 异常
我正在尝试使用 Spark 1 6 2 将 MySQL 远程表转换为 parquet 文件 该进程运行 10 分钟 填满内存 然后以以下消息开始 WARN NettyRpcEndpointRef Error sending message
apachespark
apachesparksql
parquet
InternalError_:频谱扫描错误。 S3 到 Redshift 复制命令
我正在尝试使用 COPY 命令将一些数据从 S3 存储桶复制到 redshift 表 文件的格式是 PARQUET 当我运行执行 COPY 命令查询时 出现 InternalError Spectrum Scan Error 这是我第一次尝
python
amazons3
amazonredshift
parquet
使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件
我正在尝试使用 AWS Lambda 在 S3 中加载 处理和写入 Parquet 文件 我的测试 部署过程是 https github com lambci docker lambda作为模拟 Amazon 环境的容器 因为需要安装本机库
python
amazons3
awslambda
parquet
pyarrow
如何使用 ParquetWriter 将 TIMESTAMP 逻辑类型 (INT96) 写入 parquet?
我有一个工具 使用org apache parquet hadoop ParquetWriter将 CSV 数据文件转换为 Parquet 数据文件 目前 它只处理int32 double and string 我需要支撑镶木地板times
Java
apachespark
Hadoop
parquet
使用 maven 制作 fat jar 时出现“无法找到数据源:parquet”
我正在使用 Maven 组装插件组装 fat jar 并遇到以下问题 Exception in thread main java lang ClassNotFoundException Failed to find data source
Java
Maven
apachespark
parquet
具有 Parquet 和分区的 Spark DataFrames
我无法找到有关此主题的太多信息 但假设我们使用数据帧读取 10 个块的 parquet 文件 spark 自然会创建 10 个分区 但是 当数据帧读入文件来处理它时 它不会处理很大的数据与分区比率 因为如果它处理未压缩的文件 块大小会更大
apachespark
apachesparksql
parquet
Spark Parquet 统计(最小/最大)集成
我一直在研究 Spark 如何在 Parquet 中存储统计信息 最小 最大 以及它如何使用这些信息进行查询优化 我有几个问题 第一次设置 Spark 2 1 0 下面设置一个1000行的Dataframe 一个long类型和一个strin
apachespark
parquet
安装镶木地板工具
我正在尝试在 FreeBSD 机器上安装 parquet 工具 我克隆了这个仓库 git clone https github com apache parquet mr 然后我做了cd parquet mr parquet tools 然
Java
Maven
FreeBSD
parquet
parquetmr
如何覆盖在 Spark 中读取 DataFrame 的 parquet 文件
这是我面临的问题的缩影 我遇到了错误 让我尝试在这里重现它 我正在保存一个DataFrame as a parquet 但是当我重新加载时DataFrame from parquet文件并再次保存为parquet 我收到错误 valuesC
python
apachespark
metadata
parquet
使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR
简单的写法是什么实木复合地板格式 to HDFS 使用Java API 通过直接创建 Parquet SchemaPojo 的 不使用avro and MR 我发现的示例已经过时 并且使用已弃用的方法 还使用 Avro spark 或 MR
Java
Hadoop
HDFS
parquet
«
1
2
3
4
5
6
7
»