Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Pandas 编写分区的 Parquet 文件
我正在尝试将 Pandas 数据帧写入分区文件 df to parquet output parquet engine pyarrow partition cols partone partwo TypeError cinit got an
python
pandas
parquet
pyarrow
将 Spark 数据帧写入镶木地板格式时出现内存不足错误
我正在尝试从数据库中查询数据 对其进行一些转换并将新数据以 parquet 格式保存在 hdfs 上 由于数据库查询返回大量行 因此我正在批量获取数据并在每个传入批次上运行上述过程 更新2 批处理逻辑为 import scala colle
Java
scala
apachespark
parquet
Spark 中的 RDD 内存占用
我不确定内存占用的概念 当加载例如镶木地板文件时 1GB 并在 Spark 中创建 RDD 每个 RDD 的内存食物打印是什么 当您从 parquet 文件创建 RDD 时 在您对 RDD 运行操作 例如 首先收集 之前 不会加载 执行任何
apachespark
Compression
RDD
parquet
memoryfootprint
gzipped Parquet 文件在 HDFS for Spark 中可拆分吗?
在互联网上搜索和阅读有关此主题的答案时 我收到了令人困惑的消息 有人可以分享他们的经验吗 我知道 gzipped csv 不是这样的事实 但也许 Parquet 的文件内部结构是这样的 Parquet 与 csv 的情况完全不同 使用 GZ
apachespark
gzip
parquet
保存之前和加载之后的数据框状态 - 有什么不同?
我有一个包含一些 SQL 表达式 合并 case when 等 的 DF 我后来尝试映射 平面映射这个 DF 在那里我得到了Task not serializable由于字段包含 SQL 表达式而导致错误 为什么我需要 map flatMa
scala
apachespark
DataFrame
RDD
parquet
创建文件作为流并上传到 Azure
我正在使用 ChoETL 和 ChoETL Parquet 库根据其他一些数据创建镶木地板文件 我可以在本地很好地创建该文件 using ChoParquetWriter parser new ChoParquetWriter parque
c
Azure
parquet
choetl
查询 Parquet 记录中的嵌套数组
我正在尝试不同的方法来查询记录数组中的记录并将完整的行显示为输出 我不知道哪个嵌套对象有字符串 pg 但我想查询特定对象 对象是否有 pg 如果 pg 存在 那么我想显示完整的行 如何在嵌套对象上编写 spark sql查询 而不指定对象索
apachespark
apachesparksql
HiveQL
parquet
如何用Spark高效读取多个小parquet文件?有CombineParquetInputFormat吗?
Spark 生成了多个小 parquet 文件 如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件 恕我直言 最直接的方法是在写入 parquet 文件之前使用重新分区 合并 除非数据倾斜并且您想要创建相同大小的输出
apachespark
SparkStreaming
apachesparksql
parquet
如何使用 C# 将 CSV 文件转换为 Parquet
我是 C 新手 我想将 CSV 文件转换为 Parquet 格式 我搜索了一些网站 但没有得到预期的结果 无论如何 C 有什么办法吗 With 辛乔 ETL 一个开源库 可以将 CSV 文件转换为 Parquet 容易地 安装Nuget包
c
parquet
将 JSON 转换为 Parquet
我有一些 JSON 格式的 TB 日志数据 我想将它们转换为 Parquet 格式 以便在分析阶段获得更好的性能 我已经成功地通过编写一个mapreduce java作业来做到这一点 该作业使用镶木地板先生 and 镶木地板阿夫罗 我唯一不
Avro
parquet
如何使用Pyarrow实现流式写入效果
我拥有的数据是一种流数据 我想将它们存储到一个 Parquet 文件中 但是 Pyarrow 每次都会覆盖 Parquet 文件 那么我该怎么办呢 我尝试不关闭编写器 但这似乎是不可能的 因为如果我不关闭它 那么我将无法读取该文件 这是包
parquet
pyarrow
保存到分区 parquet 文件时实现并发
当写一个dataframe to parquet using partitionBy df write partitionBy col1 col2 col3 parquet path 我期望正在写入的每个分区都是由单独的任务独立完成的 并且
scala
apachespark
parquet
为什么 Spark DataFrame 创建错误数量的分区?
我有一个包含 2 列的 Spark 数据框 col1 and col2 scala gt val df List 1 a toDF col1 col2 df org apache spark sql DataFrame col1 int c
scala
apachespark
apachesparksql
parquet
Scala Spark - 覆盖镶木地板文件无法删除文件或目录
我正在尝试在本地创建镶木地板文件几天 我第一次运行代码时 一切正常 第二次删除文件失败 第三次删除另一个文件失败 哪个文件无法删除是完全随机的 我需要这个工作的原因是因为我想在过去 7 天每天创建镶木地板文件 因此 已经存在的 parque
scala
apachespark
parquet
是否有工具可以查询 S3 存储中托管的 Parquet 文件?
我的 S3 存储桶中有 Parquet 文件 但它不是 AWS S3 是否有一个工具可以连接到任何 S3 服务 例如 Wasabi Digital Ocean MinIO 并允许我查询 Parquet 文件 如果您需要 GUI 工具 那么您
MongoDB
amazons3
DigitalOcean
parquet
wasabi
pandas.read_parquet 错误地解释了日期字段
我有一个镶木地板文件 其中有一个日期字段 名为 BusinessDate 当我将其导入数据框时 它会自动确定字段 BusinessDate 是日期 datetime64 ns UTC 然而 由于这种格式 BusinessDate 场是 YY
python
pandas
date
parquet
AWS 粘合作业将字符串映射到日期和时间格式,同时从 csv 转换为 parquet
while converting from csv to parquet using AWS glue ETL job following mapped fields in csv read as string to date and ti
PySpark
parquet
awsglue
amazonathena
Spark 异常:写入行时任务失败
我正在读取文本文件并将它们转换为镶木地板文件 我正在使用 Spark 代码来做到这一点 但是当我尝试运行代码时出现以下异常 org apache spark SparkException Job aborted due to stage f
Java
Hadoop
apachespark
apachesparksql
parquet
“谓词下推”和“投影下推”有什么区别?
我找到了多种信息来源 例如发现的一个here 将 谓词下推 解释为 如果您可以将部分查询 下推 到数据存储的位置 从而过滤掉大部分数据 那么您可以大大减少网络流量 但是 我还在其他文档中看到了术语 投影下推 例如here 这似乎是同一件事
apachespark
Bigdata
parquet
基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快?
我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有 性能 改进 查询速度 通常 我将如下所示的 CS
apachespark
apachesparksql
parquet
«
1
2
3
4
5
6
»