Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
对 Parquet 批量格式使用压缩
从 Apache Flink 1 15 版本开始 您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
apacheflink
parquet
flinkstreaming
我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗?
我刚刚读到 HDF5 允许您访问数据查找 而无需将整个文件读入内存 这种寻找行为在没有 Java 的 Parquet 文件中是否可能 非 pyspark 解决方案 我使用 Parquet 是因为它有强大的 dtype 支持 import h
parquet
pyarrow
fastparquet
Javascript - 从 AWS s3 存储桶读取镶木地板数据(使用快速压缩)
In nodeJS 我正在尝试读取镶木地板文件 压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet
javascript
nodejs
amazons3
parquet
snappy
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容?
我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据 我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod
python
awslambda
parquet
amazonathena
pyarrow
Apache Spark Parquet:无法构建空组
我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的 今天切换 我有一个数据集 root muons array nullable true element struct containsNull true reco
apachespark
parquet
如何识别 Pandas 的 Parquet 后端
据我所知 Pandas 可以使用不同的后端读取和写入 Parquet 文件 pyarrow and fastparquet 我有一个带有 Intel 发行版的 Conda 发行版 并且 它可以工作 我可以使用pandas DataFrame
python
pandas
parquet
如何读取箭头镶木地板键值元数据?
当我在 R 和 Python 中保存 parquet 文件 使用 pyarrow 时 我得到一个保存在元数据中的箭头模式字符串 如何读取元数据 是Flatbuffer编码的数据吗 模式的定义在哪里 它没有在箭头文档网站上列出 元数据是一个键
parquet
pyarrow
apachearrow
Spark 2.0 弃用了“DirectParquetOutputCommitter”,没有它如何生活?
最近 我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移 我们意识到 Spark SaveAsTable 镶木地板格式 写入 S3 的速度比 HDFS 慢约 4 倍 但我们发现使用 DirectPa
Hadoop
apachespark
amazons3
amazonemr
parquet
保存到 parquet 文件时如何使用新的 Int64 pandas 对象
我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中 我有一些包含缺失值的整数列 从 Pandas 0 24 0 开始 我可以将它们存储为 Int64 dt
python
googlebigquery
parquet
pyarrow
是否可以直接从文件加载镶木地板表?
如果我有一个二进制数据文件 可以转换为 csv 格式 有什么方法可以直接从中加载镶木地板表吗 许多教程显示将 csv 文件加载到文本表 然后从文本表加载到镶木地板表 从效率的角度来看 是否可以像我已有的那样直接从二进制文件加载镶木地板表 理
Hadoop
clouderacdh
impala
parquet
S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0
我使用了以下依赖项
Java
amazonwebservices
Hadoop
amazons3
parquet
将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]
这个问题在这里已经有答案了 我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源 因此架构在到达之前无法更改 该文件包含属性映射 在我收到文件之前 属性名称是未知的 属性名称包含不能在 parq
apachespark
apachesparksql
parquet
Spark Streaming以Parquet格式附加到S3,小分区太多
我正在构建一个使用 Spark Streaming 从 AWS EMR 上的 Kinesis 流接收数据的应用程序 目标之一是将数据持久保存到 S3 EMRFS 中 为此我使用 2 分钟的非重叠窗口 我的做法 Kinesis Stream
apachespark
amazons3
Streaming
parquet
如何将 500GB SQL 表转换为 Apache Parquet?
也许这是有详细记录的 但我很困惑如何做到这一点 有很多 Apache 工具 当我创建 SQL 表时 我使用以下命令创建表 CREATE TABLE table name column1 datatype column2 datatype c
mysql
sqlserver
Hadoop
parquet
使用复制命令和清单文件将 parquet 格式文件加载到 Amazon Redshift 时出错
我正在尝试使用清单文件加载镶木地板文件并出现以下错误 查询 124138由于内部错误而失败 文件 https s3 amazonaws com sbredshift east data 000002 0 https s3 amazonaws
amazonredshift
parquet
从 parquet 文件创建 SQL 表
我正在使用 R 来处理大型数据集 最大数据帧 30 000 000 x 120 这些文件作为 parquet 文件存储在 Azure Datalake 存储中 我们需要每天查询这些文件并将其还原到本地 SQL 数据库中 无需将数据加载到内存
sql
r
sqlserver
apachespark
parquet
为什么“plain_dictionary”编码的字典页偏移量为 0?
parquet由Spark v2 4 Parquet mr v1 10生成 n 10000 x 1 0 2 0 3 0 4 0 5 0 5 0 None n y u u u u u a None u a n z np random rand
parquet
arrows
pyarrow
parquetmr
使用Python编写Parquet文件的方法?
我无法找到允许使用 Python 编写 Parquet 文件的库 如果我可以结合使用 Snappy 或类似的压缩机制 那就加分了 到目前为止 我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持 我有一
python
apachespark
apachesparksql
parquet
snappy
Spark 驱动程序不会因异常而崩溃
我们在 Kubernetes 上以客户端模式运行 Spark 3 1 1 我们是一个简单的 scala Spark 应用程序 它从 S3 加载 parquet 文件并聚合它们 sparkSession read parquet paths
scala
apachespark
amazons3
Kubernetes
parquet
从 Pyspark 中的多个目录读取 parquet 文件
我需要从不是父目录或子目录的多个路径读取镶木地板文件 例如 dir1 dir1 1 dir1 2 dir2 dir2 1 dir2 2 sqlContext read parquet dir1 从 dir1 1 和 dir1 2 读取镶木地
PySpark
parquet
1
2
3
4
5
6
»