Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错
我有这段代码 它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col
python
amazons3
parquet
pyarrow
Spark DataFrame 重新分区和 Parquet 分区
我在列上使用重新分区来将数据存储在镶木地板中 但 我看到没有 parquet 分区文件的数量与 不 Rdd 分区 rdd分区之间是否没有相关性 和镶木地板隔断 当我将数据写入镶木地板分区并使用 Rdd 时 重新分区 然后我从 parquet
apachespark
parquet
将 pandas 数据帧写入 s3 AWS 中的 parquet
我想以 parquet 格式将数据帧写入 s3 存储桶中 我知道如何以 csv 格式编写数据框 但我不知道如何以镶木地板格式编写 以下是 csv 格式的代码 我不显示 ServerSideEncryption 和 SSEKMSKeyId 字
python
pandas
amazonwebservices
amazons3
parquet
如何配置 AWS Athena 结果的文件格式
目前 Athena 查询结果在 S3 中为 tsv 格式 有没有办法配置 Athena 查询以返回 Parquet 格式的结果 Answer 目前无法直接与 Athena 进行此操作 在配置 Athena 查询结果时 您只能设置查询结果位置
amazonwebservices
csv
amazons3
parquet
amazonathena
获取 HDFS 中 parquet 文件的大小,以便在 Scala 中使用 Spark 重新分区
我在 HDFS 上有许多 parquet 文件目录 每个目录包含数千个小 大多数 使用以下代码 我可以将本地镶木地板文件重新分区为更少数量的部分 val pqFile sqlContext read parquet file home ha
scala
Hadoop
apachespark
HDFS
parquet
从 Azure Blob 容器读取 Parquet 数据,而无需在本地下载
我正在使用 azure SDK avro parquet 和 hadoop 库从 Blob 容器读取 parquet 文件 目前 我正在将文件下载到临时文件 然后创建一个 ParquetReader try InputStream inpu
Java
Azure
Streaming
parquet
Spark SQL - gzip、snappy 和 lzo 压缩格式之间的区别
我正在尝试使用 Spark SQL 来编写parquet file Spark SQL 默认支持gzip 但它也支持其他压缩格式 例如snappy and lzo 这些压缩格式有什么区别 压缩率 GZIP 压缩比 Snappy 或 LZO
apachespark
gzip
parquet
snappy
lzo
有效合并大镶木地板文件
我正在使用 parquet tools 来合并 parquet 文件 但 parquet tools 似乎需要与合并文件一样大的内存 我们是否有其他方法或 parquet tools 中的可配置选项来更有效地使用内存 因为我在 hadoop
Hadoop
parquet
如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC?
通常在 Impala 中 我们在将数据插入基础文件为 Parquet 格式的表之前使用 COMPRESSION CODEC 用于设置 COMPRESSION CODEC 的命令 set compression codec snappy se
Hadoop
parquet
impala
为什么读取镶木地板数据集需要比数据集大小更多的内存?
我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象 我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码 尽管 RA
python
amazons3
OutOfMemory
parquet
pyarrow
如何将 dask 数据帧保存到与 dask 调度程序/工作人员相同的机器上的镶木地板?
我试图通过 Dask Dataframe 保存到与 dask 调度程序 工作人员所在的同一台机器上的镶木地板 然而 我在这期间遇到了麻烦 我的 Dask 设置 我的 python 脚本在本地计算机 笔记本电脑 16 GB RAM 上执行 但
python
Dask
parquet
为什么 UnixSystem().getUsername() 返回 null(Docker 中的 OpenJDK 17)
以下代码适用于 OSX var hadoopInputFile org apache parquet hadoop util HadoopInputFile fromPath parquetPath new Configuration 但在
Java
Hadoop
parquet
JAVA17
使用 parquet 文件元数据创建 Hive 表
我编写了一个 DataFrame 作为镶木地板文件 而且 我想使用镶木地板中的元数据使用 Hive 读取文件 写入 parquet write 的输出 common metadata part r 00000 0def6ca1 0f54 4
scala
apachespark
hive
parquet
如何将 Parquet 文件读入 Pandas DataFrame?
如何在不设置 Hadoop 或 Spark 等集群计算基础设施的情况下将适度大小的 Parquet 数据集读取到内存中的 Pandas DataFrame 中 这只是我想在笔记本电脑上使用简单的 Python 脚本在内存中读取的适量数据 数
python
pandas
DataFrame
parquet
Blaze
在 SparkSQL 中使用 Avro 模式和 Parquet 格式进行读/写
我正在尝试从 SparkSQL 写入和读取 Parquet 文件 出于模式演变的原因 我想在写入和读取中使用 Avro 模式 我的理解是 这可以在 Spark 之外 或在 Spark 中手动 使用例如AvroParquetWriter 和
apachespark
apachesparksql
Avro
parquet
从 Spark 保存分区 parquet HIVE 表时出现问题
火花1 6 0 蜂巢1 1 0 cdh5 8 0 我在将数据帧从 Spark 保存到镶木地板支持的分区 Hive 表中时遇到一些问题 这是我的代码 val df sqlContext createDataFrame rowRDD schem
apachespark
hive
partitioning
parquet
在 Parquet 中使用嵌套数据类型有什么好处?
在 Parquet 文件格式中使用嵌套数据类型是否会带来任何性能优势 AFAIK Parquet 文件通常是专门为查询服务创建的 例如Athena 因此创建这些值的过程也可以简单地展平这些值 从而允许更轻松的查询 更简单的模式并保留每列的列
apachespark
nested
parquet
datafiles
将 Kafka 中的 Avro 转换为 Parquet 直接转入 S3
我的 Kafka 主题以 Avro 格式存储 我想使用整个主题 在收到时不会更改任何消息 并将其转换为 Parquet 直接保存在 S3 上 我目前正在这样做 但它需要我一次使用来自 Kafka 的消息并在本地计算机上处 理 将它们转换为
amazons3
ApacheKafka
parquet
apachekafkaconnect
使用 Python 在 Parquet 中嵌套数据
我有一个文件 每行一个 JSON 这是一个示例 product id abcdef price 19 99 specs voltage 110v color white user Daniel Severo 我想创建一个包含以下列的镶木地板
python
json
parquet
Dask
从用 C++ 编写的文件中从 pyarrow 中的字段和架构中读回 KeyValueMetadata
如果我使用脚本编写一个简单的 Parquet 文件简单写入镶木地板 cpp https gist github com dantrim 33f9f14d0b2d3ec45c022aa05f7a45ee 我希望有一个带有单列的简单 Parqu
parquet
pyarrow
apachearrow
«
1
2
3
4
5
6
7
»