Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用Python编写Parquet文件的方法?
我无法找到允许使用 Python 编写 Parquet 文件的库 如果我可以结合使用 Snappy 或类似的压缩机制 那就加分了 到目前为止 我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持 我有一
python
apachespark
apachesparksql
parquet
snappy
Spark 驱动程序不会因异常而崩溃
我们在 Kubernetes 上以客户端模式运行 Spark 3 1 1 我们是一个简单的 scala Spark 应用程序 它从 S3 加载 parquet 文件并聚合它们 sparkSession read parquet paths
scala
apachespark
amazons3
Kubernetes
parquet
从 Pyspark 中的多个目录读取 parquet 文件
我需要从不是父目录或子目录的多个路径读取镶木地板文件 例如 dir1 dir1 1 dir1 2 dir2 dir2 1 dir2 2 sqlContext read parquet dir1 从 dir1 1 和 dir1 2 读取镶木地
PySpark
parquet
从命令行检查 Parquet
如何从命令行检查 Parquet 文件的内容 我现在看到的唯一选择是 hadoop fs get my path local file parquet tools head local file less 我想 避免创建local file
parquet
从 Spark 写入时避免丢失分区数据的数据类型
我有一个如下所示的数据框 itemName itemCategory Name1 C0 Name2 C1 Name3 C0 我想将此数据框保存为分区镶木地板文件 df write mode overwrite partitionBy ite
apachespark
apachesparksql
parquet
AnalysisException:路径不存在:dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data;
我将以下代码打包到 whl 文件中 from pkg resources import resource filename def path to model anomaly dir name str data path str filep
python
Databricks
parquet
pythonwheel
pkgresources
从 pyarrow.Table 转换为 pandas 时处理大时间戳
我有一个时间戳9999 12 31 23 59 59以 int96 形式存储在 parquet 文件中 我使用 pyarrow dataset 读取此镶木地板文件 并将结果表转换为 pandas 数据框 使用 pyarrow Table t
python
pandas
timestamp
parquet
pyarrow
Spark:强制读取模式时 Parquet DataFrame 操作失败
火花2 0 2 当您拥有具有不同架构的镶木地板文件并在读取期间强制使用该架构时 就会出现此问题 即使您可以打印架构并运行show 好的 您无法对缺失的列应用任何过滤逻辑 以下是两个示例架构 assuming you are running
scala
apachespark
DataFrame
schema
parquet
AWS Sagemaker 使用镶木地板文件进行批量转换作业?
我正在尝试使用镶木地板数据文件运行批量转换推理作业 但找不到任何内容 到处都说批量转换仅接受文本 csv 或 json 格式类型 出于测试目的 我确实尝试在 AWS 帐户内使用 lambda 函数来调用 parque 数据 但批量转换作业从
生成 parquet 文件 - R 和 Python 之间的差异
我们已经生成了一个parquet文件输入Dask Python 并与Drill R 使用Sergeant包 我们注意到几个问题 的格式Dask i e fastparquet has a metadata and a common meta
r
parquet
Dask
apachedrill
fastparquet
从结构数组中选择 Spark DataFrames 中的特定列
我有一个 Spark 数据框df具有以下架构 root k integer nullable false v array nullable true element struct containsNull true a integer nu
apachespark
apachesparksql
parquet
读取特定 Parquet 列时,将读取所有列而不是 Parquet-Sql 中给出的单个列
我在 Parquet Documentation 中读到 只有我查询的列 才会读取并处理该列的数据 但是当我看到 Spark UI 时 我发现完整的文件已被读取 以下是编写 parquet 文件并在 Spark Sql 中读取的代码 obj
scala
apachespark
apachesparksql
parquet
Hive alter table 更改列名称为重命名的列提供“NULL”
我曾尝试将表中的现有列重命名为新列 但名称更改后 新列只给我 NULL 值 Parquet 中表的存储格式 例如 user 是 Test 表中字符串数据类型的列 插入了值为 John 的示例记录 Select user from Test
Hadoop
hive
Bigdata
HiveQL
parquet
多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径
我有多个作业想要并行执行 这些作业使用分区将每日数据附加到同一路径中 e g dataFrame write partitionBy eventDate category mode Append parquet s3 bucket save
apachespark
parquet
无法编译 parquet-tools
我克隆了存储库parquet mr from 这个链接 http git 20clone 20https github com Parquet parquet mr git 我想要建造的parquet tools正如所解释的here htt
Java
Hadoop
compilererrors
parquet
从 PySpark 中的 s3 子目录读取数据
我想从 S3 存储桶中读取所有 parquet 文件 包括子目录中的所有文件 这些实际上是前缀 在 S3 URL 中使用通配符 仅适用于指定文件夹中的文件 例如 使用此代码将仅读取下面的镶木地板文件target folder df spar
apachespark
parquet
awsglue
PySpark
在 R 中通过 Arrow 包编写 Parquet 文件的问题
只是想知道在 Windows 和 Linux 操作系统中运行时 R 中的 arrow 包的读 写 parquet 功能是否有区别 示例代码 在数据框中插入任何内容 mydata data frame write parquet mydata
r
parquet
apachearrow
简单 SparkSQL 查询中未修剪分区
我正在尝试从 SparkSQL 表 S3 中的 parquet 有效地选择各个分区 但是 我看到 Spark 打开表中所有 parquet 文件的证据 而不仅仅是那些通过过滤器的文件 对于具有大量分区的表来说 即使是小型查询也会变得昂贵 这
amazons3
apachespark
apachesparksql
PySpark
parquet
Pandas read_parquet() 错误:pyarrow.lib.ArrowInvalid:从时间戳 [us] 转换到时间戳 [ns] 将导致时间戳超出范围
我正在尝试读取此处找到的镶木地板格式的 02 2019 fhv 数据 https d37ci6vzurychx cloudfront net trip data fhv tripdata 2019 02 parquet https d37c
python3x
pandas
datetime
parquet
Spark DataFrame 的 SparkRcollect() 和 head() 错误:参数意味着行数不同
我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n
r
apachespark
parquet
sparkr
apachesparksql
«
1
2
3
4
5
6
»