Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Pyarrow s3fs 按时间戳分区
是否可以在中使用时间戳字段pyarrow表进行分区s3fs文件系统由 YYYY MM DD HH 将镶木地板文件写入时s3 我能够使用 pyarrow write to dataset 函数来实现 该函数允许您指定分区列来创建子目录 Exa
python
pyarrow
在 Glue pythonshell 中使用 pyarrow - ModuleNotFoundError:没有名为“pyarrow.lib”的模块
创建了一个egg and whlpyarrow 文件并将其放在 s3 上 以便在 pythonshell 作业中调用它 收到这条消息 职位代码 import pyarrow raise 错误 结构相同whl Traceback most r
python
python3x
awsglue
egg
pyarrow
使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错
我有这段代码 它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col
python
amazons3
parquet
pyarrow
如何在 Windows 上为 python 3.7 正确设置 pyarrow
我一直在尝试通过 pip 安装 pyarrow pip install pyarrow 并且 正如 Yagav 所建议的 py 3 7 m pip install user pyarrow 和康达 conda install c conda
python
Windows
Hadoop
HDFS
pyarrow
为什么读取镶木地板数据集需要比数据集大小更多的内存?
我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象 我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码 尽管 RA
python
amazons3
OutOfMemory
parquet
pyarrow
自 apache arrow 1.0.1 发布以来用于长期存储的 Feather 格式
正如我在搜索问题时了解到的那样羽毛Github https github com wesm feather 以及 stackoverflow 中的问题 例如羽毛和镶木地板有什么区别 https stackoverflow com quest
python
pandas
DataFrame
pyarrow
feather
从用 C++ 编写的文件中从 pyarrow 中的字段和架构中读回 KeyValueMetadata
如果我使用脚本编写一个简单的 Parquet 文件简单写入镶木地板 cpp https gist github com dantrim 33f9f14d0b2d3ec45c022aa05f7a45ee 我希望有一个带有单列的简单 Parqu
parquet
pyarrow
apachearrow
如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件
我正在寻找使用 python 从 s3 的多个分区目录读取数据的方法 data folder serial number 1 cur date 20 12 2012 abcdsd0324324 snappy parquet data fol
python
parquet
pyarrow
fastparquet
pythons3fs
Pyarrow 从 s3 读取/写入
是否可以在 s3 中的一个文件夹中读取和写入 parquet 文件到另一个文件夹 而无需使用 pyarrow 将其转换为 pandas 这是我的代码 import pyarrow parquet as pq import pyarrow a
python
pyarrow
pyarrow 可以将多个 parquet 文件写入一个文件夹,如 fastparquet 的 file_scheme='hive' 选项吗?
我有一个包含数百万条记录的 SQL 表 我计划使用 pyarrow 库将其写入文件夹中的许多 parquet 文件 数据内容似乎太大 无法存储在单个镶木地板文件中 但是 我似乎找不到 pyarrow 库的 API 或参数来允许我指定如下内容
python
Hadoop
parquet
pyarrow
如何使用 Pandas 编写分区的 Parquet 文件
我正在尝试将 Pandas 数据帧写入分区文件 df to parquet output parquet engine pyarrow partition cols partone partwo TypeError cinit got an
python
pandas
parquet
pyarrow
AWS EMR - ModuleNotFoundError:没有名为“pyarrow”的模块
我在使用 Apache Arrow Spark 集成时遇到了这个问题 将 AWS EMR 与 Spark 2 4 3 结合使用 在本地 Spark 单机实例和 Cloudera 集群上测试了这个问题 一切正常 在spark env sh中设
apachespark
PySpark
amazonemr
pyarrow
apachearrow
Google BigQuery 架构与使用 load_table_from_dataframe 的数字数据类型发生冲突(pyarrow 错误)
当我将数字数据 int64 或 float64 从 Pandas 数据帧上传到 数字 Google BigQuery 数据类型 pyarrow lib ArrowInvalid 获得长度为 8 的字节串 预期为 16 我尝试更改 Panda
python
pandas
googlebigquery
pyarrow
如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行?
我正在尝试使用 awswrangler 将存储在 S3 中的任意大的 parquet 文件读入 pandas 数据帧 但将我的查询限制为第一个N由于文件的大小 以及我较差的带宽 而导致的行 我不知道如何做到这一点 或者是否可以在不搬迁的情况
pandas
DataFrame
amazons3
pyarrow
awsdatawrangler
如何使用Pyarrow实现流式写入效果
我拥有的数据是一种流数据 我想将它们存储到一个 Parquet 文件中 但是 Pyarrow 每次都会覆盖 Parquet 文件 那么我该怎么办呢 我尝试不关闭编写器 但这似乎是不可能的 因为如果我不关闭它 那么我将无法读取该文件 这是包
parquet
pyarrow
Pyarrow 在使用 pandas to_parquet() 时应用架构
我有一个非常宽的数据框 20 000 列 主要由 Pandas 中的 float64 列组成 我想将这些列转换为 float32 并写入 Parquet 格式 我这样做是因为这些文件的下游用户是内存有限的小容器 我目前在 Pandas 中进
python
pandas
pyarrow
使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件
我正在尝试使用 AWS Lambda 在 S3 中加载 处理和写入 Parquet 文件 我的测试 部署过程是 https github com lambci docker lambda作为模拟 Amazon 环境的容器 因为需要安装本机库
python
amazons3
awslambda
parquet
pyarrow
如何使用 pyarrow 从 S3 读取 parquet 文件列表作为 pandas 数据帧?
我有一种巧妙的方法来实现这一点boto3 1 4 4 pyarrow 0 4 1 和pandas 0 20 3 首先 我可以像这样在本地读取单个镶木地板文件 import pyarrow parquet as pq path parquet
python
pandas
DataFrame
boto3
pyarrow
«
1
2