pyarrow

pyarrow 表到 PyObject* 通过 pybind11

include

c pybind11 pyarrow apachearrow

我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗？

我刚刚读到 HDF5 允许您访问数据查找而无需将整个文件读入内存这种寻找行为在没有 Java 的 Parquet 文件中是否可能非 pyspark 解决方案我使用 Parquet 是因为它有强大的 dtype 支持 import h

parquet pyarrow fastparquet

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod

python awslambda parquet amazonathena pyarrow

如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql

pandas PySpark pyarrow

如何读取箭头镶木地板键值元数据？

当我在 R 和 Python 中保存 parquet 文件使用 pyarrow 时我得到一个保存在元数据中的箭头模式字符串如何读取元数据是Flatbuffer编码的数据吗模式的定义在哪里它没有在箭头文档网站上列出元数据是一个键

parquet pyarrow apachearrow

保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt

python googlebigquery parquet pyarrow

为什么“plain_dictionary”编码的字典页偏移量为 0？

parquet由Spark v2 4 Parquet mr v1 10生成 n 10000 x 1 0 2 0 3 0 4 0 5 0 5 0 None n y u u u u u a None u a n z np random rand

parquet arrows pyarrow parquetmr

是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？

我有一个很大的 PyArrow 表其中有一列名为index我想用它来对表进行分区每个单独的值index代表表中不同的数量是否有一种惯用的方法可以根据列的内容从 PyArrow 表中选择行这是一个示例表 import pyarrow

python pyarrow

PyArrow 表：过滤行

我有一个RecordBatch从 Plasma DataStore 中我可以将其读入pyarrow RecordBatch or a pyarrow Table 我现在尝试在将其转换为 pandas 之前过滤掉行 to pandas 有没

python pandas pyarrow

从 pyarrow.Table 转换为 pandas 时处理大时间戳

我有一个时间戳9999 12 31 23 59 59以 int96 形式存储在 parquet 文件中我使用 pyarrow dataset 读取此镶木地板文件并将结果表转换为 pandas 数据框使用 pyarrow Table t

python pandas timestamp parquet pyarrow

逐行构建 pyarrow 表的最快方法

我有一本大字典我想迭代它来构建一个 pyarrow 表字典的值是不同类型的元组需要解压缩并存储在最终 pyarrow 表中的单独列中我确实提前知道了架构键还需要存储为列我有下面的方法可以逐行构建表格是否还有另一种更快的方法对

python pyarrow apachearrow

如何本地读取羽毛/箭头文件？

I have feather格式文件sales feather我用来在之间交换数据python and R 在 R 中我使用以下命令 df arrow read feather sales feather as data frame TRU

apachespark PySpark pyarrow apachearrow feather

无法加载 libhdfs

尝试使用 pyarrow 访问 hdfs 文件但无法使其工作下面是代码非常感谢您 rxie cedgedev03 code python Python 2 7 12 Anaconda 4 2 0 64 bit default Jul 2

python pyarrow

UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告

我在跑步spark 2 4 2本地通过pyspark用于 NLP 中的 ML 项目 Pipeline 中的部分预处理步骤涉及使用pandas udf功能优化通过pyarrow 每次我使用预处理的 Spark 数据框进行操作时都会出现以下警

apachespark PySpark userdefinedfunctions pyarrow

Pyarrow s3fs 按时间戳分区

是否可以在中使用时间戳字段pyarrow表进行分区s3fs文件系统由 YYYY MM DD HH 将镶木地板文件写入时s3 我能够使用 pyarrow write to dataset 函数来实现该函数允许您指定分区列来创建子目录 Exa

python pyarrow

在 Glue pythonshell 中使用 pyarrow - ModuleNotFoundError：没有名为“pyarrow.lib”的模块

创建了一个egg and whlpyarrow 文件并将其放在 s3 上以便在 pythonshell 作业中调用它收到这条消息职位代码 import pyarrow raise 错误结构相同whl Traceback most r

python python3x awsglue egg pyarrow

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

我有这段代码它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col

python amazons3 parquet pyarrow

如何在 Windows 上为 python 3.7 正确设置 pyarrow

我一直在尝试通过 pip 安装 pyarrow pip install pyarrow 并且正如 Yagav 所建议的 py 3 7 m pip install user pyarrow 和康达 conda install c conda

python Windows Hadoop HDFS pyarrow

为什么读取镶木地板数据集需要比数据集大小更多的内存？

我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码尽管 RA

python amazons3 OutOfMemory parquet pyarrow

自 apache arrow 1.0.1 发布以来用于长期存储的 Feather 格式

正如我在搜索问题时了解到的那样羽毛Github https github com wesm feather 以及 stackoverflow 中的问题例如羽毛和镶木地板有什么区别 https stackoverflow com quest

python pandas DataFrame pyarrow feather