如何使用Pyarrow实现流式写入效果

2023-12-07

我拥有的数据是一种流数据。我想将它们存储到一个 Parquet 文件中。但是 Pyarrow 每次都会覆盖 Parquet 文件。那么我该怎么办呢？

我尝试不关闭编写器，但这似乎是不可能的，因为如果我不关闭它，那么我将无法读取该文件。

这是包：

import pyarrow.parquet as pp
import pyarrow as pa

for name in ['LEE','LSY','asd','wer']:
    writer=pq.ParquetWriter('d:/test.parquet', table.schema)
    arrays=[pa.array([name]),pa.array([2])]
    field=[pa.field('name',pa.string()),pa.field('age',pa.int64())]
    table=pa.Table.from_arrays(arrays,schema=pa.schema(field))
    writer.write_table(table)
writer.close()

但实际上我想每次关闭编写器，然后重新打开它以在数据中附加一行，如下所示：

for name in ['LEE','LSY','asd','wer']:
    writer=pq.ParquetWriter('d:/test.parquet', table.schema)
    arrays=[pa.array([name]),pa.array([2])]
    field=[pa.field('name',pa.string()),pa.field('age',pa.int64())]
    table=pa.Table.from_arrays(arrays,schema=pa.schema(field))
    writer.write_table(table)
    writer.close()

Parquet 文件一旦写入就无法追加。这种情况的典型解决方案是每次写入一个新的 parquet 文件（它们可以一起形成单个分区的 parquet 数据集），或者，如果数据不多，则首先将 python 中的数据收集到单个表中，然后写入一次。

请参阅此电子邮件主题，其中包含更多相关讨论：https://lists.apache.org/thread.html/07b1e3f13b5dae7e34ee3752f3cd4d16a94deb3a5f43893b73475900@%3Cdev.arrow.apache.org%3E

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

parquet

pyarrow

如何使用Pyarrow实现流式写入效果的相关文章

为什么读取镶木地板数据集需要比数据集大小更多的内存？

我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码尽管 RA
Spark SQL - gzip、snappy 和 lzo 压缩格式之间的区别

我正在尝试使用 Spark SQL 来编写parquet file Spark SQL 默认支持gzip 但它也支持其他压缩格式例如snappy and lzo 这些压缩格式有什么区别压缩率 GZIP 压缩比 Snappy 或 LZO
从 Azure Blob 容器读取 Parquet 数据，而无需在本地下载

我正在使用 azure SDK avro parquet 和 hadoop 库从 Blob 容器读取 parquet 文件目前我正在将文件下载到临时文件然后创建一个 ParquetReader try InputStream inpu
如何配置 AWS Athena 结果的文件格式

目前 Athena 查询结果在 S3 中为 tsv 格式有没有办法配置 Athena 查询以返回 Parquet 格式的结果 Answer 目前无法直接与 Athena 进行此操作在配置 Athena 查询结果时您只能设置查询结果位置
Spark DataFrame 重新分区和 Parquet 分区

我在列上使用重新分区来将数据存储在镶木地板中但我看到没有 parquet 分区文件的数量与不 Rdd 分区 rdd分区之间是否没有相关性和镶木地板隔断当我将数据写入镶木地板分区并使用 Rdd 时重新分区然后我从 parquet
使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

我有这段代码它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col
Tensorflow Dataset API：带有 parquet 文件的输入管道

我正在尝试使用 Dataset API 设计输入管道我正在处理镶木地板文件将它们添加到我的管道中的好方法是什么我们已经发布了万能风暴 https github com uber petastorm 一个开源库允许您通过 Tensor
不使用 Spark 从 Parquet 读取特定列

我正在尝试在不使用 Apache Spark 的情况下读取 Parquet 文件并且我能够做到这一点但我发现很难读取特定列我无法找到任何好的谷歌资源因为几乎所有帖子都是关于使用 parquet 文件读取的下面是我的代码 impor
Spark读取不同版本的Parquet文件

我使用 Version1 架构生成了一年多的镶木地板文件随着最近的架构更改较新的镶木地板文件具有 Version2 架构额外列因此当我从旧版本和新版本一起加载镶木地板文件并尝试过滤更改的列时我得到一个异常我希望 Spark 读取
如何本地读取羽毛/箭头文件？

I have feather格式文件sales feather我用来在之间交换数据python and R 在 R 中我使用以下命令 df arrow read feather sales feather as data frame TRU
从 PySpark 中的 s3 子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件包括子目录中的所有文件这些实际上是前缀在 S3 URL 中使用通配符仅适用于指定文件夹中的文件例如使用此代码将仅读取下面的镶木地板文件target folder df spar
从结构数组中选择 Spark DataFrames 中的特定列

我有一个 Spark 数据框df具有以下架构 root k integer nullable false v array nullable true element struct containsNull true a integer nu
AnalysisException：路径不存在：dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data；

我将以下代码打包到 whl 文件中 from pkg resources import resource filename def path to model anomaly dir name str data path str filep
是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？

我有一个很大的 PyArrow 表其中有一列名为index我想用它来对表进行分区每个单独的值index代表表中不同的数量是否有一种惯用的方法可以根据列的内容从 PyArrow 表中选择行这是一个示例表 import pyarrow
从 Pyspark 中的多个目录读取 parquet 文件

我需要从不是父目录或子目录的多个路径读取镶木地板文件例如 dir1 dir1 1 dir1 2 dir2 dir2 1 dir2 2 sqlContext read parquet dir1 从 dir1 1 和 dir1 2 读取镶木地
使用Python编写Parquet文件的方法？

我无法找到允许使用 Python 编写 Parquet 文件的库如果我可以结合使用 Snappy 或类似的压缩机制那就加分了到目前为止我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持我有一
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

Mongodb 不同聚合

我正在尝试使用聚合框架在 mongo 中执行组计数但结果并不完全符合预期考虑下面的集合 people gt insert array user id gt 1 day gt Monday age gt 18 people gt inse
puppet 如何向操作系统发送命令？

我是 Puppet 的新手但很了解这些概念 Puppet 清单调用 Puppet 模块模块执行实际任务我试图了解 Puppet 模块层发生的情况该命令实际上是如何执行的以下面的例子为例实际向操作系统传递了哪些命令另外它是在哪
如何使用 LESS 将参数传递给 CSS 类？

不确定使用 LESS 是否可以但我看到 rotate degrees 这仅适用于 LESS 我希望能够编写一个 CSS 类并将数字作为 HTML 中的参数传递例如 div class 这只是我使用的重复 CSS 类的一个示例但即使传递
如何从网页/网络表单发送电子邮件？

有哪些技术可用于通过网页或网页上的表单发送电子邮件我有一些背景想法您可以将表单数据发布到脚本但我真的不知道 cgi 脚本是什么我很想知道这是否是建议的方法或当前的做法是什么是这只是为了给用户提供一些联系运营商的方式页内表单似乎
如何使用 nuget 分发特定于处理器的 WindowsStore 程序集

我有一个程序集它链接到 Windows 应用商店应用程序的本机 Sqlite 由于 Sqlite 是本机的因此该程序集无法使用 AnyCPU 配置文件相反它必须提供单独的 AnyCPU x86 x64 程序集我想通过 nuget
按输出的特定顺序对属性进行排序

如何在不显式编写的情况下按特定顺序编写元素属性考虑
使用 Java 转换为 FLV

有谁知道如何使用java将任何类型的视频格式转换为flv 我一直在寻找用于转换视频的java api 但似乎没有这样的东西但可能有办法做到这一点我的意思是像youtube服务这样的东西确实可以转换视频但是使用java 我需要一个网络应
智能 Gwt 组件未在 html div 标签中呈现

我正在使用智能 GWT 来开发我的应用程序以创建我正在使用 GWT 组件的应用程序的结构 HTML代码片段如下 div class container div div div In my pagePaneldiv 所有组件均已添加当我在
Java中“IS -A”关系和“HAS-A”关系有什么区别？ [复制]

这个问题在这里已经有答案了我是JAVA新手刚刚开始学习 IS A 和 HAS A 关系但我并没有真正理解它 IS A 和 HAS A 有什么区别什么时候应该使用 IS A 什么时候应该使用 HAS A IS A 关系是继承继承的类
如何在 Lucene 中仅标记某些单词

我在我的项目中使用 Lucene 并且需要一个自定义分析器 Code is public class MyCommentAnalyzer extends Analyzer Override protected TokenStreamComp
需要正则表达式模式来将日期与可选时间相匹配

我需要一个将日期与可选时间相匹配的正则表达式模式该日期应该是有效的美国日期m d yyyy格式时间应该是h mm ss am pm或24小时时间hh mm ss 比赛 2011 年 9 月 1 日 2011 年 9 月 1 日上午 10
使用 Laravel 5.8 身份验证和外部 JSON API（创建自己的 ServiceProvider）

我正在构建一个 Laravel 5 8 应用程序作为用 Go 编写的外部 API 的前端我将用户通行证发布到 API 然后 API 使用 HTTP 200 和 JSON 令牌 JWT 或 HTTP 401 进行响应以表明凭据无效我
Angular 2 客户端错误

我刚刚接触 Typescript 和 Angular 2 我想知道哪种方法最适合记录客户端错误这样如果生产中发生问题我就能够找出失败的方法以及引发的错误该应用程序的后端是用 C 编写的并连接到 SQL Server 数据库数据通过
jQuery 不关闭窗口

我正在为电子商务网站制作一个表单供用户请求有关某个项目的 PDF 该表单工作正常并将用户发送到感谢页面在感谢页面上我让 jQuery 设置了 5 秒后关闭窗口的时间间隔但它不起作用在链接中嵌入关闭命令也不起作用但是如果感
将整数列表分配给 @var

I can declare idOrder int set idOrder 21319 I want declare idOrder int set idOrder 21319 21320 用于 WHERE 子句使用 IN 运算符的一系列语
JPackage 只能用于一个应用程序？

我有一个 java 应用程序在运行时将生成另一个 JVM 但我想使用 jpackage 打包我的应用程序它运行得很好但在运行时当我的应用程序尝试使用以下命令调用下一个 JVM 时 File javaHome new File Sys
了解投影矩阵

我试图了解投影向量的值范围是多少看起来和MSDN说的不符下面的代码输出一个彩色三角形三角形完全可见我期望在投影顶点之后以下内容将成立 X和Y的范围是 1到1 Z的范围是0到1 我从这里得到这个信息 http msdn micros
如何使用 pymongo 获取仅包含 ObjectId 的列表？

我有以下代码 client MongoClient data base client hkpr restore agents collection data base agents agent ids agents collection f
如何使用正则表达式提取 4 位数字

我想提取后面的所有数字company id 部分并存储在变量中我的字符串如下所示 String company company id 4100 data drm user id 572901936637129135 company id
如何使用Pyarrow实现流式写入效果

我拥有的数据是一种流数据我想将它们存储到一个 Parquet 文件中但是 Pyarrow 每次都会覆盖 Parquet 文件那么我该怎么办呢我尝试不关闭编写器但这似乎是不可能的因为如果我不关闭它那么我将无法读取该文件这是包

如何使用Pyarrow实现流式写入效果

如何使用Pyarrow实现流式写入效果 的相关文章

随机推荐

热门标签

如何使用Pyarrow实现流式写入效果的相关文章