pandas df.to_parquet 写入多个较小的文件

2024-05-28

是否可以使用 Pandas 的DataFrame.to_parquet将写入拆分为多个大约所需大小的文件的功能？

我有一个非常大的 DataFrame (100M x 100)，并且正在使用df.to_parquet('data.snappy', engine='pyarrow', compression='snappy')写入文件，但这会产生大约 4GB 的文件。相反，我希望将其分成许多约 100MB 的文件。

我最终使用了 Dask：

import dask.dataframe as da

ddf = da.from_pandas(df, chunksize=5000000)
save_dir = '/path/to/save/'
ddf.to_parquet(save_dir)

这会保存到内部的多个镶木地板文件中save_dir，其中每个子 DataFrame 的行数是chunksize。根据您的数据类型和列数，您可以调整此设置以使文件达到所需的大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

save

parquet

pyarrow

snappy

pandas df.to_parquet 写入多个较小的文件的相关文章

在Matlab中，是否可以终止脚本，但将其所有内部变量保存到工作区？

我正在运行一个脚本但它花费的时间太长所以我想终止该脚本然而它计算了很多数据我理想情况下不想扔掉这些数据有没有替代方案ctrl C用什么将内部函数变量保存到工作区理想情况下我正在寻找一个Matlab键盘快捷键如ctrl C 但如
列出 pandas.read_sql 中的 sql 表

我想打开一个 SQL 2005 数据库文件扩展名为 mdf 我一直在尝试这样做 import pandas as pd import pyodbc server server name db database name conn pyod
从 pandas 数据框日期列中减去一天

抱歉我缺乏 Pandas 和日期时间能力我已经尝试过但有些东西似乎超出了我目前有限的技能范围我使用的是日期列 FinalStartPunch 该列输入为 datetime64 ns 如果小时为 0 则从 datetime64 ns 列
使用 Python/Pandas 提取时间序列中的工作日

我正在处理时间序列中的高频数据我想从我的数据中获取所有工作日我的数据观测值以秒为单位分隔因此每天有 86400 秒并且我的数据集分布在 31 天中因此有 2 678 400 个观测值这是我的数据部分 In 1 ts Out 1
如何将 defaultdict(list) 转换为 Pandas DataFrame

我有一个具有以下结构的 defaultdict list 对象 id list list 例如 a1 0 01 cat a2 0 09 cat a3 0 5 dog 我想转换这个defaultdict list into a Pandas
当有重复的列名时，填充奇怪的行为

我有一个如下所示的数据框 df pd DataFrame A np nan 1 1 np nan B 2 np nan 2 2 index 1 1 2 2 df columns A A 现在我想要ffill价值groupby the ind
如何将 Python pandas 转换为 Julia DataFrame（使用 PyJulia）并返回 Python Pandas

我想用PyJulia加速代码的某些部分 import numpy as np import julia import pandas as pd import random from julia import Base from julia
熊猫计算唯一行

我有一个类似于以下内容的 pandas 数据框 ColA ColB 1 1 1 1 1 1 1 2 1 2 2 1 3 2 我想要一个具有相同功能的输出Counter https docs python org 2 library coll
Pandas 报告系列为小数时为对象

我需要一种自动可靠的方法来查找 pandas 数据框中每列的数据类型我一直在使用 dtype 但注意到它有一些意想不到的东西考虑这个 10 行数据框 df a Out 6 0 250 00 1 750 00 2 0 00 3 0 00
你能通过 JavaScript 保存/加载文件吗？

我想使用 HTML5 Canvas 创建一个非常简单的 Javascript 游戏但是是否可以保存一个简单的 txt 文件并加载一个简单的 txt 文件我只需要存储一些简单的整数但我只是想知道是否允许javascript保存和加载外部
在不循环的情况下堆叠和整形 DataFrame (pandas) 切片

我有一个以下形式的数据框 var1 var2 var3 day 0 0 001284819 0 00138089 1 022781 1 1 0 001310201 0 001377473 1 022626 1 2 0 001330947 0
pandas 替换列子集的空值

我有一个包含许多列的数据框例如 df name salary age title John 100 35 eng Bill 200 NaN adm Lena NaN 28 NaN Jane 120 45 eng 我想替换工资和年龄中的空值
用 np.savez 存储字典会产生意想不到的结果？

我可以使用 np savez 存储字典吗结果令人惊讶至少对我来说而且我找不到通过密钥取回数据的方法 In 1 a 0 A array 1 2 3 B array 4 5 6 In 2 a Out 2 0 A array 1 2 3 B
使用具有多个元素的字典过滤数据框

我已经尝试了几个小时来在这里找到答案但我无法在我的特定情况下找到任何答案我能找到的最接近的是使用字典将多个字符串包含过滤器应用于 pandas 数据框 https stackoverflow com questions 4338916
打印没有行号/索引的 pandas 数据框[重复]

这个问题在这里已经有答案了使用以下代码 predictions pd DataFrame x6 x5 x4 x3 x2 x1 print predictions 在控制台中打印以下内容 0 0 782 367392 1 783 31415
将行转换为 pandas 中逗号分隔的字符串

我有一个熊猫数据框 from pandas import DataFrame import pandas as pd df2 DataFrame a one one two two three two one six b x y z y x
如何计算 pandas 系列中到前一个零的距离？

我有以下 pandas 系列以列表形式表示 7 2 0 3 4 2 5 0 3 4 我想定义一个新的系列返回到最后一个零的距离这意味着我想要以下输出 1 2 0 1 2 3 4 0 1 2 如何以最有效的方式在 pandas 中做到这
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
与其他格式相比，Apache Parquet 格式有哪些优缺点？

Apache Parquet 的一些特性是自我描述柱状格式独立于语言与 Apache Avro 序列文件 RC 文件等相比我想了解一下这些格式我已经读过 Impala 如何使用 Hadoop 文件格式 https www clo

随机推荐

在 WooCommerce 中检查购物车中的多个产品 ID

我使用以下代码来检查产品 ID 是否在购物车中如果是则添加额外的结帐字段 add action woocommerce after order notes conditional checkout field function cond
为 .API 文件启用自动完成功能？

有谁知道如何使用 N 站点上提供的 API 文件在 Notepad 中自动完成工作在 API 文件夹中具有 XML 自动完成文件的语言中自动完成功能工作得很好但对于使用 API 文件的语言 ruby AutoIt 等完全不起作用根
如何让 Swagger UI 的参数成为下拉菜单而不是文本输入

我正在使用 swagger 来显示我的 RESTApi API 的一个参数将字符串作为输入并将其转换为枚举值有没有办法在 Swagger UI 上显示下拉菜单而不是文本输入字段以便用户只能选择枚举值中的字符串值您可以使用以下 swag
类似 Twitter 的文本框字符计数，带有内联警报

我想要一个文本框字符向上计数它将在用户键入时增加计数并在用户越过所需字符时显示文本警报但仍允许用户继续键入如果你想自己动手 HTML div Type text here div
我的应用程序未在市场上显示使用冰淇淋三明治

我的应用程序在市场上已经有五个多月了我买了带有冰淇淋操作系统的平板电脑所以当我注意到我的应用程序没有显示冰淇淋操作系统时我感到很震惊所以我尝试修复它
Spring Security：将 OAuth2 声明与角色映射以保护资源服务器端点

我正在使用 Spring Boot 设置资源服务器并使用 Spring Security 提供的 OAuth2 来保护端点所以我使用 Spring Boot2 1 8 RELEASE例如使用 Spring Security5 1 6 R
使用 shell_exec 将 PHP 转换为 Powershell

如果我运行 output shell exec powershell get service dhcp 我得到了 dhcp 服务的完美输出显示正在运行但如果我运行 output shell exec powershell get use
DBCC命令是存储过程还是函数？

应该是什么DBCC命令被调用 DBCC 过程还是 DBCC 函数这很令人困惑因为DBCC PAGE可以在不加前缀的情况下执行EXEC语句很像存储过程但EXEC DBCC PAGE 1 1 1 3 抛出错误语法错误消息 156 关键
如何用新的apk升级以前的apk而不丢失来自未知来源apk的android中以前的数据

如何使用新的 apk 升级 Android 应用程序而不丢失真实设备中以前的 apk 数据有一个版本号 http developer android com guide topics manifest manifest element h
PHP exec rm -Rf 不适用于子目录

我试图删除特定文件夹中的所有内容但它似乎不会影响子文件夹但它应该因为 bash 命令是从控制台执行的 system rm Rf some dir 该命令中不需要星号如果要与文件一起删除目录请同时删除斜杠留下斜杠将删除文件但保留
保存数据的最佳方法

我创建了一个课程我想在其中跟踪学生的统计数据我打算稍后制作一个 GUI 来操作这些数据我的主要问题是保存和稍后检索这些数据的最佳方法是什么我读过有关 pickle 和 JSON 的内容但我并不真正了解它们是如何工作的特别是它们
关于将 Objective C 代码添加到 swift 动态框架的澄清

我有一个 swift 动态框架当前正在链接到另一个用 Objective C 编写的框架这可以工作但很烦人因为 Objective C 框架实际上只有 2 个文件我想知道是否有办法将其带入我的 swift框架如果这是我会使用的应
当前上下文中不存在名称“DefaultAuthenticationTypes”

我正在尝试在我的 Web 应用程序中实现基于角色的授权如下所示 HttpPost ActionName Login public ActionResult Login LoginViewModel model if ModelState
如果用户没有安装 YouTube 应用，如何在 Android 应用中播放 YouTube 视频？

我正在尝试在 Android 应用程序中播放 YouTube 视频我正在使用 YouTubePlayer API 它运行良好但问题是我想在库中拥有这个播放器如果没有安装 YouTube 应用程序那么电影就不会显示而且我还有另一个问
如何更改 Hibernate CharacterTypeDescriptor 以处理空列值

我们的问题是我们无法获取数据其中包括empty长度为 0 的字符串来自旧数据库由于StringIndexOutOfBoundsExceptiion源自Hibernate的CharacterTypeDescriptor 我们希望更改 H
如何计算 OpenID Connect 服务器的指纹？

创建 OpenID Connect 提供商例如 AWS 时我需要指定一个指纹对于连接器它是什么我如何获得它例如从如何在不使用密钥的情况下将 GitHub 操作与 AWS 部署连接起来 https stackoverflow co
Google App Engine 的优点和缺点 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 2009 年 8 月 21 日更新列表帮助我列出在 Google App Engine 上构建应用程序的所有优点和缺点 Pros 无需购买服务
Spring-Security + Angular 2 + CORS。无法重定向 Facebook 登录

我正在构建一个在前端使用 Angular 2 在后端使用 Spring Boot 的应用程序我正在使用 Spring Security 和 Spring Social 来允许通过 Facebook 登录我以为我已正确配置 CORS 但收
如何让用户从图库中选择一张图片在游戏中使用，LibGDX

我是学习 LibGDX 的初学者我正在 LibGDX 中开发我的第一个游戏您可以用选定的图片例如某人的头部替换敌人的球然后躲避敌人在我的主菜单中我有 stage2d 按钮我想要一个按钮让用户选择他想要在游戏中使用的图片所
pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的DataFrame to parquet将写入拆分为多个大约所需大小的文件的功能我有一个非常大的 DataFrame 100M x 100 并且正在使用df to parquet data snappy en

pandas df.to_parquet 写入多个较小的文件

pandas df.to_parquet 写入多个较小的文件 的相关文章

随机推荐

热门标签

pandas df.to_parquet 写入多个较小的文件的相关文章