为什么读取镶木地板数据集需要比数据集大小更多的内存？

2024-01-02

我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集。 S3 UI 显示该路径的大小为 14.3 GB，总共 836 个对象。我在具有 64GB RAM 的 c4.8xlarge EC2 实例上运行代码。尽管 RAM 是数据集大小的 4 倍多，但我的机器内存不足并且程序崩溃。

为什么读取这个数据集需要这么多内存？有办法避免这个问题吗？我知道像 Spark 和 Dask 这样的分布式计算库，并且能够在 PySpark 中很好地使用这个数据集，但我正在尝试建立一个单机工作流程。

这是我用来读取数据集的代码：

import pyarrow.parquet as pq
from pyarrow import fs
s3 = fs.S3FileSystem()


#fs = s3fs.S3FileSystem()
bucket = "<bucket_name>"
path = "<path>"

dataset = pq.ParquetDataset(f"{bucket}/{path}", filesystem=s3)

这是架构的摘要和一些统计数据。我正在读取 113 列中的 9 列，共有 7,045,204 行：

Column 1: int
Column 2: Array<int>, average len around 450
Column 3: Array<int>, average len around 450
Column 4: Array<int>, average len around 1000
Column 5: Array<int>, average len around 1000
Column 6: String, average len of 2
Column 7: int
Column 8: int
Column 9: timestamp

“为什么加载的镶木地板比磁盘上的大”这个问题的答案是压缩，正如 @michael-delgado 在评论中解释的那样。

针对您的情况的解决方法是通过以下任一方式使用 Arrow dataset apipyarrow.dataset.dataset或通过设置use_legacy_dataset=False如果你想使用 ParquetDataset。更详细的信息here https://arrow.apache.org/docs/python/parquet.html#reading-from-partitioned-datasets

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么读取镶木地板数据集需要比数据集大小更多的内存？的相关文章

用于读取类似 CSV 行的 Python 正则表达式

我想解析传入的类似 CSV 的数据行值用逗号分隔逗号周围可能有前导和尾随空格并且可以用或引用例如这是有效的行 data1 data2 data3 data4 data5 但这是格式错误的 data1 data2 da ta3
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
如何用pygame画一条虚线？

我需要在坐标系上绘制正弦波和余弦波就像在this https i stack imgur com DGI8g png图片除了没能代表以外我所有的工作都做得很好虚线和曲线与 pygame 一致我有与我需要的类似的东西但我怎样才能让它
在Python中，如何通过去掉括号和大括号来打印Json

我想以一种很好的方式打印 Json 我想去掉方括号引号和大括号只使用缩进和行尾来显示 json 的结构例如如果我有一个像这样的 Json A A1 1 A2 2 B B1 B11 B111 1 B112 2 B12 B121 1
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
Plotly：如何设置文本格式（下划线、粗体、斜体）

使用注释时我尝试在绘图中为文本添加下划线我使用添加注释 import plotly graph objects as go g go FigureWidget make subplots rows 1 cols 1 g update l
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
配置 Django 和 Google 云存储？

I am not使用应用引擎我有一个在虚拟机上运行的普通 Django 应用程序我想使用 Google Cloud Storage 来提供静态文件以及上传提供媒体文件我有一个水桶如何将 Django 应用程序链接到我的存储桶我
数据类和属性装饰器

我一直在阅读 Python 3 7 的数据类作为命名元组的替代品我通常在必须将数据分组到结构中时使用它我想知道数据类是否与属性装饰器兼容以便为数据类的数据元素定义 getter 和 setter 函数如果是这样是否在某处进行了描
将整数转换为特定格式的十六进制字符串

我是 python 新手有以下问题我需要将整数转换为 6 个字节的十六进制字符串例如 281473900746245 gt xFF xFF xBF xDE x16 x05 十六进制字符串的格式很重要 int 值的长度是可变的格式 0
阻止 BeautifulSoup 将我的 XML 标签转换为小写

我正在使用 BeautifulStoneSoup 来解析 XML 文档并更改一些属性我注意到它会自动将所有 XML 标签转换为小写例如我的源文件有
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
python：日志记录：我们可以向记录器添加多个过滤器吗？考虑哪一个

我试图了解 Python 日志记录中的多个过滤器一个在配置中定义另一个在代码中定义如何工作我正在开发一个 Django 项目下面是我在 settings py 中的记录器配置我的目标是switch on and switch o
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

如何捕获（并忽略）对错误函数的调用？

我很惊讶我在任何地方都找不到这个问题的答案我正在编写一个 Roguelike 游戏并且正在使用 hackage 的 ncurses 库它是 ncurses 库的一个非常好的包装器现在 ncurses 有一个怪癖如果你尝试写右下角的
用于简单传递性检查的不必要的谓词定义？

对于给定的事实 trust direct p1 p2 trust direct p1 p3 trust direct p2 p4 trust direct p2 p5 trust direct p5 p6 trust direct p6 p
如何禁用 Mailchimp 双重选择加入 PHP

我对 Mailshimp 完全陌生我在网上找不到任何可以禁用双重选择的内容我不使用任何 Mailchimp API 我只是将 mailchimp 提供的表单放入我的 html 中有什么想法可以不使用 API 或者如果必须使用 API
我可以使用 EL 从 JSP 访问枚举类的值吗？

我有一个枚举类USState 我想遍历 JSP 中的状态是否可以访问列表USState不首先将这样的列表设置为属性似乎像枚举这样的静态东西应该始终可用但我不知道如何做到这一点这就是我正在寻找的工作除外
读取内存中的整个文件 VS 读取块

我对 C 和编程还比较陌生所以请耐心等待我正在开发一个应用程序需要读取一些文件并按块处理这些文件例如以 48 字节的块处理数据我想知道什么是更好的性能方面在内存中一次读取整个文件然后处理它或者以块的形式读取文件并直接处理它
实体框架 - 联合导致“无法创建类型的常量值..”

选择全部Schedulings 是活跃的我有以下代码 var allSchedulesOnALine CurrentUser Lines SelectMany o gt o Scheduling Where o gt o Active v
根据平均值对 R 数据框中的列重新排序

我想根据每列的算术平均值对数据框的列重新排序 For S1 S2 S3 1 1 1 2 1 1 3 3 1 预期输出是 S3 S2 S1 1 1 1 1 1 2 1 3 3 在上述情况下平均值为 S1 2 S2 1 6666 and S3
Java DecimalFormat 科学记数法问题

我正在使用Java的十进制格式 https stackoverflow com questions 168802 where can i find a tutorial to get started learning jquery类以科学记
使用动态规划查找三项式系数

我正在尝试使用动态编程在Java中实现一个计算三项式系数的函数我正在使用以下公式 T n k 1 if n 0 and k 0 T n k 0 if k lt n or k gt n T n k T n 1 k 1 T n 1 k T n
是否可以在虾文件中渲染斑点图像？

我愿意使用Gruff https github com topfunky gruff在虾文件中渲染一些图形我想避免将图像写入磁盘的延迟仅让 Prawn 读取它们格鲁夫提供to blob方法 http www rubydoc info
如何在 PySimple GUI 中根据按钮点击显示不同的布局？（持续窗口循环）

我想知道是否有一种方法可以根据 PySimple GUI 中的按钮单击来管理不同的布局我刚刚开始使用这个框架我想找到导航菜单的最佳方式不一定要使用不同的布局但这让我想到了最直观的方法我在想当选择某个子菜单按钮时可能会有一个布局
如何计算质心

我正在处理地理空间形状并在这里查看质心算法 http en wikipedia org wiki Centroid Centroid of polygon http en wikipedia org wiki Centroid Centro
在 C++ 中格式化整数

我有一个 8 位整数我想按如下格式打印 XXX XX XXX 我想使用一个接受 int 并返回字符串的函数有什么好的方法可以做到这一点就我个人而言我就是这样做的可能不是解决问题的最快方法也绝对不像egrunin 的函数那样可重用
scss模块（css module）：从其他scss文件导入

我目前正在转换我的 sass 样式以使用CSS 模块 https github com css modules css modules以避免风格冲突我的理解是它会生成唯一的类名这使得如果我想定位在不同文件中定义的另一个组件例如子组件
Chrome 无法连接到 websocket 服务器（操作码 -1）“握手已取消”

我有一个使用自签名证书的安全 websocket 服务器我无法从 chrome v44 0 2403 107 客户端连接到该服务器它是我的测试服务器它使用与我的应用程序服务器几乎相同的代码创建我的应用程序服务器can连接到我试过重
Android 8.1.0 中移动屏幕关闭时 BLE 扫描停止

我将此权限放入清单文件中
Delphi XE3 及更高版本在退出时不保存打开的 IDE 选项卡

我正在运行 win 7 64Bit Delphi XE3 当我在旧的 Delphi XE 中打开一个项目时它会打开我上次保存该项目时打开的所有表单如何让XE3有同样的动作显然是一个简单的问题但我找不到XE3中保存布局的设置你必须将
.NET API 的 PayPal 异常：流不可读

正在尝试处理付款但我的客户遇到了例外情况当我逐步执行付款流程时当我尝试使用 OAuthTokenCredential 方法获取访问令牌时我看到此异常 HttpConnection 执行中出现异常流不可读这在几天前才起作用我确实
警告：格式“%d”需要“int”类型的参数，但参数 2 的类型为“long int”[-Wformat=]

这段代码是关于比赛条件调度和编译器行为在进程或线程同步中起着重要作用演示同步需求的最简单场景来自尝试修改共享变量值的两个线程进程之间创建的竞争条件这通常会导致数据不一致和错误结果下面的例子演示了这种情况我是 C 语言新手对这
为什么读取镶木地板数据集需要比数据集大小更多的内存？

我正在尝试使用 pyarrow 从 Python 中的 S3 读取镶木地板数据集 S3 UI 显示该路径的大小为 14 3 GB 总共 836 个对象我在具有 64GB RAM 的 c4 8xlarge EC2 实例上运行代码尽管 RA

为什么读取镶木地板数据集需要比数据集大小更多的内存？

为什么读取镶木地板数据集需要比数据集大小更多的内存？ 的相关文章

随机推荐

热门标签

为什么读取镶木地板数据集需要比数据集大小更多的内存？的相关文章