即使有块，Dask 也会出现内存不足的情况

2023-12-04

我正在处理大型 CSV 文件并且我需要制作笛卡尔积（合并操作）。我尝试用 Pandas 来解决这个问题（你可以检查 Panda 的代码和数据格式示例对于同样的问题, here）由于内存错误而没有成功。现在，我正在尝试使用 Dask，它应该可以管理巨大的数据集，即使其大小大于可用 RAM。

首先我读了两个 CSV：

from dask import dataframe as dd

BLOCKSIZE = 64000000  # = 64 Mb chunks


df1_file_path = './mRNA_TCGA_breast.csv'
df2_file_path = './miRNA_TCGA_breast.csv'

# Gets Dataframes
df1 = dd.read_csv(
    df1_file_path,
    delimiter='\t',
    blocksize=BLOCKSIZE
)
first_column = df1.columns.values[0]
df1.set_index(first_column)
df2 = dd.read_csv(
    df2_file_path,
    delimiter='\t',
    blocksize=BLOCKSIZE
)
first_column = df2.columns.values[0]
df2.set_index(first_column)

# Filter common columns
common_columns = df1.columns.intersection(df2.columns)
df1 = df1[common_columns]
df2 = df2[common_columns]

然后，我将操作存储在磁盘上以防止内存错误：

# Computes a Cartesian product
df1['_tmpkey'] = 1
df2['_tmpkey'] = 1

# Neither of these two options work
# df1.merge(df2, on='_tmpkey').drop('_tmpkey', axis=1).to_hdf('/tmp/merge.*.hdf', key='/merge_data')
# df1.merge(df2, on='_tmpkey').drop('_tmpkey', axis=1).to_parquet('/tmp/')

我做了尝试使用与我正在使用的完全相同的 CSV 文件的存储库。我尝试过较小的blocksize值，但我得到了同样的错误。我错过了什么吗？任何形式的帮助将非常感激。

我使用以下方法成功运行了您的代码，内存限制为 32GB。

我已经摆脱了争论BLOCKSIZE并使用repartition而是在 df1 和 df2 上。

df1 = df1.repartition(npartitions=50)
df2 = df2.repartition(npartitions=1)

请注意，df2 的大小是真的更小与 df1 相比（2.5 MB 与 23.75 MB），这就是为什么我只为 df2 保留一个分区，并将 df1 切成 50 个分区。

这样做应该会使代码适合您。对我来说，使用的内存保持在 12GB 以下。

为了检查，我计算了结果的 len ：

len(df) # 3001995

按照上述内容创建一个包含 50 个分区的 parquet 文件。您可以使用repartition再次获得您想要的partition_size。

NB:

添加这个应该可以加速你的代码：

from dask.distributed import Client
client = Client()

就我而言，我不得不使用这个论点Client(processes=False)因为我的运行环境。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

Dask

即使有块，Dask 也会出现内存不足的情况的相关文章

在 Python 中使用 XPath 和 LXML

我有一个 python 脚本用于解析 XML 并将某些感兴趣的元素导出到 csv 文件中我现在尝试更改脚本以允许根据条件过滤 XML 文件等效的 XPath 查询将是 DC Events Confirmation contains T
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
类属性在功能上依赖于其他类属性

我正在尝试使用静态类属性来定义另一个静态类属性我认为可以通过以下代码来实现 f lambda s s 1 class A foo foo bar f A foo 然而这导致NameError name A is not defined
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
如何使用 openpyxl 对工作簿中的 Excel 工作表/选项卡进行排序

我需要按字母数字对工作簿中的选项卡工作表进行排序我在用openpyxl https openpyxl readthedocs io en default 操作工作表您可以尝试排序workbook sheets list workboo
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
Python While 循环，and (&) 运算符不起作用

我正在努力寻找最大公因数我写了一个糟糕的运算密集型算法它将较低的值减一使用检查它是否均匀地划分了分子和分母如果是则退出程序但是我的 while 循环没有使用 and 运算符因此一旦分子可整除它就会停止即使它不是正确
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
在 Tkinter 中使用锚点

我正在尝试对自动点唱机进行编程但是我还处于早期阶段并且在使用时遇到了问题anchor 这是我的代码 from tkinter import from tkinter import messagebox as box def main m
在pycharm中调试python代码

这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一我正在尝试调试pyethapp https
是否可以强制浮点数的指数或有效数匹配另一个浮点数（Python）？

这是我前几天试图解决的一个有趣的问题是否可以强制一个的有效数或指数float与另一个人一样float在Python中出现这个问题是因为我试图重新调整一些数据以便最小值和最大值与另一个数据集匹配然而我重新调整后的数据略有偏差大约小
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
如何识别图形线条

我有以下格式的路径的 x y 数据示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点它们

随机推荐

如何获取 CheckboxColumn Gridview 中选定的数据/项目行 - Yii2

我在使用 checkboxColumn 获取所有选定值数据 Yii2 Gridview 时遇到问题我只能得到one of the value in the grid使用此代码 class gt yii grid CheckboxColu
转换器类抛出异常 java.lang.IllegalArgumentException

我的 JSF 页面中有 p selectOneMenu 当我运行 JSF 页面时我从 Converter 类中收到以下异常 java lang IllegalArgumentException object 5634 is of type
QWidget::find 可以从不同的进程中查找小部件吗？

的文档QWidget winId状态除其他外如果一个小部件是非本机外星人并且在其上调用 winId 则将为该小部件提供本机句柄我不确定外星人在这种情况下意味着什么但我现在选择忽略它因此假设我的小部件现在有一个与之关联的有
用于选择发件人和签名的 VBA 代码

在 Excel 中我使用如下代码通过 Outlook 开始发送电子邮件 Set mOutlookApp GetObject Outlook application Set OutMail mOutlookApp CreateItem 0
iOS/Swift：PFFacebookUtils.logInWithPermissions 返回 nil 用户和错误

在我的应用程序中我通过 Parse 的 PFFacebookUtil 类登录用户如果用户存在于手机上即在设置 gt Facebook 中登录 FB 则一切都会按预期进行但如果他们是未通过设置登录然后用户被带到 Web 视图进行登
对于 CUDA 的嵌套循环

我遇到了一些 for 嵌套循环的问题我必须将其从 C C 转换为 CUDA 基本上我有 4 个 for 嵌套循环它们共享相同的数组并进行位移操作 define N 65536 int a1 a2 a3 a4 i1 i2 i3 i4 in
Firebase Cloud Firestore REST api 身份验证仅使用 WEB API 密钥？

我正在尝试通过其 REST API 和curl 在 Firebase Cloud Firestore 数据库中插入新记录由于操作是公开的因此从数据库中读取数据可以按预期进行创建操作未在数据库规则中列出并且仅在服务器端执行但我无法仅
jQuery .hover 不工作

嗨我的代码有什么问题当我将鼠标悬停在 open 上时 pull down content 应该从标题向下移动页面当我离开 open 时它应该向上移动但是当我在页面加载后测试代码时 pull down content 在我将鼠标悬
如果另一个工作表中存在行值，则删除多个工作表中的行值

下面的代码来自这个答案post关于将行值复制到新工作表如果它存在于其他工作表中现在如果我不想将重复值复制到工作表 3 而是想从工作表 1 和工作表 2 中删除它们如果工作表 3 中存在该怎么办电子表格我有3张将在前两张纸上进
锁定和解锁互斥体的效率如何？互斥体的成本是多少？

在低级语言 C C 或其他语言中我可以选择使用一堆互斥体如 pthread 提供的或本机系统库提供的任何内容或对象的单个互斥体锁定互斥体的效率如何 IE 可能有多少条汇编指令以及它们需要多少时间在互斥体解锁的情况下互斥体的成本
GAS 汇编程序分段错误（写入自动变量）

我打算在 C 中执行此操作 include
在java中，您可以使用带有必填字段和可重新分配字段的构建器模式吗？

这与以下问题相关如何改进构建器模式我很好奇是否可以实现具有以下属性的构建器部分或全部参数为必填项没有方法接收许多参数即没有向初始构建器工厂方法提供默认值列表所有构建器字段都可以重新分配任意次数编译器应该检查所有参数是否已设置
扩展 MySQLi 类

我希望能够创建扩展 MySQLi 类的类来执行其所有 SQL 查询 mysql new mysqli localhost root password database or die error connecting to the datab
SQL：根据变量选择动态列名

我有一个 Microsoft SQL 存储过程我想通过传递给它的变量来设置其列名 CREATE PROCEDURE My Procedure myDynamicColumn varchar 50 AS BEGIN SELECT value
只有背景图像必须在页面加载时淡入

我有一个带有背景图像箭头的 div div 中有一些文本箭头位于其下方我希望 div 内的文本随页面一起加载但背景图像会在几秒钟后加载这是我的代码 homearrow background url http www stefaa
打字稿重载箭头功能不起作用

我正在使用严格的空检查我有以下带有重载类型的箭头函数 type INumberConverter value number number value null null const decimalToPercent INumberConv
像 http://stackoverflow.com/posts/1807421/edit 这样的 URL 是如何在 PHP 中创建的？

当您在 stackoverflow com 上编辑问题时您将被重定向到如下 URL https stackoverflow com posts 1807421 edit 但通常情况下应该是 https stackoverflow com
网络摄像头捕获并转换为 avi

我正在尝试制作一个程序从网络摄像头捕获视频并从麦克风捕获声音但我陷入了尝试用静态图像制作电影的部分我听说你需要使用 directshow 但它对我不起作用有人知道一段很好的示例代码可以捕获视频和声音并将其编码到文件 divx 或类
如何使用 data.table 有效计算一个数据集中的 GPS 点与另一数据集中的 GPS 点之间的距离

我在 R 中面临编码优化问题我有一个包含 GPS 坐标经度纬度时间戳的长数据集对于每一行我需要检查该位置是否靠近公交车站我有一个包含所有公交车站荷兰的 csv 文件 GPS 坐标文件有数百万个条目长但如有必要可以进
即使有块，Dask 也会出现内存不足的情况

我正在处理大型 CSV 文件并且我需要制作笛卡尔积合并操作我尝试用 Pandas 来解决这个问题你可以检查 Panda 的代码和数据格式示例对于同样的问题 here 由于内存错误而没有成功现在我正在尝试使用 Dask 它应该可以管

即使有块，Dask 也会出现内存不足的情况

即使有块，Dask 也会出现内存不足的情况 的相关文章

随机推荐

热门标签

即使有块，Dask 也会出现内存不足的情况的相关文章