在 Pandas 中连接两个大型数据集的最佳方法

2023-11-26

我正在从需要连接的两个不同数据库下载两个数据集。当我将它们存储为 CSV 时，每个文件大约有 500MB 左右。分别适合内存，但当我加载两者时，有时会出现内存错误。当我尝试将它们与 pandas 合并时，我肯定会遇到麻烦。

对它们进行外部连接以免出现内存错误的最佳方法是什么？我手头没有任何数据库服务器，但如果有帮助的话，我可以在我的计算机上安装任何类型的开源软件。理想情况下，我仍然想仅在 pandas 中解决它，但不确定这是否可能。

澄清一下：合并是指外部联接。每个表有两行：产品和版本。我想检查哪些产品和版本仅在左表、右表和两个表中。我用一个

pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')

这似乎是一个任务dask被设计用于。本质上，dask can do pandas核心外操作，因此您可以使用不适合内存的数据集。这dask.dataframeAPI 是一个子集pandasAPI，所以应该没有太多的学习曲线。请参阅Dask DataFrame 概述页面以获取一些其他 DataFrame 特定详细信息。

import dask.dataframe as dd

# Read in the csv files.
df1 = dd.read_csv('file1.csv')
df2 = dd.read_csv('file2.csv')

# Merge the csv files.
df = dd.merge(df1, df2, how='outer', on=['product','version'])

# Write the output.
df.to_csv('file3.csv', index=False)

假如说'product' and 'version'是唯一的列，替换可能会更有效merge with:

df = dd.concat([df1, df2]).drop_duplicates()

我不完全确定这是否会更好，但显然未在索引上完成的合并在dask，所以值得一试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas 中连接两个大型数据集的最佳方法的相关文章

将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
Objective C (iphone) 关于发布的问题

如果我创建一个视图并将其添加为子视图并将其添加到数组中是否必须释放它两次 UIView cat UIView alloc initWithFrame someFrame self view addSubview cat self ani
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995

随机推荐

如何仅使用 CSS 获得悬停效果

我已经得到了圆圈部分我在 div 上设置了黑色的背景颜色对于文本我设置了 a hover 作为显示的颜色我只是不知道如何为 div 设置 a hover 以及仅针对该周长这是我的代码 HTML a class cirlink hr
静态成员的两个实例，怎么可能？

我有一个多线程应用程序我在共享库中声明一个具有静态成员的类从不同库的不同线程打印成员的地址会显示不同的结果宣言 template
指令在 ng-repeat 绑定的内不起作用

我有一个表其中的行通过重复ng repeat 我正在尝试创建一个生成列的模板 td 对于每一行 tr app directive customtd function return restrict E template td positi
来自 AngularJS Get for JSON 的 HTTP 状态 0

我正在为 JSON 运行 http get 并且状态为 0 我已经下载了相同的 JSON 并且 get 在本地工作并且在 Python 中使用请求库我可以毫无问题地获取 JSON 但是在AngularJS 不起作用我不明白的是为什么 A
在 macOS 的 SwiftUI 中更改 TextEditor 背景颜色

我想更改 macOS 上 SwiftUI 文本编辑器的背景颜色下面的代码用于 iOS 是否有一个变体适用于 NSTextField 而不是 UITextView Thanks struct ContentView View init U
社交网络应用程序数据库设计：如何改进此架构？

背景我正在为诗人和作家开发一款社交网络应用程序让他们能够分享诗歌收集反馈并与其他诗人交流我很少接受过数据库设计方面的正式培训但我一直在阅读书籍 SO 和在线数据库设计资源试图在不过度设计的情况下确保性能和可扩展性数据库是MyS
复杂数据类型的 Typedef

我试图从语法的角度理解 C 如何处理复杂 typedef 的底层机制请考虑下面的示例问题末尾包含参考文献 typedef int p1d 10 是正确的声明即 p1d 这里是指向数组的指针 10 个整数就像使用 Array 类型声明
Angular 2 下载文件：结果损坏

我正在尝试使用 Angular 2 TypeScript 和 Web API 下载文件我遇到的问题是当下载文本文件时该文件是文件但是当尝试下载 PDF 文件时例如它已损坏下载的文件内容都是乱码废话我使用的 TypeScrip
如何在 Python 中存储变量/首选项以供以后使用

我正在用 Python 编写 Windows 程序并且希望保存变量和用户首选项以便即使在程序终止并重新启动后我也可以调用它们有没有在 Windows 机器上执行此操作的理想方法会 winregWindows 注册表适合这项任务吗或
C++ 运算符重载的多态性

如何使纯虚函数成为运算符功能我在基课上喜欢这个吗 int运算符 0 编译器给出错误在派生类中operator 函数编译器说派生类不能 make 因为下面的类是抽象的我知道我无法创建抽象类的对象但现在我尝试创建派生类对象这是代码
Django 和 Postgres - 百分位数（中位数）和分组依据

我需要计算每个卖家 ID 的期间中位数参见下面的简化模型问题是我无法构建 ORM 查询 Model class MyModel period models IntegerField null True default None sell
Django 设计登录表单并添加额外的跨度

我有两个关于表单样式的问题对于我的登录我使用 Django 的默认身份验证功能并且没有手动编写任何视图或表单 urls py urlpatterns patterns django contrib auth views url r l
在 Centos 6 上安装最新的 mono

我是 Linux 新手字面意义上的新手用过几次我尝试通过 yum 安装 mono 但我得到了一个不支持 NET 4 的过时版本如何安装单声道 2 10 8 好吧这就是我想出的并且它对我有用基于this文章 yum install
Node.js 服务器向 404.html 页面发送“404 未找到”消息

我正在使用 node js 我想知道如何显示 404 html 而不是 404 Not Found 消息这是我的 server js var http require http url require url path require p
java.lang.NoClassDefFoundError: org/apache/http/conn/scheme/SchemeSocketFactory

我尝试通过 AWS 凭证发送邮件但出现异常 java lang NoClassDefFoundError org apache http conn scheme SchemeSocketFactory 我添加了这些罐子 aws java
C# 中条件简写类似于 SQL 'in' 关键字

在 C 中是否有一种简写方式可以这样写 public static bool IsAllowed int userID return userID Personnel JohnDoe userID Personnel JaneDoe Lik
HTML5 History API：“返回”到另一个页面，然后再次“前进”时显示 JSON

我有一个页面其中有几个搜索过滤按钮单击这些按钮时会通过 AJAX 刷新下面列表的内容在此过程中我正在修改历史记录通过pushstate 以便新的过滤页面可以添加书签因此后退按钮可以工作我还在监听 popstate 事件以
获取设备的 MAC 地址 - 当 wifi 关闭时

我使用以下代码查找 Android 设备的 MAC 地址 WifiManager manager WifiManager getSystemService Context WIFI SERVICE WifiInfo info manager
Android Material 按钮，图标位于文本之上

是否可以有一个在其文本顶部带有图标的材质按钮如下所示如果是您能用一些代码解释一下吗谢谢现在您可以使用该属性iconGravity top 就像是
在 Pandas 中连接两个大型数据集的最佳方法

我正在从需要连接的两个不同数据库下载两个数据集当我将它们存储为 CSV 时每个文件大约有 500MB 左右分别适合内存但当我加载两者时有时会出现内存错误当我尝试将它们与 pandas 合并时我肯定会遇到麻烦对它们进行外部连接

在 Pandas 中连接两个大型数据集的最佳方法

在 Pandas 中连接两个大型数据集的最佳方法 的相关文章

随机推荐

热门标签

在 Pandas 中连接两个大型数据集的最佳方法的相关文章