基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python

2024-05-01

我来自 R，老实说，这是使用 R data.tables 在一行中完成的最简单的事情，并且对于大型数据表来说，该操作也相当快。但是我真的很难用Python实现它。前面提到的用例都不适合我的应用程序。当前的主要问题是 Python 解决方案中的内存使用情况，我将在下面解释。

问题：我有两个大型 DataFrame df1 和 df2 （每个大约 50M-100M 行），我需要根据两个条件将 df2 的两列（或 n 列）合并到 df1 ：

1) df1.id = df2.id（通常合并的情况）

2) df2.value_2A

import numpy as np
import pandas as pd

df1 = pd.DataFrame({'id': [1,1,1,2,2,3], 'value_1': [2,5,7,1,3,4]})
df2 = pd.DataFrame({'id': [1,1,1,1,2,2,2,3], 'value_2A': [0,3,7,12,0,2,3,1], 'value_2B': [1,5,9,15,1,4,6,3]})

df1
Out[13]: 
   id  value_1
0   1        2
1   1        5
2   1        7
3   2        1
4   2        3
5   3        4

df2
Out[14]: 
   id  value_2A  value_2B
0   1         0         1
1   1         3         5
2   1         7         9
3   1        12        15
4   2         0         1
5   2         2         4
6   2         3         6
7   3         1         3

desired_output
Out[15]: 
   id  value_1  value_2A  value_2B
0   1        2       NaN       NaN
1   1        5       3.0       5.0
2   1        7       7.0       9.0
3   2        1       0.0       1.0
4   2        3       2.0       4.0
5   2        3       3.0       6.0
6   3        4       NaN       NaN

现在，我知道这可以通过首先以“左”方式合并 df1 和 df2 然后过滤数据来完成。但就扩展而言，这是一个可怕的解决方案。我有 50M x 50M 行，其中有多个 id 重复项。这将创建一些巨大的数据框，我必须对其进行过滤。

## This is NOT a solution because memory usage is just too large and 
## too many oprations deeming it extremely inefficient and slow at large scale

output = pd.merge(df1, df2, on='id', how='left')  ## output becomes very large in my case
output.loc[~((output['value_1'] >= output['value_2A']) & (output['value_1'] <= output['value_2B'])), ['value_2A', 'value_2B']] = np.nan
output = output.loc[~ output['value_2A'].isnull()]
output = pd.merge(df1, output, on=['id', 'value_1'], how='left')

这太低效了。我将大型数据集合并两次以获得所需的输出，并在此过程中创建大量数据帧。哎呀！

将其视为事件的两个数据帧，我试图将它们匹配在一起。也就是说，标记 df1 的事件是否已发生在 df2 的事件内。 df1 和 df2 中的每个 id 都有多个事件。 df2 的事件不是相互排斥的。条件连接确实需要在连接时发生，而不是之后。这在 R 中很容易完成：

## in R realm ##
require(data.table)
desired_output <- df2[df1, on=.(id, value_2A <= value_1, value_2B >= value_1)] #fast and easy operation

有什么方法可以在Python中做到这一点吗？

是的。这是一个烦人的问题。我通过将左侧 DataFrame 分成块来处理这个问题。

def merge_by_chunks(left, right, condition=None, **kwargs):   
    chunk_size = 1000
    merged_chunks = []
    for chunk_start in range(0, len(left), chunk_size):
        print(f"Merged {chunk_start}            ", end="\r")
        merged_chunk = pd.merge(left=left[chunk_start: chunk_start+chunk_size], right=right, **kwargs)
        if condition is not None:
            merged_chunk = merged_chunk[condition(merged_chunk)]
        merged_chunks.append(merged_chunk)
    return pd.concat(merged_chunks)

然后您可以将条件作为函数提供。

df1 = pd.DataFrame({'id': [1,1,1,2,2,3], 'value_1': [2,5,7,1,3,4]})
df2 = pd.DataFrame({'id': [1,1,1,1,2,2,2,3], 'value_2A': [0,3,7,12,0,2,3,1], 'value_2B': [1,5,9,15,1,4,6,3]})

def condition_func(output):
    return (((output['value_1'] >= output['value_2A']) & (output['value_1'] <= output['value_2B'])))

output = merge_by_chunks(df1, df2, condition=condition_func, on='id', how='left')
merge_by_chunks(df1, output, on=['id', 'value_1'], how='left')

根据 DataFrame 的大小，它可能会非常慢，但它不会耗尽内存。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python 的相关文章

python 中的并行处理

在 python 2 7 中进行并行处理的简单代码是什么我在网上找到的所有示例都很复杂并且包含不必要的代码我该如何做一个简单的强力整数分解程序在每个核心 4 上分解 1 个整数我真正的程序可能只需要2个核心并且需要共享信息我知
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
结构差异 sudo() run('sudo 命令')

我想知道函数之间有什么区别sudo 和函数run sudo u user smth 文档上有 sudo 在所有运行方式上都是相同的除了它总是换行调用 sudo 程序中的给定命令以提供超级用户特权但有几次 sudo cmd 提示我输入
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
使用“默认”环境变量启动新的子进程

我正在编写一个构建脚本来解析依赖的共享库及其共享库等这些共享库在正常情况下是不存在的PATH环境变量为了使构建过程正常工作让编译器找到这些库 PATH已更改为包含这些库的目录构建过程是这样的加载器脚本更改 PATH gt 基于
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

三.JS Shadow 到对象

我想添加castShadow and receiveShadow在一个物体上但是下面的代码有什么问题吗 var mtlLoader new THREE MTLLoader mtlLoader setPath objects Tree mt
python 中的 fiona 导入问题

我已经使用whl发行版安装了fiona 但是在导入时我收到以下错误 ImportError Traceback most recent call last
在 Kali (Debian) 中安装 mono-devel 时，软件包具有未满足的依赖关系

我尝试安装 mono devel 并输入sudo apt get mono devel在终端中但失败了得到以下结果 apt get install mono devel Reading package lists Done Buildi
Fabric JS ClipPath：裁剪后如何使图像适合画布？

我使用 FabricJS 和 ClipPath 属性实现了图像裁剪问题是如何使裁剪后的图像适合画布我希望裁剪后的图像填充画布区域但不知道是否可以使用 Fabric js 来完成因此我希望用户单击裁剪按钮后图像的选定部分适合画布
并发用户和多个观察者

我知道已经有a thread https stackoverflow com questions 14307341 how exactly are concurrent users determined for a firebase app
Graylog2-如何将日志保留配置为 1 周

我们正在使用一些 Graylog2 服务器 graylog server 版本 1 3 4 因为我们收到太多的日志消息所以需要大量的内存我正在尝试将日志保留时间减少到 1 周所有超过 1 周的日志消息都将被删除但是我无法在配置文件
typo3 extbase：验证表单

我创建了一个简单的订阅新闻通讯表单
Java 工具创建的 WSDL 文件的 WCF 序列化问题

我的团队的任务是让几个内部开发的 NET 客户端应用程序连接到一些新的 Java Web 服务 Java Web 服务是第三方供应商提供的 WSDL 文件我们的团队修改控制的能力有限这意味着我们可能有权要求我们的供应商对 WSDL
根据索引查找金字塔的行？

给定一个像这样的金字塔 0 1 2 3 4 5 6 7 8 9 并给出金字塔的索引i where i代表i金字塔的第一个数字有没有办法找到金字塔的行的索引i第一个元素属于例如如果i 6 7 8 9 它位于第 3 行从第 0 行开始
SerializationException：未解析成员“...”的类型

我一直在尝试将程序集动态加载到 AppDomain 我需要这样做因为我想动态调用一个方法但在我的应用程序运行时不要保留 DLL 的句柄以便在需要时可以替换它但我收到此 SerializationException 异常成员的类型
Javascript查找伪元素

所以我一直在努力CSS 选择器引擎 https github com alpha123 Puma 并且我想支持伪元素 before after selection first line 等我注意到 Slick Sizzle 和其他一些流行
Linux 上的最大子进程数

下面的代码将产生尽可能多的子级自己不会进一步fork 一旦父进程退出就会变成僵尸父进程将产生多少个子进程 int main int argc char arg while fork gt 0 子进程的数量可以通过以下方式限制设置限制 2
单视图布局文件：编译器是否使用布局/视图组自动换行？

如果我有一个只包含一个布局文件TextView 我可以毫无问题地从内部充气它activity 但是如果我尝试膨胀一个包含单个自定义视图的类似布局文件那么我会得到一个通货膨胀例外在这种情况下我可以获得自定义视图来膨胀的唯一方法是将其包
PlantUML 活动图返回

我正在使用 PlantUML 创建活动图我想要从里面出来的箭头Modify Details回到OP2而不是钻石我有这个图 startuml Swimlane1 start OP1 Swimlane2 OP2 if Form Valid
部署 Angular 6 ASP.NET Core 应用程序

我开发了一个 asp net core 2 0 MVC 应用程序并添加了 Angular 6 前端应用程序它们都存在于同一项目结构中 asp net core 应用程序充当客户端 Angular 6 应用程序的 API 我一直在并行开发
如何在 PowerShell 中结束多行命令

这应该很容易但无法弄清楚如何在 PowerShell 中结束多行命令例如如果我输入Get ChildItem 然后按回车键然后我得到一个 gt gt 我认为提示是继续命令但如果我随后输入foreach Write Host nam
python 中的类变量在 __dict__ 中找不到

有一段代码 class C a 1 def f self print f func a C print a a a f gt gt gt 1 gt gt gt f func 当我试图得到a dict or vars a 它告诉我只是 But
如何使用mac杀死mysql进程

I used ps ax grep mysql检查mysql进程是否存在我发现 5323 s000 S 0 00 00 grep mysql 我想终止该进程但号码自动更改当我进入ps ax grep mysql 内容变化如下 5507
如何在 React 中获取