Python pandas 与 OR 逻辑合并

2024-01-09

我正在搜索，但没有找到这个问题的答案，你可以使用 OR 逻辑执行 pandas 数据帧的合并吗？基本上，相当于使用“where t1.A = t2.A OR t1.A = t2.B”的 SQL 合并。

我遇到一种情况，我将信息从一个数据库提取到数据帧（df1）中，并且需要将其与另一个数据库中的信息合并，然后将其提取到另一个数据帧（df2）中，并基于单列（col1）进行合并。如果它们在匹配时始终使用相同的值，那就非常简单了。我遇到的情况是有时它们匹配，有时它们使用同义词。第三个数据库有一个表，该表提供该数据实体（col1 和 col1_alias）的同义词之间的查找，可以将其拉入第三个数据帧（df3）。我想要做的是合并 df1 中我需要的列和 df2 中我需要的列。

如上所述，在 df1.col1 和 df2.col1 匹配的情况下，这将起作用......

df = df1.merge(df2, on='col1', how='left')

然而，它们并不总是具有相同的值，有时具有同义词。我考虑过根据 df3.col1 位于 df1.col1 中或 df3.col1_alias 位于 df1.col1 中的时间来创建 df3。然后，从 df3.col1 和 df3.col1_alias (list1) 创建单个值列表，并根据 list1 中的 df2.col1 选择 df2。这将为我提供所需的 df2 行，但是，这仍然无法让我合并 df1 和 df2 匹配适当的行。我认为如果有一个 OR 合并选项，我可以逐步执行此操作并使其工作，但以下所有操作都会引发语法错误：

df = df1.merge((df3, left_on='col1', right_on='col1', how='left')|(df3, left_on='col1', right_on='col1_alias', how='left'))

and

df = df1.merge(df3, (left_on='col1', right_on='col1')|(left_on='col1', right_on='col1_alias'), how='left')

and

df = df1.merge(df3, left_on='col1', right_on='col1'|right_on='col1_alias', how='left')

以及其他几种变体。有关如何执行 OR 合并的任何指导，或关于使用 df3 中两列中的同义词合并 df1 和 df2 的完全不同方法的建议？

我想我会将其作为两次合并来完成：

In [11]: df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=["A", "B"])

In [12]: df2 = pd.DataFrame([[1, 7], [2, 8], [4, 9]], columns=["C", "D"])

In [13]: res = df.merge(df2, left_on="B", right_on="C", how="left")

In [14]: res.update(df.merge(df2, left_on="A", right_on="C", how="left"))

In [15]: res
Out[15]:
   A  B    C    D
0  1  2  1.0  7.0
1  3  4  4.0  9.0
2  5  6  NaN  NaN

正如您所看到的，这选择了 A = 1 -> D = 7，而不是 B = 2 -> D = 8。

注意：为了获得更多的可扩展性（匹配不同的列），拉出单个列可能是有意义的，尽管它们在本例中是相同的：

In [21]: res = df.merge(df2, left_on="B", right_on="C", how="left")["C"]

In [22]: res.update(df.merge(df2, left_on="A", right_on="C", how="left")["C"])

In [23]: res
Out[23]:
0    1.0
1    4.0
2    NaN
Name: C, dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python pandas 与 OR 逻辑合并的相关文章

检查时间戳列是否在另一个数据帧的日期范围内

我有一个数据框 df A 有两列 amin 和 amax 这是一组时间范围我的目标是查找 df B 中的列是否位于 df A amin 和 amax 列中范围的任何行之间 df A amin amax amin amax 0 2016 0
为什么any (True for ... if cond) 比any (cond for ...) 快得多？

检查列表是否包含奇数的两种类似方法 any x 2 for x in a any True for x in a if x 2 计时结果与a 0 10000000 每次尝试五次次数以秒为单位 0 60 0 60 0 60 0 61 0 6
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 Windows 上的 python2.5 上安装 Openpyxl

我努力了easy install install openpyxl and python setup install 两者都失败了我也尝试过easy install openpyxl并再次失败我包括了我得到的输出当我尝试时easy i
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
Python int和float在64位系统中的内存消耗

我正在 Python 3 4 的 64 位系统中尝试以下代码以了解不同原始数据类型的内存消耗 import sys print sys getsizeof 45 prints 28 print sys getsizeof 45 2 pri
numpy 中用最少内存对上三角元素求和的最快方法

我需要进行此类求和i
无法解析 ReferenceProperty -- App Engine

我遇到了一个错误无法找出其根本原因错误如下 ReferenceProperty 无法解析 u StatusLog STATUSLOGSID 此错误仅有时发生大约一天一次或两次生成此错误的脚本成功的次数多于失败的次数该错误最奇怪的事
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
argparse add_argument 别名

有没有办法使用 argparse 创建别名例如我想做这样的事情 parser add argument foo parser add argument alias bar foo 也就是说使用 bar应该相当于使用 foo 您可以简单
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
R：动态创建变量名

我正在寻找使用 for 循环创建多个数据帧然后将它们缝合在一起merge 我可以使用创建我的数据框assign paste blah 但是在同一个 for 循环中我需要删除每个数据帧的第一列这是我的代码的相关部分 for j in
Python、Oracle DB、列中的 XML 数据，获取 cx_Oracle.Object

我正在使用 python 从 Oracle DB 获取数据所有行都有一个包含 XML 数据的列当我使用 python 打印从 Oracle DB 获取的数据时包含 XML 数据的列将打印为 0x7fffe373b960 处的 cx O
在类方法 Python 中调用多处理

最初我有一个类来存储一些处理后的值并通过其他方法重用这些值问题是当我尝试将类方法划分为多个进程以加速时 python 生成了进程但它似乎不起作用正如我在任务管理器中看到的那样只有 1 个进程在运行并且结果从未传递我做了几次搜
如何使用 BeautifulSoup 只抓取可见的网页文本？

基本上我想用BeautifulSoup严格抓住可见文字在网页上例如这个网页 http www nytimes com 2009 12 21 us 21storm html是我的测试用例我主要想获取正文文章甚至可能到处都有一些选项
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
无法从 celery 信号连接到 celery 任务？

我正在尝试连接task2 from task success signal from celery signals import task success from celery import Celery app Celery app t
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers

随机推荐

如何通过CloudFront获取请求的客户端IP？

根据CloudFront的文档 https docs aws amazon com AmazonCloudFront latest DeveloperGuide RequestAndResponseBehaviorCustomOrigin
在 C++ 中寻找 MemoryStream

在 C 的奇妙世界中我可以创建一个内存流而不指定其大小写入其中然后只获取底层缓冲区我怎样才能在 C 中做同样的事情基本上我需要做 memory stream ms GROW AS MUCH AS YOU LIKE ms lt lt
似乎无法从 Windows Phone 7 中的 TouchPanel 获得触摸输入

我已经在 Visual Studio 中启动了一个新项目并一直在尝试使用静态 TouchPanel 类来获取输入我已通过 EnabledGestures 属性启用了点击手势但是当我点击屏幕时手势未注册即 TouchPanel
尝试使用表达式树过滤可为空类型

我已将整个测试应用程序粘贴在下面它相当紧凑所以我希望这不是问题您应该能够简单地将其剪切并粘贴到控制台应用程序中并运行它我需要能够过滤任何一个或多个 Person 对象的属性并且直到运行时我才知道是哪一个我知道这个问题已经在各地进
ENOTDIR：不是目录node_modules/.staging/@types/node-16824c86/package.json

当我运行 docker exec t image npm run production 时出现错误 npm 警告电子邮件受保护 cdn cgi l email protection需要 utf 8 validate 5 0 2 的同级但
React-router-dom：在返回事件中返回历史两次

我有三个组件C1 C2 C3映射在路线上 c1 c2 c3 我想阻止组件C3从允许通过浏览器事件处理返回到C2而是直接转到C1 我该如何实现这一目标需要此功能是因为 C2 充当后重定向想象一下浏览器执行 POST 的情况操作当
Material Table React 上的选择和远程数据分页

我需要帮助我需要使用材料表来反应我的数据表我想同时使用选择和分页但问题是如果我选择某一行并更改页面并返回到上一页它不会选择该行这是我创建的示例片段是否可以覆盖选择道具 const Table gt const selectedR
在 iOS 中从 NSDictionary 生成 JSON 字符串

我有一个dictionary我需要生成一个JSON string通过使用dictionary 可以转换吗你们能帮忙解决这个问题吗 Apple 在 iOS 5 0 和 Mac OS X 10 7 中添加了 JSON 解析器和序列化器看NS
在 Tomcat 上配置 PHP 会出现异常：UnsatisfiedLinkError

我一直在尝试在 Tomcat 上使用 PHP 不要问为什么我只是必须这样做并且一直遵循使用 Tomcat 配置 PHP http toostep com trends configure php with tomcat以及一些使用 PE
使用神经网络功能时出现错误

我在可用的波士顿数据集上尝试了 R 中的神经网络 data Boston package MASS data lt Boston 只保留我们想要使用的变量 keeps lt c crim indus nox rm age dis tax p
Mongodb pymongo.errors.ServerSelectionTimeoutError：localhost：27017：[Errno 111]连接被拒绝，超时：30秒，

我正在尝试本地连接到我的数据库我已经在 MongoDB Compass 上建立了与数据库的连接但是当我运行简单的代码时出现以下错误 pymongo errors ServerSelectionTimeoutError localhos
macOS swift - 将数据保存到本地存储 - 最佳实践

我是 macOS 开发的新手我有一个应用程序我需要将字符串例如令牌保存到某些本地存储在关闭并打开应用程序后我想检索该字符串是否有可能只有我的应用程序才能检索该字符串是不是最好写到txt文件或还有其他一些可能性谢谢这取决于
如何从面板中加载的子用户控件访问父类功能/控件

我有一个主窗体其中包含一个面板该面板将不同的用户控件加载到面板中现在我需要从用户控件访问主窗体中的功能下面我给出了我的代码这是我的主要 Windows 窗体类 public partial class Form1 Form pub
如何在 iPhone 中更改方向时更改视图控制器的视图？

我正在开发一个支持 2 个方向的 iPhone 应用程序我有这个视图控制器的 2 个 UIView 文件我需要根据设备界面方向将相应的 UIView 文件设置到视图控制器你能指导我如何改变方向吗为什么要对两个方向使用两个视图如果纵
每次使用 pip 3 时如何解决“错误：外部管理环境”？

错误信息 error externally managed environment This environment is externally managed gt To install Python packages system wi
将自定义列添加到 Woocommerce 3+ 中的“我的帐户订单”表

Woocommerce 3 5 x 在用户帐户我的帐户区域有一个特殊页面其中显示用户以前的订单此页面现在默认显示 5 列这是 woocommerce 订单区域的屏幕截图共有 5 列我的订单 https i stack imgu
如何在 R 中为蒙特卡洛创建更高效的模拟循环

此练习的目的是创建营养摄入值的人群分布早期数据中有重复的测量值这些测量值已被删除因此每一行都是数据框中唯一的人我有这段代码在使用少量数据框行进行测试时效果非常好对于所有 7135 行速度非常慢我试图给它计时但当我的机器上的
条目压缩大小无效

我使用称为 ASM 的字节码库来更改类文件然后我想将每个类文件写回 jar 文件而不是填充类文件的文件夹中我通过运行以下代码来做到这一点当因未达到预期大小而引发 ZipException 时即出现我的问题 java util zip
jQuery Datepicker 中的“今天”按钮不起作用

我正在使用 jQueryUI Datepicker 并显示今天按钮但这不起作用它在演示中也不起作用 http www jqueryui com demos datepicker buttonbar http www jqueryui
Python pandas 与 OR 逻辑合并

我正在搜索但没有找到这个问题的答案你可以使用 OR 逻辑执行 pandas 数据帧的合并吗基本上相当于使用 where t1 A t2 A OR t1 A t2 B 的 SQL 合并我遇到一种情况我将信息从一个数据库提取到数据帧

Python pandas 与 OR 逻辑合并

Python pandas 与 OR 逻辑合并 的相关文章

随机推荐

热门标签

Python pandas 与 OR 逻辑合并的相关文章