如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

2024-06-19

我有多个 pandas 数据框，为了简单起见，假设我有三个。

   >> df1=
       col1  col2
   id1  A     B  
   id2  C     D  
   id3  B     A  
   id4  E     F  


    >> df2=
       col1  col2
   id1  B     A  
   id2  D     C  
   id3  M     N  
   id4  F     E  

    >> df3=
       col1  col2
   id1  A     B  
   id2  D     C  
   id3  N     M  
   id4  E     F

需要的结果是：

    >> df=
       col1  col2
   id1  A     B
   id2  C     D
   id3  E     F

因为（A，B），（C，D），（E，F）对出现在所有数据帧中，尽管它可能颠倒。

使用 pandas merge 时，它只考虑列的传递方式。为了检查我的观察结果，我对两个数据框尝试了以下代码：

df1['reverse_1'] = (df1.col1+df1.col2).isin(df2.col1 + df2.col2)

df1['reverse_2'] = (df1.col1+df1.col2).isin(df2.col2 + df2.col1)

我发现结果有所不同：

col1    col2    reverse_1   reverse_2
 a        b       False      True
 c        d       False      True
 b        a       True       False
 e        f       False      True

因此，如果我从reverse_1和reverse_2列收集“True”值，我可以获得两个数据帧的交集。即使我对两个数据帧执行此操作，我也不清楚如何继续处理更多数据帧（超过两个）。我对此有点困惑。有什么建议么？

您可以创建以下列表DataFrames 并在列表理解中对每行进行排序并删除重复项：

dfs = [df1,df2,df3]

L = [pd.DataFrame(np.sort(x.values, axis=1), columns=x.columns).drop_duplicates() 
     for x in dfs]
print (L)
[  col1 col2
0    A    B
1    C    D
3    E    F,   col1 col2
0    A    B
1    C    D
2    M    N
3    E    F,   col1 col2
0    A    B
1    C    D
2    M    N
3    E    F]

进而merge list of DataFrames https://stackoverflow.com/a/30512931按所有列（无参数on):

from functools import reduce
df = reduce(lambda left,right: pd.merge(left,right), L)
print (df)
  col1 col2
0    A    B
1    C    D
2    E    F

@pygo 的另一个解决方案：

Create index by frozensets 并通过以下方式连接在一起concat http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html with innerjoin，最后按索引删除重复项duplicated http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.duplicated.html with boolean indexing http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing and iloc http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iloc.html获取前 2 列：

df = pd.concat([x.set_index(x.apply(frozenset, axis=1)) for x in dfs], axis=1, join='inner')
df = df.iloc[~df.index.duplicated(), :2]
print (df)
       col1 col2
(B, A)    A    B
(C, D)    C    D
(F, E)    E    F

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何找到多个 pandas 数据框中一对列与任意顺序对的交集？的相关文章

python中的多服务器监控/自动重启

我有 2 个服务器程序必须使用 GNU Screen 启动我想使用基于 Python 的程序来强化这些服务器防止崩溃该程序启动每个屏幕会话然后监视服务器进程如果服务器进程崩溃我需要 python 代码来终止无关的屏幕会话并再次
在 Python 中使用带有 asyncio 的信号量

我试图限制使用信号量同时运行的异步函数的数量但我无法让它工作我的代码归结为 import asyncio async def send i print f starting i await asyncio sleep 4 print f
Python 字符串格式 - 类型错误 - 格式字符串参数不足

那么这个字符串有什么问题呢我无法弄清楚为什么它说格式字符串没有足够的参数我是 Python 新手只是想弄清楚编辑这与建议的其他问题不同另一个正在尝试做一些我什至没有涉及的疯狂数组事情我只需要了解元组的基本概念以及字符串格式化的
Python 中定义了黄金比例吗？

有没有办法得到黄金比例phi 在标准Python模块中我知道e and pi in the math模块但我可能错过了phi某处定义 scipy constants http docs scipy org doc scipy refer
使用 Flask 测试客户端请求传递 cookie 标头

我在让 Flask 测试客户端传递 cookie 时遇到问题这段代码曾经有效我认为我的环境中的某些内容发生了变化这打破了这一点我最近创建了一个新的 Python 3 7 virtualenv 并安装了 Flask 1 0 2 fro
如何在不使用太多内存的情况下打乱大型 csv 文件的行并将结果写入新的 csv 文件？

因此如果我有一个 csv 文件如下所示 User Gender A M B F C F 然后我想编写另一个 csv 文件其中行像这样打乱作为示例 User Gender C F A M B F 我的问题是我不知道如何随机选择行并确保
Scipy - 求矩阵列空间的基数

我正在尝试编写一个简单的单纯形算法其第一步是找到一个基本的可行解决方案选择 A 的线性独立列的一组 B 将 x 中与不在 B 中的列相对应的所有分量设置为零求解 m 个所得方程以确定 x 的分量这些是基本变量我知道解决方案将涉及使
强制 shell 在 SunGrid 引擎中使用 conda 变量中的 python [重复]

这个问题在这里已经有答案了我正在尝试在 SunGrid 引擎中执行 python 文件并且从 anaconda3 环境变量中执行它我的代码很简单 from future import print function import url
Psycopg2 中的元命令 - \d 不起作用

我希望使用列出表的所有列名psycopg2Python 包 2 7 但我无法执行以下查询 cur execute d my table psycopg2 ProgrammingError syntax error at or near 对于
matplotlib x 轴时间重叠

我用以下函数及时绘制比特率 usr bin python3 import matplotlib pyplot as plt import datetime def plotBitrate time bitrate filename time
如何在不重复代码的情况下定义 randint 元组？

我经常使用 randint 元组来表示颜色值等 a b c randint 0 255 randint 0 255 randint 0 255 当我认为必须有更好的方法时有吗使用numpy 1 import numpy as np tu
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
Python：装饰器可以确定函数是否在类中定义吗？

我正在编写一个装饰器出于各种烦人的原因 0 检查它所包装的函数是独立定义还是作为类的一部分定义以及新类是哪些类的子类是很方便的例如 def my decorator f defined in class print r s f de
Flask 从线程中删除会话变量

我尝试实施投票系统它的工作原理是这样的如果用户对帖子进行投票我会在会话变量中记录其临时状态已投票已加星标等如果当前用户在我将结果保存到临时表之前尚未投票用户可以在 5 分钟内更改投票 5 分钟后结果将使用线程永久写入数据库
创建将一把小提琴按色调分割的小提琴图的正确方法是什么？

创建将一把小提琴分开的小提琴图的正确方法是什么hue 我尝试了不同的方法似乎唯一的方法是创建一个为数据集中的每个条目共享相同值的功能并将该功能的名称传递为x fig plt figure figsize 20 8 fig add sub
“from-import”是否执行整个模块？

好的所以我知道from import与完全相同import 但这显然不是因为命名空间的填充方式不同我的问题主要是因为我有一个utils我的应用程序中的每个其他模块都使用一个或两个函数的模块我正在努力合并标准库logging模块据
Pandas 如何删除包含所需字符串的行

我想删除包含所需字符串的所有行假设我有以下数据框 A B C 1 a x w g n 3 l p j p v 我想删除包含字符串的所有行p 我已经搜索过它但大多数答案都是基于列名称就我而言我不会知道它可以出现在任何列中输出数据帧应
编写适用于 ndarray 和 MaskedArray 的通用数值函数的最佳实践

有没有比以下更漂亮的方式 import numpy as np from numpy import ma def foo x pkg ma if isinstance x ma MaskedArray else np return pkg
Django 类视图未返回 HttpResponse 对象。它返回 None 相反

urls py from housepost views import ListingPost url r house post ListingPost as view name post house views py from djang

随机推荐

如何在 Eclipse 中以编程方式关闭编辑器 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案当我们删除一个项目 IProject 时我们想关闭它的所有打开的文件我可以通过项目的成员方法访问 IFiles 我想关闭已删除项目的所有
MATLAB 类的 Description 和DetailedDescription 属性

内置 MATLAB 类具有 Description 和 DetailedDescription 属性的值 gt gt handle ans meta class handle Package meta Properties Name han
AdMob 插页式广告仅显示一次

当广告在一个会话内第二次或第三次打开时 LogCat 会显示错误消息尝试使用不同的广告管理器启动新的 AdActivity 我通过应用程序主屏幕的 on resume 方法中的意图启动插页式广告 Override public void
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
用 java 编写解释器时的 switch 或 if 语句

当前的作业需要我编写一个程序以一种非常微小且基本的编程语言行为有点像 FORTRAN 来读取包含指令的文件并执行这些指令基本上它是我猜的语言的简单解释器它是完全线性的所有语句都是按顺序定义的并且只有字符串和整数变量我需要查找和
获取请求的客户端 IP 地址而不是 Cloudflare 的 IP 地址

Cloudflare 会更改传入请求的 IP 地址因为 Cloudflare 是我的网站和互联网之间的中间件代理我该怎么办获取请求的初始IP地址而不是 Cloudflare 的 IP 地址我听说过mod cloudflare但是这
使用 JQuery 选择表行并选中复选框

我有一个表我想选择满足我的条件的行并选中它们各自的复选框假设我想获取带有日期的行2013 03 21 我怎样才能使用 JQuery 来做到这一点 table tr td Record1 td td 2013 03 21 td td td
无法在 Mac 上启动 MySQL

使用 Brew 安装后我无法运行 MySQL 我使用的是 OS X El Capitan 版本 10 11 3 和 MySQL Server 版本 5 7 11 当我启动服务器时我收到启动 MySQL 错误服务器退出而不更新 PID
将 value 转换为 bool 的魔法

今天我意识到将值转换为 bool 是一种魔法 int value 0x100 unsigned char uc static cast
通过eclipse运行ant找不到环境变量，但是通过终端运行ant就可以了

当我通过 Eclipse 运行 ant 时一些目标构建得很好但那些需要特定环境变量即我在 profile 文件中设置的 SOME SDK 的目标将无法工作即使我尝试回显 env JAVA HOME Ant 通过 eclipse 也只
如何使用 iOS 可达性

我正在开发一个使用网络的 iPhone 应用程序 iPhone 通过 HTTP 请求与我的服务器通信并且应该可以在 WiFi 和 3G 上运行我目前使用NSURLConnection initWithRequest向我的服务器发送异步请
PHP - 当 false 时获取 bool 来回显 false

以下代码不会打印出任何内容 bool val bool false echo bool val 但下面的代码打印1 bool val bool true echo bool val 有没有更好的打印方法0 or false when boo
防止 FragmentPagerAdapter 中的 WebView 重新加载？

我有一个 FragmentPagerAdapter 用于显示大约 6 个选项卡所有选项卡都从 Web 服务器加载数据其中一个选项卡包含一个从我的服务器加载图像的 WebView 生成图像的服务器端成本很高因此我想减少重新加载 WebV
ASP.NET MVC 3 - microsoft-web-helpers v1.1 的问题

我从 nuget 升级了我的 microsof web helpers 软件包它本身依赖于 facebook 和 twitter API 现在当我的应用程序尝试运行时出现以下错误编译器错误消息 CS0246 找不到类型或命名空间名称
将数组转换为具有默认值的对象的更简洁方法？（洛达什可用）

我有一个数组比如说 a b c 我想将其转换为一个对象该对象以数组值作为键和我可以设置的默认值所以如果默认值是true 我希望我的输出是 a true b true c true 下面的代码是否有更简洁的版本来实现此目的 var my
核心数据迁移后出现 NSRangeException

在向我的应用程序添加新的核心数据模型版本后我执行了轻量级迁移显然成功了迁移的文件加载正常但在第一次尝试通过特定关系访问属性时应用程序崩溃并显示NSRangeException NSArrayM objectAtIndex inde
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
未知属性：user_id

我在执行 current user stories build 期间收到错误未知属性 user id class User lt ActiveRecord Base has many stories class name Story for
多维数组内的移动

我有一个用表格显示的数组如何使用用户输入进行移动目前 0 被分配给每个数组但我计划为该数组分配其他值我的问题是如何使用用户输入在数组内向上向下向右向左移动和对角移动 Array 0 gt Array 0 gt 0 1 gt
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id

如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

如何找到多个 pandas 数据框中一对列与任意顺序对的交集？ 的相关文章

随机推荐

热门标签

如何找到多个 pandas 数据框中一对列与任意顺序对的交集？的相关文章