查找两个 Pandas 数据框中的公共行（交集）

2024-05-30

假设我有两个这种格式的数据框（称它们为df1 and df2):

+------------------------+------------------------+--------+
|        user_id         |      business_id       | rating |
+------------------------+------------------------+--------+
| rLtl8ZkDX5vH5nAx9C3q5Q | eIxSLxzIlfExI6vgAbn2JA |      4 |
| C6IOtaaYdLIT5fWd7ZYIuA | eIxSLxzIlfExI6vgAbn2JA |      5 |
| mlBC3pN9GXlUUfQi1qBBZA | KoIRdcIfh3XWxiCeV1BDmA |      3 |
+------------------------+------------------------+--------+

我正在寻找具有共同点的所有行的数据框user_id in df1 and df2。（即，如果user_id都在df1 and df2，包括输出数据框中的两行）

我可以想出很多方法来解决这个问题，但它们都让我觉得笨拙。例如，我们可以找到所有独特的user_id每个数据帧中的 s ，创建每个数据帧的集合，找到它们的交集，用结果集过滤两个数据帧并将两个过滤后的数据帧连接起来。

也许这是最好的方法，但我知道 Pandas 很聪明。有没有更简单的方法来做到这一点？我看过merge但我不认为那是我需要的。

我的理解是这个问题可以更好地回答这个帖子 https://stackoverflow.com/questions/26921943/pandas-intersection-of-two-data-frames-based-on-column-entries.

但简单来说，用这种方法对OP的回答很简单：

s1 = pd.merge(df1, df2, how='inner', on=['user_id'])

这使s1有 5 列：user_id以及每个的其他两列df1 and df2.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

intersect

查找两个 Pandas 数据框中的公共行（交集）的相关文章

pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1

随机推荐

Java中如何动态添加charsequence[]中的数据？

初始化的一种方法charsequence is charsequence item abc def 但我不想以这种方式初始化它有人可以建议其他方式吗比如我们初始化的方式string arrays 首先修复变量声明 charsequen
如何在单页应用程序中使用 #-URL？

本文 http danwebb net 2011 5 28 it is about the hashbangs提出了一个非常令人信服的论点因为 URL 是长期存在的它们被添加书签并传递所以它们应该是有意义的并且使用哈希进行真正的路由
Java泛型 - 实现像map这样的高阶函数

我决定用 Java 编写一些常见的高阶函数 map filter reduce 等这些函数通过泛型实现类型安全但我在一个特定函数中遇到通配符匹配问题为了完整起见函子接口是这样的 The interface containing th
同一图中正常子图和 cartopy 子图的组合

I want a plot with two subplots one larger with a map and second smaller with a scatter plot I am using cartopy for plot
计算按前两列中的索引分组的 numpy 数组条目的第 N 列的总和？

我想循环以下内容check matrix以这样的方式代码可以识别第一个和第二个元素是否是1 and 1 or 1 and 2ETC 然后对于每个单独的类对即1 1 or 1 2 or 2 2 代码应将最后一个元素在本例中索引为 8 乘
Google Sheets API追加方法（最后在顶部）

使用 google Sheets api 附加方法任何语言时要附加到工作表的值将添加到最后一个非空行之后因此新值出现在工作表底部如下所述 https developers google com sheets api refere
在 TVML 中设置字体系列

在我的 TVML 应用程序中我可以使用 tv text style none 设置字体样式属性例如字体大小和字体粗细但是我无法设置 font family 属性该属性似乎被忽略 var Template function retur
mocha.opts 已弃用，如何迁移到 package.json？

我正在开发一个大型项目自从上周我更新了摩卡以来现在我们收到警告 DeprecationWarning 通过 mocha opts 进行的配置已被弃用并且将从 Mocha 的未来版本中删除使用 RC 文件或改为 package js
如何从笔记本电脑检测电源按钮事件并在 Windows 7 上拒绝它

在 Windows XP 上我可以在按下笔记本电脑的电源按钮时检测到事件获取APMQUERYSUSPEND事件的条件是控制面板 gt 电源选项 gt 系统设置 gt 按下电源按钮时 gt 睡眠选项必须更改为睡眠 MainFrm O
JoinPoint 匹配 EntityManager 方法

我正在尝试拦截对find中的方法实体管理器 public Map
纠正mysql创建用户时语法错误

所以我很常见ERROR 1045 28000 Access denied for user root localhost using password YES mysql错误我已经尝试了论坛上的所有典型修复通过 mysql safe 方
在 Windows 上构建 Docker 映像：入口点脚本“没有这样的文件或目录”

我在这上面浪费了两天时间直到我终于解决了我的问题所以我想我会分享我将概述我在这里遇到的问题然后概述答案中的解决方案 My Dockerfile看起来像这样 FROM php 7 2 fpm COPY custom docker ph
如何突出显示在 Textview android 中单击的单词

我正在创建一个应用程序在其中我从 EditText 中的用户获取输入现在单击按钮后输入的字符串将显示在 TextView 中现在我的问题是当用户单击任何单个单词时我会使该单词在 TextView 中突出显示例如用户输入你
如何在汇编中使用 ReadString？

mov edx offset Prompt1 call WriteString mov ecx 32 mov edx offset String1 call ReadString 现在我该如何访问String1 如何将其移入寄存器以便对其
如何从 Native 组件向 C#/XAML 组件进行函数调用或触发事件？

我正在开发一个带有本机 DirectX D3D 组件和 C XAML 组件的 WP8 应用程序 Native 组件绘制 UI 元素 C XAML 组件具有围绕它的应用程序和其他事物的控件通常我将信息从 C XAML 组件发送到本机组
setTimeout 用于加载下拉列表中的项目

我在用setTimeout克服中提到的缓慢处理脚本警告禁用 Internet Explorer 中的长时间运行脚本消息 https stackoverflow com questions 4460263 disabling the lo
WPF 本地化扩展 MVVM 绑定

我正在尝试绑定在 ViewModel 中声明的名为 SampleName 的属性这里 SampleName 是关键但是当尝试下面的代码时它显示为空
致命错误：Python.h：没有这样的文件或目录，python-Levenshtein 安装

首先我正在使用 Python 3 7 开发 Amazon EC2 实例 Amazon linux 版本 2 AMI 我正在尝试使用以下命令安装 python Levenshtein 包 pip3 install python Levens
如何将 RedShift 上的表卸载到单个 CSV 文件？

我想将一个表从Amazon RedShift迁移到MySQL 但是使用 unload 会生成多个数据文件这些数据文件很难直接导入到MySQL中有什么方法可以将表卸载到单个 CSV 文件中以便我可以将其直接导入到 MySQL 中吗为了
查找两个 Pandas 数据框中的公共行（交集）

假设我有两个这种格式的数据框称它们为df1 and df2 user id business id rating rLtl8ZkDX5vH5nAx9C3q5Q eIxSLxzIlfExI6vgAbn2JA 4 C6IOtaaYdLIT5f

查找两个 Pandas 数据框中的公共行（交集）

查找两个 Pandas 数据框中的公共行（交集） 的相关文章

随机推荐

热门标签

查找两个 Pandas 数据框中的公共行（交集）的相关文章