在 Python 中合并数据帧时出现重复行

2024-03-17

我目前正在使用内部联接合并两个数据帧。但是，合并后，即使我合并的列包含相同的值，我也会看到所有行都是重复的。

具体来说，我有以下代码。

merged_df = pd.merge(df1, df2, on=['email_address'], how='inner')

这是两个数据框和结果。

df1

          email_address    name   surname
0  [email protected] /cdn-cgi/l/email-protection    john     smith
1  [email protected] /cdn-cgi/l/email-protection    john     smith
2       [email protected] /cdn-cgi/l/email-protection   elvis   presley

df2

          email_address    street  city
0  [email protected] /cdn-cgi/l/email-protection   street1    NY
1  [email protected] /cdn-cgi/l/email-protection   street1    NY
2       [email protected] /cdn-cgi/l/email-protection   street2    LA

merged_df

          email_address    name   surname    street  city
0  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
1  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
2  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
3  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
4       [email protected] /cdn-cgi/l/email-protection   elvis   presley   street2    LA
5       [email protected] /cdn-cgi/l/email-protection   elvis   presley   street2    LA

我的问题是，不应该是这样吗？

这就是我想要的merged_df像是。

          email_address    name   surname    street  city
0  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
1  [email protected] /cdn-cgi/l/email-protection    john     smith   street1    NY
2       [email protected] /cdn-cgi/l/email-protection   elvis   presley   street2    LA

有什么方法可以实现这一目标吗？

list_2_nodups = list_2.drop_duplicates()
pd.merge(list_1 , list_2_nodups , on=['email_address'])

重复的行是预期的。每个约翰·史密斯list_1与每个约翰·史密斯匹配list_2。我不得不将重复项放入其中一个列表中。我选择了list_2.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

python3x

pandas

MERGE

在 Python 中合并数据帧时出现重复行的相关文章

为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数

随机推荐

JSDoc 和 JavaScript 单例文档

我有一个 JavaScript 单例定义为 A description here class com mydomain ClassName function constructor lends com mydomain ClassName
带有包含路径和源路径的 CMake - 基本设置

我正在尝试建立一个看起来像我自己的项目的测试项目只是为了让事情首先正常工作它看起来像这样 MainProject inc main h MainProject src main cpp LibProject inc test h Lib
Codemagic IOS 构建需要很长时间才能完成

我正在尝试在 Codemagic 上设置我的 flutter 应用程序但为 IOS 构建大约需要 40 50 分钟日志显示是compiling files c and cc 有很多这样的文件正在编译有没有办法让构建速度更快我是否缺少
轻量级的 Scala fork join 语法

尽管即将推出 java 7 标准 fork join 框架但我正在构建一些语法轻量级的辅助方法以便客户端并行运行代码这是一个可运行的 main 方法来说明这个想法 import actors Futures object ForkTe
如何将值从一种形式传递到另一种形式？

考虑一下我有两个窗口窗体的情况比如说F1 and F2 使用后F1 我现在已经打电话了F2 ShowDialog 这使得F2也在屏幕上现在两种形式都可见我如何从F1 to F2 另外有一次F2 模态对话框结束如何返回数据F1 有
Android canvas drawText 文本的 y 位置

我正在使用 Canvas 创建一个带有一些背景和一些文本的 Drawable 该可绘制对象用作 EditText 内的复合可绘制对象文本是通过在画布上的 drawText 绘制的但在某些情况下我确实对绘制文本的 y 位置存在问题在这
我从哪里开始组装？

嘿我会用 C 语言编程会一点 Python 和 Pascal 我真的很想学习汇编我今年 18 岁高中毕业编程是我的爱好因为学业确实不是什么挑战我下载了几本关于汇编的书籍它们是汇编的艺术初学者的汇编完全初学者的汇编和
Android 媒体记录器停止异常

我正在从 Android 媒体录音机录制视频和音频我正在检查剪辑长度如果少于 2 秒请删除它但问题是如果我从文件路径检查文件的持续时间 MediaRecorder 每次抛出异常后都会抛出异常即使我录制 10 秒的音频但是当我评
为什么空基类优化 (EBO) 在 MSVC 中不起作用？

为什么空基类优化 EBO 在Visual C 中没有得到充分应用如果我有很多基类我有什么办法可以帮助编译器进行这种优化吗 include
iOS UITesting 如何关闭 Popover（iPad Popover 不是警报样式）

我有一个非常复杂的应用程序有很多视图和弹出窗口用于快速选择条目我无法关闭弹出窗口我尝试了很多类似的点击窗口中的坐标 app otherElements PopoverDismissRegion 击中后面的元素弹出窗口根本不可点
Python KafkaConsumer 从某个时间戳开始消费消息

我计划跳过主题的开头只读取从某个时间戳到结束的消息关于如何实现这一目标有任何提示吗我猜你正在使用kafka python https github com dpkp kafka python https github com dpkp
如何将列表视图放置在 SingleChildScrollView 中但防止它们单独滚动？

我有一个像这样的小部件树 SingleChildScrollView Column Container ListView or GridView 问题是当我的小部件树如上所示时它会给我错误需要油漆所以我像这样改变我的小部件树 Col
C# 十六进制转ascii

我正在尝试使用以下命令将十六进制字符串转换为 ASCII public void ConvertHex String hexString StringBuilder sb new StringBuilder for int i 0 i lt
如何从 Android 上的 sqlite 数据库中删除旧行？

我有一个参数用户可以在其中选择应存储数据的时间段我读到了days多变的记录添加到数据库时的日期和时间存储在KEY DATE ADDED 它的创建方式如下 SimpleDateFormat dateFormat new SimpleDa
git-ftp 在 repo 根目录中的文件夹和文件名中添加尖号 (#)

I use Git ftp https github com git ftp git ftp scripts to uploading of my project via FTP on shared hosting But there is
在 Golang 中导入模块时如何捕获错误？

在golang中当我导入一个模块时它的init 被执行我假设在main 之前这个函数中可能会产生一些错误我如何捕获这些错误并在我自己的代码中处理它们正如你所知 Go 中的错误是返回值由于 init 不返回任何内容因此如果出现
在android中，当应用程序因滑动而被杀死时，如何执行代码？

所以基本上我在 xamarin 上使用 C 创建了一个应用程序一切都运行完美我调用了一个事件处理程序当我按下 Android 上的后退按钮时它不会退出应用程序只是将其移动到后台为此我使用了 public override vo
Android 获取 Google Play 商店应用程序版本

我正在使用此代码来获取 Google Play 商店应用程序版本但这导致我的应用程序挂起请指定获取应用程序版本的另一种方法或者我如何使用此代码使应用程序不会挂起并成功运行 public class VersionChecker ext
在 jQuery Mobile 的弹出窗口中打开外部页面

我正在使用 jQuery Mobile 实际上我想在弹出窗口中打开外部链接我试过这个 a href Open Dialog a
在 Python 中合并数据帧时出现重复行

我目前正在使用内部联接合并两个数据帧但是合并后即使我合并的列包含相同的值我也会看到所有行都是重复的具体来说我有以下代码 merged df pd merge df1 df2 on email address how inner

在 Python 中合并数据帧时出现重复行

在 Python 中合并数据帧时出现重复行 的相关文章

随机推荐

热门标签

在 Python 中合并数据帧时出现重复行的相关文章