比较 Python Pandas DataFrame 的匹配行

2023-12-05

我有这个数据框（df1）在熊猫中：

df1 = pd.DataFrame(np.random.rand(10,4),columns=list('ABCD'))
print df1

       A         B         C         D
0.860379  0.726956  0.394529  0.833217
0.014180  0.813828  0.559891  0.339647
0.782838  0.698993  0.551252  0.361034
0.833370  0.982056  0.741821  0.006864
0.855955  0.546562  0.270425  0.136006
0.491538  0.445024  0.971603  0.690001
0.911696  0.065338  0.796946  0.853456
0.744923  0.545661  0.492739  0.337628
0.576235  0.219831  0.946772  0.752403
0.164873  0.454862  0.745890  0.437729

我想检查另一个数据帧中是否有任何行（所有列）（df2）存在于df1。这是df2:

df2 = df1.ix[4:8]
df2.reset_index(drop=True,inplace=True)
df2.loc[-1] = [2, 3, 4, 5]
df2.loc[-2] = [14, 15, 16, 17]
df2.reset_index(drop=True,inplace=True)
print df2

           A         B         C         D
    0.855955  0.546562  0.270425  0.136006
    0.491538  0.445024  0.971603  0.690001
    0.911696  0.065338  0.796946  0.853456
    0.744923  0.545661  0.492739  0.337628
    0.576235  0.219831  0.946772  0.752403
    2.000000  3.000000  4.000000  5.000000
   14.000000 15.000000 16.000000 17.000000

我尝试使用df.lookup一次搜索一行。我是这样做的：

list1 = df2.ix[0].tolist()
cols = df1.columns.tolist()
print df1.lookup(list1, cols)

但我收到此错误消息：

  File "C:\Users\test.py", line 19, in <module>
    print df1.lookup(list1, cols)
  File "C:\python27\lib\site-packages\pandas\core\frame.py", line 2217, in lookup
    raise KeyError('One or more row labels was not found')
KeyError: 'One or more row labels was not found'

我也尝试过.all() using:

print (df2 == df1).all(1).any()

但我收到此错误消息：

  File "C:\Users\test.py", line 12, in <module>
    print (df2 == df1).all(1).any()
  File "C:\python27\lib\site-packages\pandas\core\ops.py", line 884, in f
    return self._compare_frame(other, func, str_rep)
  File "C:\python27\lib\site-packages\pandas\core\frame.py", line 3010, in _compare_frame
    raise ValueError('Can only compare identically-labeled '
ValueError: Can only compare identically-labeled DataFrame objects

我也尝试过isin()像这样：

print df2.isin(df1)

但我得到了False到处都是，这是不正确的：

    A      B      C      D
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False
False  False  False  False

是否可以通过将数据帧与另一个数据帧的行进行比较来搜索数据帧中的一组行？

编辑：是可以掉落的df2rows 如果这些行也存在于df1?

解决您的问题的一种可能的解决方案是使用merge。检查另一个数据帧 (df2) 中的任何行（所有列）是否存在于 df1 中相当于确定两个数据帧的交集。这可以使用以下函数来完成：

pd.merge(df1, df2, on=['A', 'B', 'C', 'D'], how='inner')

例如，如果 df1 是

    A           B            C          D
0   0.403846    0.312230    0.209882    0.397923
1   0.934957    0.731730    0.484712    0.734747
2   0.588245    0.961589    0.910292    0.382072
3   0.534226    0.276908    0.323282    0.629398
4   0.259533    0.277465    0.043652    0.925743
5   0.667415    0.051182    0.928655    0.737673
6   0.217923    0.665446    0.224268    0.772592
7   0.023578    0.561884    0.615515    0.362084
8   0.346373    0.375366    0.083003    0.663622
9   0.352584    0.103263    0.661686    0.246862

df2 定义为：

     A          B            C           D
0   0.259533    0.277465    0.043652    0.925743
1   0.667415    0.051182    0.928655    0.737673
2   0.217923    0.665446    0.224268    0.772592
3   0.023578    0.561884    0.615515    0.362084
4   0.346373    0.375366    0.083003    0.663622
5   2.000000    3.000000    4.000000    5.000000
6   14.000000   15.000000   16.000000   17.000000

功能pd.merge(df1, df2, on=['A', 'B', 'C', 'D'], how='inner')产生：

     A           B           C           D
0   0.259533    0.277465    0.043652    0.925743
1   0.667415    0.051182    0.928655    0.737673
2   0.217923    0.665446    0.224268    0.772592
3   0.023578    0.561884    0.615515    0.362084
4   0.346373    0.375366    0.083003    0.663622

结果是 df1 和 df2 中的所有行（所有列）。

如果 df1 和 df2 中的列不相同，我们还可以修改此示例，只需比较列子集的相同行值。如果我们修改原来的例子：

df1 = pd.DataFrame(np.random.rand(10,4),columns=list('ABCD'))
df2 = df1.ix[4:8]
df2.reset_index(drop=True,inplace=True)
df2.loc[-1] = [2, 3, 4, 5]
df2.loc[-2] = [14, 15, 16, 17]
df2.reset_index(drop=True,inplace=True)
df2 = df2[['A', 'B', 'C']] # df2 has only columns A B C

然后我们可以使用以下命令查看公共列common_cols = list(set(df1.columns) & set(df2.columns))两个数据框之间然后合并：

pd.merge(df1, df2, on=common_cols, how='inner')

EDIT:新问题（评论），确定了第一个数据帧（df1）中也存在的 df2 行，是否可以获取 pd.merge() 的结果，然后删除 df2 中也存在的行在 df1 中

我不知道有什么简单的方法可以完成从 df2 中删除 df1 中也存在的行的任务。也就是说，您可以使用以下内容：

ds1 = set(tuple(line) for line in df1.values)
ds2 = set(tuple(line) for line in df2.values)
df = pd.DataFrame(list(ds2.difference(ds1)), columns=df2.columns)

可能存在更好的方法来完成该任务，但我不知道这样的方法/功能。

EDIT 2:如何从 df2 中删除也存在于 df1 中的行，如@WR 答案所示。

提供的方法df2[~df2['A'].isin(df12['A'])]不考虑所有类型的情况。考虑以下数据帧：

df1:

   A  B  C  D
0  6  4  1  6
1  7  6  6  8
2  1  6  2  7
3  8  0  4  1
4  1  0  2  3
5  8  4  7  5
6  4  7  1  1
7  3  7  3  4
8  5  2  8  8
9  3  2  8  4

df2:

   A  B  C  D
0  1  0  2  3
1  8  4  7  5
2  4  7  1  1
3  3  7  3  4
4  5  2  8  8
5  1  1  1  1
6  2  2  2  2

df12:

   A  B  C  D
0  1  0  2  3
1  8  4  7  5
2  4  7  1  1
3  3  7  3  4
4  5  2  8  8

使用上述 DataFrame 的目的是从 df2 中删除也存在于 df1 中的行，将导致以下结果：

   A  B  C  D
0  1  1  1  1
1  2  2  2  2

行 (1, 1, 1, 1) 和 (2, 2, 2, 2) 位于 df2 中，而不位于 df1 中。不幸的是，使用提供的方法（df2[~df2['A'].isin(df12['A'])]）结果是：

   A  B  C  D
6  2  2  2  2

发生这种情况是因为在交集 DataFrame（即 (1, 0, 2, 3)）和 df2 中都找到了 A 列中的值 1，因此删除了 (1, 0, 2, 3) 和 (1, 1, 1, 1).这是无意的，因为行 (1, 1, 1, 1) 不在 df1 中，不应删除。

我认为以下内容将提供解决方案。它创建一个虚拟列，稍后用于将 DataFrame 子集化为所需的结果：

df12['key'] = 'x'
temp_df = pd.merge(df2, df12, on=df2.columns.tolist(), how='left')
temp_df[temp_df['key'].isnull()].drop('key', axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

rows

matching

比较 Python Pandas DataFrame 的匹配行的相关文章

使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

如何对列表/数组列表进行排序？

我在 java 中有一个双精度列表我想按降序对 ArrayList 进行排序输入ArrayList如下 List
从 aspx 页面调用方法后面的代码

我有一个像这样的图像标签
使用 servlet 和 JSP 创建示例登录页面？ [复制]

这个问题在这里已经有答案了我开发了一个示例登录页面来验证用户名和密码如果用户提供正确的凭据该页面将导航到其他页面否则从该页面返回一条消息servlet到同一个登录页面我已附上样品code here FirstJSP jsp
声明同名局部变量时，函数变得未定义

我在文件中声明了一个函数使其成为全局函数 function speakService var speakService var speak function word console log word speakService speak
为什么运行时将泛型类型显示为“GenericType`n”？

为什么它不显示真实类型例如 List而不是List 1 这个奇怪的对我来说符号从何而来泛型的 CLR 名称List
CSS：将复选框设置为看起来像按钮，有悬停吗？

我创建了一个看起来很小的按钮来显示而不是复选框我想知道是否有办法以某种方式也有 hover 外观 HTML div div
使用 HtmlUnit 获取页面源：URL 卡住了

我正在尝试使用 Html Unit get 方法获取以下 URL 的页面源 http denydesigns com collections barbara sherman fleece throw blanket products bar
在python中使用AES进行图像加密

我使用 AES 算法加密图像并得到结果但我不确定编程是否正确我需要帮助检查代码 import numpy as np import random from Cryptodome Cipher import AES from Crypto
使用 HttpClient4 上传文件时设置标头“Content-Type”时出现问题

我正在尝试将文件或多个文件上传到我的 servlet 该 servlet 使用 Apache 文件上传来处理和获取发布的文件当我使用以下代码时一切顺利文件已发送和接收 DefaultHttpClient client new De
在 Nuxt 组件中使用花括号导入

我正在尝试在 Nuxt 组件中导入 Three js
DataGridTemplateColumns、AutoGenerateColumns=true 并绑定到 DataTable

我正在与一系列问题作斗争我有一个动态数据集我手动将其组装成数据表我必须自动生成列因为数据不是静态的我需要将组合框的 ItemsSource 绑定到每个单元格中定义的 Observable 集合虽然我认为这很容易但 ComboB
通过微型应用对可穿戴设备上的通知进行分组

我为可穿戴设备构建了一个微型应用程序现在我正在处理设备上的通知这是我的示例代码 NotificationCompat Builder builder new NotificationCompat Builder context setC
Apache 和 CentOS 中的默认会话超时

任何人都可以帮我找出 apache 和 CentOS 中的默认会话超时这来自 php 中php ini而不是 apache 或操作系统默认值为 1440 以秒为单位即 24 分钟但这取决于您的托管提供商您正在寻找的具体设置是 se
Spring Data REST：自定义方法验证

我正在尝试使用Spring Data REST带有注释的存储库 RepositoryRestResource注释与自定义方法实现一起有2种情况 1 我有 REST 存储库注释为 RepositoryRestResource映射到 use
使用字节数据类型时 JAVA 中的精度损失

byte b 9 b b 6 给出编译错误可能会损失精度为什么b 9不给出错误而b b 9造成精度损失有人告诉我9 或任何数字被视为int因此损失精度但那为什么呢b 9不会给出任何精度损失误差吗也当写成b 6 代码不会给出任何
DDD - 实体不能直接访问存储库的规则

在领域驱动设计中似乎有lots of 协议实体不应直接访问存储库这是来自埃里克埃文斯吗领域驱动设计书上的还是从别的地方来的对于其背后的推理哪里有一些好的解释编辑澄清一下我不是在谈论将数据访问与业务逻辑分离到单独层的经典 O
如何在改造Android中发送对象数组？

我有一个要在服务调用中传递的以下对象数组 ParkingSpace sid WorldSensing vhu6lom3sovk6ahpogebfewk5kqadvs4 5385fc250cf2497dfe5679d1 ParkingSpac
CakePHP 3.0 没有 intl 扩展就无法运行

我正在尝试在共享主机上安装并运行 CakePHP 3 0 项目然而 CakePHP 3 0 需要php intl扩展但托管提供商拒绝我安装启用intl共享主机上的扩展我怎样才能运行 CakePHP 3 0 而不intl扩大有没有办
NetBeans。禁用错误检查下划线

如何在 NetBeans 6 9 1 中禁用错误检查源代码中出现红线是很烦人的这类似于NetBeans 关闭红色波浪下划线如何但我想完全禁用下划线而不仅仅是在打字时它错误地解析 PHP 源并忽略语法错误 Netbeans 有
比较 Python Pandas DataFrame 的匹配行

我有这个数据框 df1 在熊猫中 df1 pd DataFrame np random rand 10 4 columns list ABCD print df1 A B C D 0 860379 0 726956 0 394529 0 8

比较 Python Pandas DataFrame 的匹配行

比较 Python Pandas DataFrame 的匹配行 的相关文章

随机推荐

热门标签

比较 Python Pandas DataFrame 的匹配行的相关文章