如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复]

2024-04-09

我正在尝试使用 pandas 数据框比较两个 csv 文件。其中一个是每天都会附加数据的主表 (test_master.csv)。第二个是每日报告 (test_daily.csv)，其中包含我想要附加到 test_master.csv 的数据。

我正在从这些文件创建两个 pandas 数据框：

import pandas as pd

dfmaster = pd.read_csv(test_master.csv)
dfdaily = pd.read_csv(test_daily.csv)

我希望将每日列表与主列表进行比较，以查看每日列表上是否存在主列表中已存在的重复行。如果是这样，我希望他们从 dfdaily 中删除重复项。然后我想将这些非重复数据写入 dfmaster。

重复数据将始终是整行。我的计划是逐行迭代工作表以进行比较。

我意识到我可以将每日数据附加到 dfmaster 数据框并使用 drop_duplicates 删除重复项。不过，我不知道如何删除 dfdaily 数据框中的重复项。我需要能够将 dfdaily 数据写回 test_daily.csv （或另一个新文件），而无需重复数据。

这是数据框的示例。

测试_master.csv

  column 1   |  column 2   |  column 3   |
+-------------+-------------+-------------+
| 1           | 2           | 3           |
| 4           | 5           | 6           |
| 7           | 8           | 9           |
| duplicate 1 | duplicate 1 | duplicate 1 |
| duplicate 2 | duplicate 2 | duplicate 2

test_daily.csv

+-------------+-------------+-------------+
|  column 1   |  column 2   |  column 3   |
+-------------+-------------+-------------+
| duplicate 1 | duplicate 1 | duplicate 1 |
| duplicate 2 | duplicate 2 | duplicate 2 |
| 10          | 11          | 12          |
| 13          | 14          | 15          |
+-------------+-------------+-------------+

期望的输出是：

测试_master.csv

+-------------+-------------+-------------+
|  column 1   |  column 2   |  column 3   |
+-------------+-------------+-------------+
| 1           | 2           | 3           |
| 4           | 5           | 6           |
| 7           | 8           | 9           |
| duplicate 1 | duplicate 1 | duplicate 1 |
| duplicate 2 | duplicate 2 | duplicate 2 |
| 10          | 11          | 12          |
| 13          | 14          | 15          |
+-------------+-------------+-------------+

test_daily.csv

+----------+----------+----------+
| column 1 | column 2 | column 3 |
+----------+----------+----------+
|       10 |       11 |       12 |
|       13 |       14 |       15 |
+----------+----------+----------+

任何帮助将不胜感激！

EDIT

我错误地认为解决方案设定差异 https://stackoverflow.com/questions/18180763/set-difference-for-pandas问题解决了我的问题。我遇到过这些解决方案不起作用的某些情况。我相信这与下面 Troy D 的评论中提到的索引数字标签有关。 Troy D 的解决方案就是我现在使用的解决方案。

尝试这个：

我创建了 2 个索引，然后将第 2-4 行设置为重复：

import numpy as np

test_master = pd.DataFrame(np.random.rand(3, 3), columns=['A', 'B', 'C'])
test_daily = pd.DataFrame(np.random.rand(5, 3), columns=['A', 'B', 'C'])
test_daily.iloc[1:4] = test_master[:3].values

print(test_master)
print(test_daily)

output:

      A         B         C
0  0.009322  0.330057  0.082956
1  0.197500  0.010593  0.356774
2  0.147410  0.697779  0.421207
      A         B         C
0  0.643062  0.335643  0.215443
1  0.009322  0.330057  0.082956
2  0.197500  0.010593  0.356774
3  0.147410  0.697779  0.421207
4  0.973867  0.873358  0.502973

然后，添加多索引级别来识别哪些数据来自哪个数据帧：

test_master['master'] = 'master'
test_master.set_index('master', append=True, inplace=True)
test_daily['daily'] = 'daily'
test_daily.set_index('daily', append=True, inplace=True)

现在按照您的建议合并并删除重复项：

merged = test_master.append(test_daily)
merged = merged.drop_duplicates().sort_index()
print(merged)

output:

             A         B         C
  master                              
0 daily   0.643062  0.335643  0.215443
  master  0.009322  0.330057  0.082956
1 master  0.197500  0.010593  0.356774
2 master  0.147410  0.697779  0.421207
4 daily   0.973867  0.873358  0.502973

在那里您可以看到组合数据框以及索引中标记的数据来源。现在只需对每日数据进行切片：

idx = pd.IndexSlice
print(merged.loc[idx[:, 'daily'], :])

output:

             A         B         C
  master                              
0 daily   0.643062  0.335643  0.215443
4 daily   0.973867  0.873358  0.502973

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复] 的相关文章

有没有纯Python的表类？

我正在构建一个需要分析表格数据的应用程序我想执行一些列操作例如重命名列删除列以及根据现有列的值计算新列的能力我的第一选择是 Pandas 之类的东西但是一个限制是这个项目必须是跨平台的并且非常容易在 virtualenv 中部署
每当我尝试在 VPS 上使用 Discord 机器人登录时，都会收到“SSL：Certificate_verify_failed”

我正在将我的机器人从旧的坏掉的笔记本电脑转移到合适的 VPS 我使用的是较旧的异步版本的 Discord py 0 16 0 因为我在重写之前很长时间就开始研究这个东西了而且我对 Linux 没有太多经验因此迁移到 Windows S
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
使用 python 将 bibtex 文件转换为 html （也许是 pybtex？）

您好我想解析 bibtex 出版物文件并对特定字段例如年份进行排序并过滤某些内容然后将其放在网站上我遇到了 pybtex 它可以读取和解析 bibtex 文件但它基本上没有记录我不知道如何对条目进行排序 pybtex 是可行的
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
使用Python处理Sqlite数据库中的换行符“\n”？

我有一个名为 test db 的 Sqlite 数据库其中包含两个表其结构如下表 1 ID 整数主键自动增量名称 varchar 500 颜色 varchar 500 表2 ID INTEGER PRIMARY KEY AUTOIN
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
使用字典时如何避免 KeyError？

现在我正在尝试编写汇编程序但我不断收到此错误 Traceback most recent call last File Users Douglas Documents NeWS py line 44 in if item in regis
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
在视图之间共享并在 AppConfig 中初始化的变量

我想要一个在应用程序启动时初始化的变量并且可以从视图访问该变量 my app my config py class WebConfig AppConfig name verbose name def ready self print lo
数据框更新后如何刷新绘图？

假设您已经使用以下方法构建了一个图形px line 使用数据框数据框稍后会添加新数据用新数据刷新数据的好方法是什么一个例子可以是px data stocks 从列的子集开始 GOOG AAPL AMZN FB NFLX MSFT 例如
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
如何让 IPython 按类别组织制表符补全的可能性？

当一个对象有数百个方法时制表符补全很难使用通常有趣的方法是由被检查对象的类而不是其基类定义或重写的方法如何让 IPython 对其制表符完成可能性进行分组以便首先检查对象的类中定义的方法和属性然后是基类中的方法和属性看起来像是
为什么Python安装程序不断弹出？

每当我尝试运行 Python 文件时都会自动弹出此窗口虽然我可以关闭它但有时它会连续打开 7 10 个窗口这令人恼火谁能告诉我为什么会发生这种情况 None
适用于 Python 的 GitLab CI 共享 Windows 运行器

我在 GitLab 中有一个 python 项目仓库我看到 GitLab 共享了可用的测试版 Windows 运行程序请参阅this https about gitlab com blog 2020 01 21 windows shar
Django ImageField 默认值

模型 py class UserProfile models Model photo models ImageField upload to get upload file name storage OverwriteStorage def
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修
Django 多个外键，相同的相关名称

我想创建一个模型 1 其中具有相同其他模型 2 的多个外键我希望这些外键具有相同的related name因为每个外键将指向 model 2 的不同实例因为我需要所有外键的一个反向关系也许一个例子会更明确 class Parent M

随机推荐

PHP服务器统计脚本？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我不太确定把这个问题放在哪里它不是真正的网络应用程序或超级用户但我确信类似的东西已经存在我正在寻
在android中使用Google Drive api获取在Google Drive上创建的文件的大小

我创建了应用程序使用该应用程序用户将能够从 Google 驱动器获取列表中的所有文件并能够下载它现在用户可以下载已上传到驱动器的文件并带有进度计数但我无法获取在 Goolge 驱动器上创建的文件的大小例如文档演示文稿电子表格
Android UI 测试期间“未找到测试”

如果我有时想通过右键单击测试然后选择运行来运行单个测试测试结果将显示未找到测试并显示与线程 main java lang NoClassDefFoundError 中的异常相关的错误我发现这种情况只发生过几次为什么会发生这种情
C++迭代器和反向迭代器

我正在写一个iterator 实际上是const iterator对于我当前的对象我还想创建一个reverse const iterator also 我环顾四周想看看如何做到这一点然后我偶然发现this http www cplus
在jsp页面中使用log4j的正确方法是什么

我的意思是我希望记录器名称反映 source jsp 文件无论它是否包含在另一个文件中或编译为类或其他文件首先导入所需的包即 then the jsppagename jsp根据您使用的服务器可能会发生变化然后在 jsp 内
GZip 算法如何工作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 GZip 文件压缩算法如何工作如果有人有这方面的任何文档我想阅读它如果您仍在寻找更详细的概述我已经在以下位置编写了 gzip de
Django 对象.update_or_create

我有一个在 celery 中运行的 period task 来查询最新的加密货币价格但由于某种原因每次想要显示数据时我没有得到更新的记录我只是得到新的记录而旧的记录由于某种原因被保留 tasks py periodic task
NavigationView如何处理动态标题内容

我有一个非常标准的 NavigationView 当我在标题中使用静态布局如下所示时效果非常好
约束布局 - 具有最大宽度的两个视图

我想创建一个布局使用约束布局如下所示在不同的语言中 Button1 可能比 Button2 大我怎样才能做到这一点我只能在包含两个按钮的约束内使用 LinearLayout 来实现此目的但我尝试仅使用布局 Thanks Upda
如果主体参数以“@”开头，则发出 PowerShell POST 请求

我想在 PowerShell 中发出 POST 请求以下是 Postman 中的正文详细信息 type login username email protected cdn cgi l email protection password
生成数字数组中有效的数字组合

我正在尝试从数字数组中生成所有有效的数字组合假设我们有以下内容 let arr 1 2 9 4 7 我们需要输出这样的内容 1 2 9 4 7 1 2 9 47 1 2 94 7 1 2 947 1 29 4 7 1 29 47 1 29
我无法在我的 Visual C Express Edition 2008 中汇编电影 (MMX) 指令

当我尝试编译时movd指令显示错误为 error A2085 instruction or register not accepted in current CPU mode 我的代码如下 386 model flat c code add
我怎样才能让我的verilog移位器更通用？

这里我有一个移位器但现在它最多只能工作 3 位我一直在寻找但不知道如何让它工作最多 8 位 module shifter a b out input 7 0 a b output 7 0 out wire 7 0 out1 out2
扩展 Eloquent 的类的构造函数

我刚刚启动了一个新网站我想使用 Eloquent 在为数据库播种的过程中我注意到如果我在扩展 eloquent 的模型上包含任何类型的构造函数则会添加空行例如运行此播种器
如何解决三向多态关联？

首先我要说我正在使用 MySQL 不是事务型并且这是无法更改的另外为了简洁和清晰起见我简化了此处的表格在此示例中课程由其内部属性和外部属性及其自己的属性阅读组成阅读有其自己的关键依赖属性和三个不同的外部属性阅读源我
如何在 SQL Server 2008 中存储特定列的列值？

基本上我正在映射字段正如你所看到的GridView 2我选择了特定的列名称让我们考虑第一条记录即1 id Column0 For id我已选择Column0 所以在数据库中我想在 id 列下存储列值 1 2 3 4 像下面这样 id
使用属性和不访问 ivars 之间的区别

使用属性或直接访问 ivars 的特定性能和行为差异对于全局变量使用它有什么区别 interface myClass UIImageView myView void loadView super loadView myView UIIm
如何动态添加 mixin 作为基类而不出现 MRO 错误？

说我有课A B and C Class A and B都是 Class 的 mixin 类C class A object pass class B object pass class C object A B pass 这在实例化 C 类
在angularjs中克隆html元素

我正在尝试在 angularjs 中实现拖放系统我希望在拖动开始时克隆拖动的对象但是我不知道如何在 angularjs 中克隆元素及其范围和链接控制器有什么建议么不建议使用 Angular 来克隆 DOM 元素通常是通过拖放完成的
如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复]

这个问题在这里已经有答案了我正在尝试使用 pandas 数据框比较两个 csv 文件其中一个是每天都会附加数据的主表 test master csv 第二个是每日报告 test daily csv 其中包含我想要附加到 test mas

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复]

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复] 的相关文章

随机推荐

热门标签