如何比较两个 CSV 文件并找出差异？

2023-12-08

我有两个 CSV 文件，

a1.csv

city,state,link
Aguila,Arizona,https://www.glendaleaz.com/planning/documents/AppendixAZONING.pdf
AkChin,Arizona,http://www.maricopa-az.gov/zoningcode/wp-content/uploads/2014/05/Zoning-Code-Rewrite-Public-Review-Draft-3-Tracked-Edits-lowres1.pdf
Aguila,Arizona,http://www.co.apache.az.us/planning-and-zoning-division/zoning-ordinances/

a2.csv

city,state,link
Aguila,Arizona,http://www.co.apache.az.us

我想得到差异。

这是我的尝试：

import pandas as pd

a = pd.read_csv('a1.csv')
b = pd.read_csv('a2.csv')

mask = a.isin(b.to_dict(orient='list'))
# Reverse the mask and remove null rows.
# Upside is that index of original rows that
# are now gone are preserved (see result).
c = a[~mask].dropna()
print c

预期输出：

city,state,link
Aguila,Arizona,https://www.glendaleaz.com/planning/documents/AppendixAZONING.pdf
AkChin,Arizona,http://www.maricopa-az.gov/zoningcode/wp-content/uploads/2014/05/Zoning-Code-Rewrite-Public-Review-Draft-3-Tracked-Edits-lowres1.pdf

但我收到错误：

Empty DataFrame
Columns: [city, state, link]
Index: []**

我想根据前两行进行检查，如果它们相同，则将其删除。

您可以使用pandas要读入两个文件，将它们连接起来并删除所有重复的行：

import pandas as pd
a = pd.read_csv('a1.csv')
b = pd.read_csv('a2.csv')
ab = pd.concat([a,b], axis=0)
ab.drop_duplicates(keep=False)

参考：https://pandas.pydata.org/pandas-docs/stable/ generated/pandas.DataFrame.drop_duplicates.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

如何比较两个 CSV 文件并找出差异？的相关文章

获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
在 Bash 中拆分 csv 文件中的列

我想从 csv 文件的第二列中提取值并将提取的值存储在新列中我的数据集示例 page name post id page id A 86680728811 272953252761568 86680728811 A 86680728811
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
ValueError：无法插入 ID，已存在

我有这个数据 ID TIME 1 2 1 4 1 2 2 3 我想按以下方式对数据进行分组ID并计算每组的平均时间和规模 ID MEAN TIME COUNT 1 2 67 3 2 3 00 1 如果我运行此代码则会收到错误 ValueE
python中的sys.stdin.fileno()是什么

如果这是非常基本的或之前已经问过的我很抱歉我用谷歌搜索但找不到简单且令人满意的解释我想知道什么sys stdin fileno is 我在代码中看到了它但不明白它的作用这是实际的代码块 fileno sys stdin filen
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
如何对字符串列表进行排序？

在 Python 中创建按字母顺序排序的列表的最佳方法是什么基本回答 mylist b C A mylist sort 这会修改您的原始列表即就地排序要获取列表的排序副本而不更改原始列表请使用sorted http docs pyt
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
如何使用 Django (Python) 登录表单？

我在 Django 中构建了一个登录表单现在我遇到了路由问题当我选择登录按钮时表单不会发送正确的遮阳篷我认为前端的表单无法从查看 py 文件所以它不会发送任何 awnser 并且登录过程无法工作该表单是一个简单的静态 html
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA

随机推荐

Android Volley 在请求缓慢时双发

我在慢速网络上遇到 Volley POST 请求问题每次我看到BasicNetwork logSlowRequests在我的 LogCat 中我的 POST 请求被执行两次或多次从而导致 1 个请求出现多个 2 个或更多发布我已经
PHP 中未加载 XDebug（Vista、Apache 模块）

我下载了 php xdebug 2 0 5 5 3 vc9 dll 在 PHP ini 末尾添加了以下行 zend extension ts C Program Files php5 ext php xdebug 2 0 5 5 3 vc9
Google Drive api-文件已上传但未列出

我是 googledrive api 的新手我正在努力将文件从我的服务器上传到 googledrive 在我的 Gmail 帐户中我有创建一个服务帐户下载密钥并上传到服务器提供对 Drive Api 和 SDK Api 的访问添
javascript - 按多个条件排序 - 首先按另一个数组，然后按内部的另一个属性排序

我有一个如下所示的对象数组需要以这样的方式对其进行排序带有 c 的项目首先出现然后是 y 然后是 s 在那方面也是如此例如在c中它应该按计数器排序即c 计数器1 c 计数器2 var data age 7 counter 1 c
如何将拍摄的图像设置为纵向模式

我正在开发一个应用程序在该应用程序中我为用户提供了便利他可以使用移动相机拍照然后我在 Imageview 中显示图像现在的问题是如果我以纵向模式或横向模式捕获图像它总是在 ImageView 中将图像设置为横向模式但我希望仅
如何同时滑入/滑出状态栏和导航栏？

我想使用幻灯片效果同时显示和隐藏状态栏和导航栏这就是我尝试的方法 UIApplication sharedApplication setStatusBarHidden hide withAnimation UIStatusBarAnima
（再次）转换为 UTF-8

我有这个字符串Traor u0102 u0160 Traor u0102 u0160应该产生Traor Then Traor utf 8 解码应该产生Traor 我如何将其转换为Traor 字符是什么类型Traor u0102 u0160
使用 Swift 处理将图像存储到 Firebase

这就是我上传到 Firebase 的方式但需要一段时间才能取回来另外在保存它的同时这就是我尝试异步该过程的原因 if imagePathToUpload nil let uploadImgPath Firebase url root
适用于 Windows 64 位的 LVITEM

很长一段时间我尝试使用LVM GETITEMW消息与LVIF TEXT获取 ListView 文本的掩码我的程序可以在 32 位架构下运行但不能在 64 位架构下运行我发现问题出在LVITEM结构很快我的问题是哪种结构适合 64
按第一次和最后一次出现进行分组

我有一张如下表 current day browser 2016 05 02 Safari 2016 05 03 Safari 2016 05 04 Safari 2016 05 05 Safari 2016 05 06 Safari 20
如何在 Powershell 中将键盘焦点设置到文本框

我正在寻找如何自动将键盘焦点设置到 powershell 中的文本框我有一个脚本要求用户从下拉菜单中选择一个选项然后根据该选择他们必须输入某些参数一切都很好为了便于使用我希望每次显示新输入框时键盘的焦点都会转移到输入框这样用
下载成功后如何更新数据库？

我编写了一个下载脚本它将从目录下载文件成功下载后我需要更新数据库因此我编写了以下代码 path SERVER DOCUMENT ROOT upload change the path to fit your websites doc
导致spec2单元测试编译错误的安全特征

我已经按照以下方式为我的 Play Framework 版本 2 3 5 应用程序实现了授权官方安全文档 trait Secured def username request RequestHeader request session ge
tableview TrailingSwipeActionsConfigurationForRowAt破解ios11

我在IOS11中使用trailingSwipeActionsConfigurationForRowAt 但是当滑动多次时应用程序被破解 func tableView tableView UITableView trailingSwipeAc
在 C 和 C++ 中，任何超过 0x0 / 0b0 / '\0' / 0 的值都是 NULL/false [重复]

这个问题在这里已经有答案了正如问题中提到的我一直将 NULL 和 false 在 C 中与 0 或 0x0 等互换使用我很想知道它们除了是 0 的同义词之外是否还有其他特殊含义对于某些平台NULL is not 0x0 From
如何在鼠标悬停时突出显示表格行

我有这张表 div class container table class table table bordered thead tr td a href Sushi Roll a td td a href a td tr thead ta
客户端应用程序中打开的 SqlConnections 与 SQL Server 中的进程之间有什么关系？

我只是尝试对 SQL Server 数据库中的表进行简单的架构更改通过使用 SMSS 中的设计工具每当我尝试保存更改时它总是超时我想知道这是否是由于现有的连接锁定了表作为一个实验我决定终止连接我查询 master sysp
在没有启动文件的 ASP.NET Core 库项目中，应将连接字符串放置在哪里？

我有 asp net core 库项目我想向其中添加连接字符串我没有这方面的入门课程我需要在哪里放置连接字符串以及如何获取它在 dotnet core 中您可以使用 json 文件管理配置这是配置应用程序的多种方式之一根据do
根据容器的内容添加类

我想根据 div 的文本内容添加一个类然而我目前遇到的问题是有多个容器因此同一个类被应用于所有容器我很确定这个问题的解决方法是实现 this 的正确使用也许还有一个循环遍历我正在寻找的类的每个元素但我不确定如何实现它我有三种类型
如何比较两个 CSV 文件并找出差异？

我有两个 CSV 文件 a1 csv city state link Aguila Arizona https www glendaleaz com planning documents AppendixAZONING pdf AkChin

如何比较两个 CSV 文件并找出差异？

如何比较两个 CSV 文件并找出差异？ 的相关文章

随机推荐

热门标签

如何比较两个 CSV 文件并找出差异？的相关文章