比较 2 个单独的 csv 文件并将差异写入新的 csv 文件 - Python 2.7

2024-04-15

我正在尝试比较 python 中的两个 csv 文件，并将差异保存到 python 2.7 中的第三个 csv 文件中。

import csv

f1 = open ("olddata/file1.csv")
oldFile1 = csv.reader(f1)
oldList1 = []
for row in oldFile1:
    oldList1.append(row)

f2 = open ("newdata/file2.csv")
oldFile2 = csv.reader(f2)
oldList2 = []
for row in oldFile2:
    oldList2.append(row)

f1.close()
f2.close()

set1 = tuple(oldList1)
set2 = tuple(oldList2)

print oldList2.difference(oldList1)

我收到错误消息：

Traceback (most recent call last):
  File "compare.py", line 21, in <module>
    print oldList2.difference(oldList1)
AttributeError: 'list' object has no attribute 'difference'

我对 python 和一般编码很陌生，而且我还没有完成这段代码（我必须确保将差异存储到变量并将差异写入新的 csv 文件。）。我一整天都在试图解决这个问题，但我就是做不到。我们将非常感谢您的帮助。

你说的差异是什么意思？这个问题的答案给了你两种不同的可能性。

如果一行被认为是相同的所有列都是一样的，那么你可以通过下面的代码得到答案：

import csv

f1 = open ("olddata/file1.csv")
oldFile1 = csv.reader(f1)
oldList1 = []
for row in oldFile1:
    oldList1.append(row)

f2 = open ("newdata/file2.csv")
oldFile2 = csv.reader(f2)
oldList2 = []
for row in oldFile2:
    oldList2.append(row)

f1.close()
f2.close()

print [row for row in oldList1 if row not in oldList2]

但是，如果两行相同某些关键字段（即列）是一样的，那么下面的代码会给你答案：

import csv

f1 = open ("olddata/file1.csv")
oldFile1 = csv.reader(f1)
oldList1 = []
for row in oldFile1:
    oldList1.append(row)

f2 = open ("newdata/file2.csv")
oldFile2 = csv.reader(f2)
oldList2 = []
for row in oldFile2:
    oldList2.append(row)

f1.close()
f2.close()

keyfield = 0 # Change this for choosing the column number

oldList2keys = [row[keyfield] for row in oldList2]
print [row for row in oldList1 if row[keyfield] not in oldList2keys]

Note:对于非常大的文件，上述代码可能运行缓慢。相反，如果您希望通过散列来加速代码，您可以使用set转换后oldList使用以下代码：

set1 = set(tuple(row) for row in oldList1)
set2 = set(tuple(row) for row in oldList2)

之后，您可以使用set1.difference(set2)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

csv

Compare

比较 2 个单独的 csv 文件并将差异写入新的 csv 文件 - Python 2.7 的相关文章

xlrd 读取 xls XLRDError：不支持的格式或损坏的文件：预期的 BOF 记录；找到“\r\n”

这是代码 xls open workbook data xls 作为回报 File home woles P2 fin fin apps data container importer py line 16 in import data x
如何使 Django ManyToMany “直通”查询更加高效？

我使用的是 ManyToManyField 和 through 类这会在获取事物列表时产生大量查询我想知道是否有更有效的方法例如这里有一些描述书籍及其几位作者的简化类它们通过角色类定义编辑器插画家等角色 class Per
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
如何使用 boto3 从 AWS Cognito 获取经过身份验证的身份响应

我想使用 boto3 获取访问 AWS 服务的临时凭证用例是这样的我的 Cognito 用户池中的用户登录到我的服务器我希望服务器代码为该用户提供访问其他 AWS 服务的临时凭证我有一个存储我的用户的 Cognito 用户池我有一
覆盖现有的 django-admin 命令

除了编写自定义 django admin 命令之外这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令例如ma
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
Python：使用for循环更改变量后缀

我知道这个问题被问了很多但到目前为止我无法使用理解答案我想改变for循环中变量的后缀我尝试了 stackoverflow 搜索提供的所有答案但很难理解提问者经常提出的具体代码因此为了清楚起见我使用一个简单的示例这并不意味着
Nodejs 中的 tail-stream 模块不打印文件的最后一条记录

我正在使用 tail stream 从 csv 文件获取数据并将每个 csv 记录转换为 json 格式并打印它但是尾流不会打印文件的最后一行而是将其保留为缓冲区如果我更新文件则从上一个最后一行缓冲的最后一行到更新的最后一行
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
Python 可以替代 Java 小程序吗？

除了制作用于物理模拟如抛射运动重力等的教育性 Java 小程序之外还有其他选择吗如果你想让它在浏览器中运行你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave

随机推荐

两个非常相似的集合之一上的“‘dimnames’[2] 的长度不等于数组范围”

我在两个数据框中收集了数据vols and flow 后者可以转换为矩阵但第一个不能 as matrix vols Error in colnames lt tmp value c CanovesSamalus Llinars lengt
PHPExcel 一起单元格包含相同的数据问题

当我使用 PHPExcel 类读取 ods 文件 xls 和 xlsx 都可以并且两个单元格在一起并包含相同的数据时第二个单元格变为空白这是一个错误吗这是我的代码
解压...缺少参数

我正在编写一个接受可变数量参数的函数此外我希望用户能够将其中一些参数保留为缺失只考虑转动的任务到参数列表中这是我的第一次尝试 f lt function list 这失败了 f 1 2 Error in f 1 2 argumen
RSpec 和 ActiveModel

我有一个模块它包含 activemodel 我想使用 rspec 测试它这是我到目前为止的设置 lib my module base rb my module rb spec my module spec rb spec helper
从链接到 Oracle 的 SQL Server 编写 SQL 查询时如何指定日期文字？

我有一个链接到 Oracle 12 1 数据库的 SQL Server 12 0 数据库我想在 SQL Server 数据库中创建一个视图该视图返回按日期筛选的 Oracle 表中的数据 Oracle 表在日期列上有一个索引成功运行的
jQuery Uncaught TypeError：无法读取未定义的属性“fn”（匿名函数）

全部我下载的一些代码出现错误这是代码 wl Alert v 1 1 description Handles alert boxes dependency jquery UI Slider fadeOutSlide plugin fn w
Java - 如何使用类文件？

我是 Java 新手想知道如何将类文件导入 netbeans 并使用它我知道类文件是机器可读的字节代码但我不关心幕后发生了什么我只想将其导入到我当前的项目中并让它识别它以便我可以使用该类此外类文件嵌入在 JAR 文件中我将
右对齐文本？

我试图举一个例子来试验不同的对齐方式作为演示左对齐居中右对齐对齐和中左对齐文本都很容易如我的演示所示你可以看这个例子here http jsbin com avuzuf 1 edit在 JSBin 上如何获得右对齐的文本而不弄
在骨干模型上声明变量而不设置默认值

我刚刚开始使用backbone js 我正在寻找一种在模型上声明字段而无需提供默认值的方法它实际上仅供参考以便当我开始创建实例时我可以看到需要初始化哪些字段用java之类的东西我会写 public class CartLine St
Doctrine OneToMany 关系错误

我试图通过 Symfony2 2 3 0 使用 Doctrine 2 2 3 在数据库中的对象上建立一些 ManyToOne OneToMany 关系但出现了一个奇怪的错误以下是对象的相关部分一种产品的许多属性 Product ORM
mongoengine - 忽略架构验证的额外字段

我正在尝试查询我的数据库目前某些记录具有未包含在我的模型架构中的额外字段由于错误但我想处理这些情况当我尝试查询数据库并将记录转换为模式时出现以下错误 FieldDoesNotExist The field X does not
从旧的 Git 提交中删除私有信息

我有一个使用 Git 进行版本控制的项目我想将其开源但其中包含一些特定于其最初使用环境的私人信息我将更改相关信息以从未包含在存储库中的配置文件加载我意识到我应该首先这样做但由于私人信息仍然存在于之前的提交中我该如何将其从我的历史
如何使用服务更改作用域变量？

我有一个应用程序应用程序内部有一个注册和登录表单通过注册表单当用户创建帐户时他们会自动登录通过登录表单用户也可以登录显然我有两个控制器一个用于注册表单一个用于登录表单我希望他们能够共享一个服务 logIn 因为两种形式
基于 Spring Boot AMQP 的 JmsListener 在 TextMessage 上失败

我有一个 Spring Boot 应用程序在检索类型的 JMS 消息时遇到问题TextMessage来自 ActiveMQ 代理如果消费者尝试从代理检索消息它无法自动将消息转换为 TextMessage 而是将其视为 ByteMess
如何从 json 字符串获取对象列表 c# Newtonsoft.json

我正在尝试将 JSON 字符串转换为对象列表但收到错误无法将当前 JSON 对象反序列化为 List 类型因为该类型需要 JSON 数组才能正确反序列化我检索 json 它看起来像这样 Code 0 Message OK Data
Internet Explorer 开发人员工具如何保留导航日志？

我正在寻找在 Internet Explorer 开发人员控制台中记录内容以保留页面刷新的方法在 Google Chrome 和 Firefox 的 Firebug 下这是一个选项但我在 IE 下找不到它我用的是IE 9 在 IE
防止运行测试时优化掉未使用的静态函数

我正在编写一个将利用 LLVM 的库通过inkwell https github com TheDan64 inkwell 来 JIT 编译一些函数这些函数需要能够回调我的代码中的一些 Rust 函数我让它工作但我的单元测试不起作用
使用一个 AJAX 响应更新两个 div

全部我正在使用 jQuery AJAX 调用一个文件来基本上保存某人是否喜欢某首歌我正在尝试做类似以下的事情 var html ajax type POST url save song php data song id song id
R：在数据框中插入多行（可变数量）

我有一个数据框例如 5 行用于 2 个可观察值我需要在数据框中插入虚拟或零行以便每个可观察的行数相同并且可以大于 N 行以获得更长的行数例如 This is what I have x c a a b b b y c
比较 2 个单独的 csv 文件并将差异写入新的 csv 文件 - Python 2.7

我正在尝试比较 python 中的两个 csv 文件并将差异保存到 python 2 7 中的第三个 csv 文件中 import csv f1 open olddata file1 csv oldFile1 csv reader f1

比较 2 个单独的 csv 文件并将差异写入新的 csv 文件 - Python 2.7

比较 2 个单独的 csv 文件并将差异写入新的 csv 文件 - Python 2.7 的相关文章

随机推荐

热门标签