在python中查看两个文件是否具有相同的内容[重复]

2023-12-15

可能的重复：
查找重复文件并删除它们。
在Python中，有没有一种简洁的方法来比较两个文本文件的内容是否相同？

在 Python 中查看两个文件内容是否相同的最简单方法是什么。

我能做的一件事就是对每个文件进行 md5 并进行比较。有没有更好的办法？

是的，如果您必须比较多个文件并存储哈希值以供以后比较，我认为对文件进行哈希处理将是最好的方法。由于哈希可能会发生冲突，因此可以根据用例进行逐字节比较。

一般来说，逐字节比较就足够且有效了，这filecmp模块已经做了+其他事情。

See http://docs.python.org/library/filecmp.html e.g.

>>> import filecmp
>>> filecmp.cmp('file1.txt', 'file1.txt')
True
>>> filecmp.cmp('file1.txt', 'file2.txt')
False

请注意，默认情况下，filecmp不比较文件的内容，为此，添加第三个参数shallow=False.

速度考虑：通常，如果只需要比较两个文件，那么如果高效地完成，则对它们进行散列并比较它们会比简单的逐字节比较更慢。例如下面的代码尝试对哈希值与逐字节进行计时

免责声明：这不是计时或比较两种算法的最佳方式。并且需要改进，但它确实给出了粗略的想法。如果您认为应该改进，请告诉我，我会更改它。

import random
import string
import hashlib
import time

def getRandText(N):
    return  "".join([random.choice(string.printable) for i in xrange(N)])

N=1000000
randText1 = getRandText(N)
randText2 = getRandText(N)

def cmpHash(text1, text2):
    hash1 = hashlib.md5()
    hash1.update(text1)
    hash1 = hash1.hexdigest()
    
    hash2 = hashlib.md5()
    hash2.update(text2)
    hash2 = hash2.hexdigest()
    
    return  hash1 == hash2

def cmpByteByByte(text1, text2):
    return text1 == text2

for cmpFunc in (cmpHash, cmpByteByByte):
    st = time.time()
    for i in range(10):
        cmpFunc(randText1, randText2)
    print cmpFunc.func_name,time.time()-st

输出是

cmpHash 0.234999895096
cmpByteByByte 0.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

file

在python中查看两个文件是否具有相同的内容[重复] 的相关文章

如何获取 Pandas df.merge() 不匹配的列名称

给出以下数据 data df pd DataFrame Reference A A A B C C D E Value1 U U U V W W X Y Value2 u u u v w w x y index 1 2 3 4 5 6 7
创建一个支持 json 序列化的类以与 Celery 一起使用

我正在使用 Celery 来运行一些后台任务其中一项任务返回我创建的 python 类考虑到有关使用 pickle 的警告我想使用 json 来序列化和反序列化此类有没有一种简单的内置方法可以实现这一目标该类非常简单它包含 3
使用 selenium 和 python 在网页网格中抓取 javascript 数据

我的问题是我需要包含网站子域的网格中的所有数据https applipedia paloaltonetworks com https applipedia paloaltonetworks com 包含名称类别子类别风险技术的数据
Ruby 相当于 Python 的多处理模块是什么？

为了在 Ruby 或 Python 中获得真正的并发性我需要创建新的进程 Python 使用以下命令使这变得非常简单multiprocessing模块它抽象了所有 fork wait 的好处让我专注于我的代码 Ruby 有类似的东西吗
使用 setuptools (pip) 时如何打印警告和错误

我正在使用 setuptools 来打包代码以便可以使用以下命令轻松安装它 cd project name pip install 在设置过程中我想警告用户有关预先存在的配置文件的信息并在系统上打印一些安装后说明例如 etc pro
获取父类名？ [复制]

这个问题在这里已经有答案了 class A object def get class self return self class class B A def init self A init self b B print b get cl
使用 cx_oracle 返回 MERGE 中受影响的行数

如何在 CX Oracle 中执行 MERGE INTO sql 命令来获取受影响的行数当我在cx oracle 上执行MERGE SQL 时我得到的cursor rowcount 为 1 有没有办法获取受合并影响的行数由于 cx o
python 函数 *args 和 **kwargs 以及其他指定的关键字参数

我有一个 Python 类它的方法应该以这种方式接受参数和关键字参数 class plot def init self x y self x x self y y def set axis self args xlabel x ylabe
如果每个元组中的第二项重复，如何从元组列表中删除元素？

如果每个元组中的第二项重复如何从元组列表中删除元素例如我有一个按第一个元素排序的列表如下所示 alist 0 7897897 this is a foo bar sentence 0 653234 this is a foo bar
使用 pytherejs 嵌入小部件：错误的视角和相机观察

我在用pythreejs可视化一些 3D 模型在 Jupyter 笔记本上可视化模型时一切都按预期进行但是当尝试将小部件嵌入 HTML 文档时我面临两个问题看起来相机在加载时正在查看 0 0 0 而不是预期的那样一旦您与小部件交
为什么我的字符串中出现不需要的换行符？

这应该很简单这很愚蠢但我无法让它发挥作用我有一个在读取文件时定义的标头 if gene env in line or gene HIV2gp7 in line header line 现在这个标题看起来像 gt lcl NC 0018
将列表列表替换为“压缩”列表列表，同时保持顺序

我有一个列表列表如我所附的代码所示如果有任何共同值我想链接每个子列表然后我想用列表的精简列表替换列表的列表例子如果我有一个清单 1 2 3 3 4 I want 1 2 3 4 如果我有 4 3 1 2 3 I want 4 3
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
折叠 numpy 数组除前两个维度之外的所有维度

我有一个可变维度的 numpy 数组例如它可以具有以下形状 64 64 64 64 2 5 64 64 40 64 64 10 20 4 我想要做的是如果维数大于 3 我想将其他所有内容折叠堆叠到第三维中同时保留顺序因此在我上面
Spacy-nightly (spacy 2.0) 问题“thinc.extra.MaxViolation 大小错误”

显然成功安装了 spacy nightly spacy nightly 2 0 0a14 和英语模型 en core web sm 后我在尝试运行它时仍然收到错误消息 import spacy nlp spacy load en core
合并共享属性的节点

EDITED 我真的需要 Networkx graph 专家的帮助假设我有以下数据框我想将这些数据框转换为图表然后我想根据描述和优先级属性将两个图映射到相应的节点 df1 From description To priority 10
获取 Flask 中没有端口的请求主机名

我刚刚设法使用 Flask 获取我的应用程序服务器主机名request host and request url root 但这两个字段都返回请求主机名及其端口我想使用仅返回请求主机名的字段方法而无需进行字符串替换如果有没有 We
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

为什么我的方法会陷入无限递归？

我编写了一种方法来帮助构建四叉树每个四叉树都有一个根节点一个根节点有4个子节点我使用深度递归来阻止该函数划分太多次传入的深度等于正方形边长以 2 为底的对数始终传入正方形然而我从中得到了无限递归有人明白为什么吗当我运行它时
根据查询结果设置用户变量

是否可以根据 MySQL 中的查询结果设置用户变量我想要实现的是这样的我们可以假设两者USER and GROUP是独一无二的 set user 123456 set group select GROUP from USER where
如何动态改变背景颜色的资源？

我有以下控制我想更改某些事件触发器的背景颜色我想做这个clrGray资源作为某些事件点击的颜色我已经尝试过以下方法但没有成功 XAM
单击项目 RecyclerView 时不显示 toast

好吧我知道可能已经有人问过这个问题了我已经为我的问题找到了可能的解决方案这个链接但是由于未知的原因该解决方案对我不起作用我想显示一个Toast当一个项目 aCardView 在 a 内单击RecyclerView This T
如何实现 Functor[数据集]

我正在努力研究如何创建一个实例Functor Dataset 问题是当你map from A to B the Encoder B 必须在隐式范围内但我不知道该怎么做 implicit val datasetFunctor Functor
使用 php 从通过 ajax 发送的 dataURI 生成 png 文件

我有一个 svg 文件它生成 dataURI png 并且效果很好我希望将该 dataURI 保存为图像因此我尝试通过 ajax 将 dataURI 发送到另一个可以执行 PHP 的服务器但我无法让它发挥作用这是生成 dataUR
Xamarin Form - 如何在 UWP 中存储 PDF 或 JPEG 格式的图像

大家好我正在开发 DMS 应用程序用户可以通过扫描仪扫描文档或图像并上传到服务器为了扫描目的我参考了这个link它工作完美现在的问题是 ImageScanner ScanFilesToFolderAsync ImageScanne
格式化和显示
时出现问题

我对编码还很陌生所以请耐心等待我已经读到不同的浏览器以不同的方式显示水平规则我似乎无法在 Firefox 或 Chrome 中得到正确的结果到目前为止我只检查过两个这是我的 hr 在 Firefox 中的样子 http posti
CSS 获取没有类的最后一个孩子

这对你们来说是一个棘手的挑战 CSS 选择器要获取 last child那个没有类到目前为止我已经尝试过 nav item not nav item mobile last child nav item last child not na
当前 = 当前 * 10 + (c - '0');

我试图通过这段代码读取未知数量的整数 while 1 int c getchar if c EOF break else if isdigit c current current 10 c 0 else total current curr
压缩而不创建父文件夹

我有一个这样的文件夹结构 project folder 01 file1 cpp file2 cpp folder 02 file1 cpp file2 cpp 我想以我得到的方式当我解压时压缩项目文件夹的内容 folder 01 fi
Java 中的 switch case 逻辑表达式语句 - 与 JS 或 PHP

在 JavaScript 中我也在 PHP 中看到过您可以在案例中使用逻辑表达式例如 switch true case d lt 10 document write Less than 10 break case d 10 docum
C# 模块预计包含程序集清单

大家好我是 C 世界的新手我必须使用它因为依赖于来自多播源的 xceedzip dll 压缩数据在编写了一些用于接收提要的代码后我在调用此 dll 时遇到了障碍据我了解我需要使用 System Reflection 并调用 d
使用 Gradle 中的构建类型在一台设备上运行使用 ContentProvider 的同一应用程序

我已经设置 Gradle 将包名称后缀添加到我的调试应用程序中这样我就可以在一部手机上拥有我正在使用的发布版本和调试版本我引用的是这个 http tools android com tech docs new build system
读取压缩在一个文件中的多个 csv 文件

我在文件夹中的几个 zip 文件中有几个 csv 文件例如 A zip 包含 csv1 csv2 csv3 B zip 包含 csv4 csv5 csv6 位于文件夹路径中C Folder 当我在文件夹中加载普通 csv 文件时我使用以
为什么没有一篇没有控制台杂耍的概念性 Git 文章？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我已经在 google 上搜索了大约 10 次或更多次但找不到任何关于 rebase stash reflow 子模块 reflog 等的详细解释我想要图画数字隐喻只想要概
使用 GCC 8.2.0 从 uint32_t 构造的 std::variant 更喜欢保存 int32_t 而不是 std::Optional

我有以下代码 include
如何在 Android 中获取 Google+ 好友

Through 这个例子我能够将 Google 与 android 集成并获取我的信息例如用户 ID 网址个人资料名称和个人资料图片我还想获取我所有朋友的列表并显示它我该如何做到这一点以及哪个类有用这可以使用 google plu
是否可以根据 URL 同时为同一个 Web 应用程序提供单向和双向 ssl

我有一个场景我几乎没有其余的 Web 服务其中很少需要强制执行相互 ssl 而很少应该只有单向 ssl 这里是相同的 Web 应用程序这在基于 tomcat Spring 的应用程序中可能吗抱歉回复晚了是的我这样做了不确定是否
在python中查看两个文件是否具有相同的内容[重复]

这个问题在这里已经有答案了可能的重复查找重复文件并删除它们在Python中有没有一种简洁的方法来比较两个文本文件的内容是否相同在 Python 中查看两个文件内容是否相同的最简单方法是什么我能做的一件事就是对每个文件进行 md5

在python中查看两个文件是否具有相同的内容[重复]

在python中查看两个文件是否具有相同的内容[重复] 的相关文章

随机推荐

热门标签