使用Python搜索具有各种编码的文本文件内容？

2024-01-13

打开文本文件以在文件内容中查找匹配项时，我遇到了可变文本编码的问题。

我正在编写一个脚本来扫描文件系统以查找具有特定内容的日志文件，以便将它们复制到存档中。名称经常发生变化，因此内容是识别它们的唯一方法。我需要识别 *.txt 文件并在其内容中找到这些特定日志文件所独有的字符串。

我有下面的代码，大部分都有效。问题是，如果打开和编辑日志，其编码可能会发生变化。在这种情况下，Python 不会将搜索词与内容相匹配，因为当 Python 使用错误的编码打开文件时，内容会出现乱码。

import os
import codecs

#Filepaths to search
FILEPATH = "SomeDrive:\\SomeDirs\\"

#Text to match in file names
MATCH_CONDITION = ".txt"

#Text to match in file contents
MATCH_CONTENT = "--------Base Data Details:--------------------"

for root, dirs, files in os.walk(FILEPATH):
    for f in files:
        if MATCH_CONDITION in f:
            print "Searching: "  + os.path.join(root,f)

            #ATTEMPT A -
            #matches only text file re-encoded as ANSI,
            #UTF-8, UTF-8 no BOM

            #search_file = open(os.path.join(root,f), 'r')

            #ATTEMPT B -
            #matches text files ouput from Trimble software
            #"UCS-2 LE w/o BOM", also "UCS-2 Little Endian" -
            #(same file resaved using Windows Notepad),

            search_file = codecs.open(os.path.join(root,f), 'r', 'utf_16_le')


            file_data = search_file.read()

            if MATCH_CONTENT in file_data:
                print "CONTENTS MATCHED: " + f

            search_file.close()

我可以在 Notepad ++ 中打开文件来检测编码。使用常规 file.open() Python 命令不会自动检测编码。我可以使用 codecs.open 并指定编码来捕获单个编码，但随后必须编写多余的代码来捕获其余的代码。我已阅读Python编解码器模块文档，它似乎没有任何自动检测。

我必须使用哪些选项来简洁而可靠地搜索任何编码的任何文本文件？

我读过有关chardet https://pypi.python.org/pypi/chardetmodule，这看起来不错，但我确实需要避免安装模块。无论如何，必须有一种更简单的方法来与古老而古老的文本文件进行交互。作为一个新手，我肯定把这件事搞得太复杂了，对吧？

Python 2.7.2、Windows 7 64 位。可能没有必要，但是.

EDIT:据我所知，这些文件几乎肯定会采用代码注释中的编码之一：ANSI、UTF-8、UTF_16_LE（如 UCS-2 LE w/o BOM；UCS-2 Little Endian）。总有可能有人找到突破我期望的方法......

EDIT:虽然使用外部库当然是合理的方法，但我有机会编写一些业余代码来猜测编码并在另一个问题中征求反馈->我使用 Python 检测文本文件编码的代码中存在陷阱吗？ https://stackoverflow.com/questions/18564337/pitfalls-in-my-code-for-detecting-text-file-encoding-with-python

The chardet包的存在是有原因的（出于类似的原因，从一些旧的 Netscape 代码移植而来）：检测任意文本文件的编码是很棘手的。

有两种基本选择：

使用一些硬编码规则来确定文件是否具有某种编码。例如，您可以在文件开头查找 UTF 字节顺序标记。对于在使用不同字节时显着重叠的编码，或者对于不恰好使用检测规则使用的“标记”字节的文件，这会中断。
获取已知编码的文件数据库，并计算每种编码中不同字节（以及字节对、三元组等）的分布。然后，当您有一个未知编码的文件时，对其字节进行采样，并查看哪种字节使用模式是最佳匹配。当您的测试文件很短（这使得频率估计不准确）时，或者当测试文件中字节的使用与用于构建频率数据的文件数据库中的使用不匹配时，这种情况就会中断。

notepad++ 可以进行字符检测（以及网络浏览器、文字处理程序等）的原因是这些程序都内置了这些方法中的一种或两种。 Python 并没有将其构建到其解释器中——它是一种通用编程语言，而不是文本编辑器——但这正是chardet包确实如此。

我想说，因为您了解有关正在处理的文本文件的一些信息，所以您可能可以采取一些快捷方式。例如，您的日志文件是否全部采用编码 A 或编码 B 之一？如果是这样，那么您的决定就会简单得多，而且您自己实施上述基于频率或基于规则的方法可能会非常简单。但如果您需要检测任意字符集，我强烈建议您站在巨人的肩膀上进行构建。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python搜索具有各种编码的文本文件内容？的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有

随机推荐

内存对比，哪个更快？

我有一个 3D 矢量类私有变量定义 union struct double x double y double z double data 3 在实现operator 时哪个更快 return this gt x v x this gt
模拟拖放文件以在 Protractor 中上传

我想通过将文件拖动到页面中的放置区域来测试文件上传但是我找不到模拟从桌面文件夹拖动文件的方法我设法找到的唯一方法是以下方法 desktop browser actions dragAndDrop elem target mouseUp
当 Vue 组件方法作为事件回调调用时，Sinon spies 如何将其注册为被调用？

我有一个方法叫做testfn在我的 vue 组件中每当事件发生时都会调用该组件testevt火灾此方法包含对 console log 的调用该日志清楚地显示正在调用该方法当使用vue test utils运行测试时如果我为该方法创
Haskell 运算符允许使用哪些字符？

是否有某个地方允许的字符的完整列表或者确定可以在标识符和运算符中使用什么的规则来自哈斯克尔报告 https www haskell org onlinereport lexemes html 这是允许的符号的语法 a b means a
Apache URL 重写 - 尝试掩盖文件夹名称

我有一个网站位于example com cmsFolder我想搬到example com newFolder 我无法手动移动它因为它完全破坏了这个愚蠢的 CMS 所以我正在尝试使用mod rewrite掩盖文件夹名称并保持美观 Rewri
Android Studio 2.3 在真实设备上启动应用程序时出错

将 Android Studio 更新到 2 3 后即时运行无法正常工作并且无法在真实设备上启动应用程序如果您运行的是带有 MIUI 的设备请转至开发者设置 gt 打开 MIUI 优化并将其关闭然后您需要重新启动设备并重新编译代码
如何通过 MIMEMultipart 发送电子邮件正文部分

我只是想知道 MIMEMultipart 中是否有任何属性我可以在其中传递我的电子邮件正文部分我唯一想到的部分是 msg MIMEMultipart msg From emailfrom msg To emailto msg Subje
使用 PARENT_SCOPE 设置的变量在相应的子作用域中为空。为什么？

考虑以下最小示例 bar CMakeLists txt CMakeLists txt where CMakeLists txt is project foo cmake minimum required VERSION 2 8 set FO
将 NetLogo 数据导出到带有节点和边的图形

我在 NetLogo 中创建了代理海龟之间的一些链接该链接将在每个时间步发生变化我的目标是将这些数据即海龟和它们之间的链接导出到带有顶点海龟边缘链接的图形这些数据可以作为 Gephi 的输入是否可以看到图中netlo
Google Chrome 从缓存加载图像比下载速度慢

我正在构建一个网络应用程序来浏览本地服务器上的大照片奇怪的是 Chrome从缓存加载图像花费了太多时间甚至比从本地服务器下载还要多每张照片大约 5Mb Chome 下载大约花费 200 毫秒但从缓存中花费大约 400 毫秒 Belo
混合defaultdict（dict和int）

我有 2 个示例列表我想要实现的是获得nested带有值总和的默认字典下面的代码效果很好 from collections import defaultdict l1 1 2 3 4 l2 5 6 7 8 dd defaultdict
如何发布到 Facebook 页面（如何获取页面访问令牌 + 用户访问令牌）

当我作为不同的 Facebook 用户不是页面管理员使用我的应用程序时我正在尝试弄清楚如何发布到 Facebook 页面墙我在测试时收到一系列错误消息异常 200 用户尚未授权应用程序执行此操作页面管理员已访问该应用程序并接受以
插入新行而不是更新当前行

您好我对下面的代码有疑问我正在做ajax 如果数据完全相同则不会插入记录但是如果文本区域中的文本发生更改它应该更新记录但会插入新行这是我的模型
函数参数最佳实践

我对函数参数的使用有疑问过去我总是编写代码将函数所需的所有信息作为参数传入 IE 不使用全局参数然而通过查看其他人的代码不带参数的函数似乎是常态我应该注意到这些是类的私有函数并且作为参数传入的值实际上是该类的私有成员变量这
有没有办法删除force_classic_login参数？

当我请求使用我的 IG 应用程序登录时它会自动向用户发送这个奇怪的登录信息并生成此 URL 我注意到如果我删除参数强制经典登录它带我去新品牌有人知道如何通过SDK控制它吗谢谢 None
更改节点后如何更新 XML 文件？ [复制]

这个问题在这里已经有答案了我正在使用 Node setTextContent 编辑节点但它不会更改文件中的任何内容如果我打印文本内容后它会显示为已更改但在程序关闭后它不会保留 for int y 0 y
text-indent: -9999px 是一种用图像替换文本的糟糕技术吗？有哪些替代方法？

本文 http luigimontanez com 2010 stop using text indent css trick 说我们应该避免使用这种技术 This one http aext net 2010 02 css text in
嵌套产生返回 IEnumerable> 并带有惰性求值

我写了一个LINQ扩展方法SplitBetween类似于String Split gt new List
使用 Twitter API - 如何使用不记名令牌获得参与端点的身份验证

我正在尝试为营销仪表板获取我公司推文的参与度数据我能够使用 Tweepy 进行身份验证以获取基本的 Twitter 源数据但参与端点给我带来了麻烦我是否有可能通过使用 Tweepy 进行身份验证然后使用不记名令牌进行身份验证从而搞
使用Python搜索具有各种编码的文本文件内容？

打开文本文件以在文件内容中查找匹配项时我遇到了可变文本编码的问题我正在编写一个脚本来扫描文件系统以查找具有特定内容的日志文件以便将它们复制到存档中名称经常发生变化因此内容是识别它们的唯一方法我需要识别 txt 文件并在其内容中找

使用Python搜索具有各种编码的文本文件内容？

使用Python搜索具有各种编码的文本文件内容？ 的相关文章

随机推荐

热门标签

使用Python搜索具有各种编码的文本文件内容？的相关文章