如何在Python中读取可以保存为ansi或unicode的文件？

2023-12-08

我必须编写一个脚本来支持读取可以保存为 Unicode 或 Ansi 的文件（使用 MS 的记事本）。

我的文件中没有任何编码格式的指示，如何支持这两种编码格式？（一种在不提前知道格式的情况下读取文件的通用方法）。

MS 记事本为用户提供了 4 种编码选择，用笨拙且令人困惑的术语表示：

“Unicode”是UTF-16，以little-endian 书写。 “Unicode big endian”是UTF-16，写作big-endian。在这两种 UTF-16 情况下，这意味着将写入适当的 BOM。使用utf-16解码这样的文件。

“UTF-8”是UTF-8；记事本明确写入“UTF-8 BOM”。使用utf-8-sig解码这样的文件。

“ANSI”令人震惊。这是 MS 术语，意思是“此计算机上的默认旧编码是什么”。

以下是我所知道的 Windows 编码及其所使用的语言/脚本的列表：

cp874  Thai
cp932  Japanese 
cp936  Unified Chinese (P.R. China, Singapore)
cp949  Korean 
cp950  Traditional Chinese (Taiwan, Hong Kong, Macao(?))
cp1250 Central and Eastern Europe 
cp1251 Cyrillic ( Belarusian, Bulgarian, Macedonian, Russian, Serbian, Ukrainian)
cp1252 Western European languages
cp1253 Greek 
cp1254 Turkish 
cp1255 Hebrew 
cp1256 Arabic script
cp1257 Baltic languages 
cp1258 Vietnamese
cp???? languages/scripts of India

如果该文件是在正在读取该文件的计算机上创建的，那么您可以通过以下方式获取“ANSI”编码：locale.getpreferredencoding()。否则，如果您知道它来自哪里，则可以指定要使用的编码（如果它不是 UTF-16）。如果失败的话，猜猜。

小心使用codecs.open()在 Windows 上读取文件。文档说：“”“注意即使未指定二进制模式，文件也始终以二进制模式打开。这样做是为了避免由于使用 8 位值编码而导致数据丢失。这意味着在读取和写入时不会自动转换 '\n'。""" 这意味着您的行将以\r\n你需要/想要把它们脱掉。

把它们放在一起：

使用所有 4 种编码选项保存的示例文本文件在记事本中如下所示：

The quick brown fox jumped over the lazy dogs.
àáâãäå

这是一些演示代码：

import locale

def guess_notepad_encoding(filepath, default_ansi_encoding=None):
    with open(filepath, 'rb') as f:
        data = f.read(3)
    if data[:2] in ('\xff\xfe', '\xfe\xff'):
        return 'utf-16'
    if data == u''.encode('utf-8-sig'):
        return 'utf-8-sig'
    # presumably "ANSI"
    return default_ansi_encoding or locale.getpreferredencoding()

if __name__ == "__main__":
    import sys, glob, codecs
    defenc = sys.argv[1]
    for fpath in glob.glob(sys.argv[2]):
        print
        print (fpath, defenc)
        with open(fpath, 'rb') as f:
            print "raw:", repr(f.read())
        enc = guess_notepad_encoding(fpath, defenc)
        print "guessed encoding:", enc
        with codecs.open(fpath, 'r', enc) as f:
            for lino, line in enumerate(f, 1):
                print lino, repr(line)
                print lino, repr(line.rstrip('\r\n'))

这是使用命令在 Windows“命令提示符”窗口中运行时的输出\python27\python read_notepad.py "" t1-*.txt

('t1-ansi.txt', '')
raw: 'The quick brown fox jumped over the lazy dogs.\r\n\xe0\xe1\xe2\xe3\xe4\xe5
\r\n'
guessed encoding: cp1252
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-u8.txt', '')
raw: '\xef\xbb\xbfThe quick brown fox jumped over the lazy dogs.\r\n\xc3\xa0\xc3
\xa1\xc3\xa2\xc3\xa3\xc3\xa4\xc3\xa5\r\n'
guessed encoding: utf-8-sig
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-uc.txt', '')
raw: '\xff\xfeT\x00h\x00e\x00 \x00q\x00u\x00i\x00c\x00k\x00 \x00b\x00r\x00o\x00w
\x00n\x00 \x00f\x00o\x00x\x00 \x00j\x00u\x00m\x00p\x00e\x00d\x00 \x00o\x00v\x00e
\x00r\x00 \x00t\x00h\x00e\x00 \x00l\x00a\x00z\x00y\x00 \x00d\x00o\x00g\x00s\x00.
\x00\r\x00\n\x00\xe0\x00\xe1\x00\xe2\x00\xe3\x00\xe4\x00\xe5\x00\r\x00\n\x00'
guessed encoding: utf-16
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-ucb.txt', '')
raw: '\xfe\xff\x00T\x00h\x00e\x00 \x00q\x00u\x00i\x00c\x00k\x00 \x00b\x00r\x00o\
x00w\x00n\x00 \x00f\x00o\x00x\x00 \x00j\x00u\x00m\x00p\x00e\x00d\x00 \x00o\x00v\
x00e\x00r\x00 \x00t\x00h\x00e\x00 \x00l\x00a\x00z\x00y\x00 \x00d\x00o\x00g\x00s\
x00.\x00\r\x00\n\x00\xe0\x00\xe1\x00\xe2\x00\xe3\x00\xe4\x00\xe5\x00\r\x00\n'
guessed encoding: utf-16
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

需要注意的事项：

(1) “mbcs”是一种文件系统伪编码，与解码完全无关contents文件数量。在默认编码为的系统上cp1252，它就像latin1（啊啊啊！！）；见下文

>>> all_bytes = "".join(map(chr, range(256)))
>>> u1 = all_bytes.decode('cp1252', 'replace')
>>> u2 = all_bytes.decode('mbcs', 'replace')
>>> u1 == u2
False
>>> [(i, u1[i], u2[i]) for i in xrange(256) if u1[i] != u2[i]]
[(129, u'\ufffd', u'\x81'), (141, u'\ufffd', u'\x8d'), (143, u'\ufffd', u'\x8f')
, (144, u'\ufffd', u'\x90'), (157, u'\ufffd', u'\x9d')]
>>>

(2) chardet非常擅长检测基于非拉丁文字（中文/日文/韩文、西里尔文、希伯来文、希腊文）的编码，但不太擅长检测基于拉丁文的编码（西欧/中欧/东欧、土耳其语、越南语）并且不擅长完全不懂阿拉伯语。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中读取可以保存为ansi或unicode的文件？的相关文章

CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
CSV 从 UTF8 到 ISO-8859-1

我正在尝试修改我的 CSV 导出但它不会将我的 CSV 从 UTF 8 转换保存为 ISO 8859 1 请问我做错了什么吗实际上自从修改了这个之后我得到了一个空的 CSV 文件 php 7 0 x function my Gene
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done

随机推荐

登录失败：用户名未知或密码错误。访问其他服务器时出错

我正在使用登录凭据访问其他服务器我的问题是如果我最初运行代码它会将错误显示为 Logon failure unknown user name or bad password 但是如果我尝试通过命令提示符连接到服务器一次后运行代码然后
JavaScript 按位掩码

这个问题类似于这另一个问题但是我想了解为什么会这样下面的代码 console log parseInt 0xdeadbeef 16 parseInt 0x000000ff 16 toString 16 console log pars
Python 3.7.3 无意中安装在 Mac OS 10.15.1 上 - 现在包含在 Xcode Developer Tools 11.2 中？

我昨天决定对 Mac 操作系统进行全新安装例如擦除整个磁盘并重新安装操作系统我使用的是 Macbook Air 2018 我全新安装了 Mac OS 10 15 1 由于我之前的 Python 环境非常混乱所以我进行了全新安装我希
python 中的批量字符串替换？

假设我有一个如下所示的字符串 str The yquick cbrown bfox Yjumps over the ulazy dog 您会注意到字符串中的很多位置都有一个符号后跟一个字符例如 y 和 c 我需要用字典中的适当值替换这
json.org 上使用的生成铁路图的工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我喜欢的语法铁路图 on json org这是 BNF 语言的图形表示我还没有找到任何工具可以产生如此雄辩的结果任何人都可以识别用于生成这些图表
Chrome 不会删除会话 cookie

我正在尝试在 javascript 中设置会话 cookie 如下所示 document cookie name alex path 但即使我退出浏览器并再次启动 Chrome 也不会删除它我检查了 Firefox 和 Opera 它们都
Django 1.2 会话丢失

我以前问过类似的问题但我做了更多研究这次迭代应该有点不同似乎有几个 SO 用户在单个视图中注册和登录用户时遇到了问题但还没有真正得到解决问题是我在单个 Django 视图中注册验证和登录用户对于大多数用户来说这很好但对于其他
如何调试涉及 Classes.pas 中 ThreadProc 崩溃的设计时包卸载崩溃？

我不确定如何追踪以下崩溃当卸载我公司内部使用的设计时包时会发生这种情况这是我们的代码因此这是我们要修复的错误而不是第三方组件供应商的问题似乎涉及到一个线程但由于它发生在 Classes pas 中的 Function Threa
使用 pyodbc 在 Access 中处理日期时出现“参数太少”错误

我正在使用带有 pyodbc 导入的 Python 我使用的是 Microsoft Office 2013 64 位我正在尝试查询 accdb 数据库以选择范围内的不同日期并将它们分配给游标以便我可以将它们附加到列表中我的 Acces
正则表达式从字符捕获到第一个句点

我的正则表达式字符串看起来像您的订单 Q 111 111 1111 账单金额为 100 50 美元如何提取订单号即和第一个之间的字符串 Q 111 111 1111 我试过了但它正在捕获最后一个点字符我确信我需要使用非贪婪匹
Linux 是否对页目录和页表使用自映射？

我只是问这个问题因为我很好奇 Linux 内核是如何工作的根据http i web i u tokyo ac jp edu training ss lecture new documents Lectures 02 VirtualMem
是/否消息框始终返回是 - VB.Net

我正在尝试消息框并尝试了一个简单的是否消息框所以我写了这段简单的代码但是无论我按下哪个按钮 chc 变量始终返回为 1 我提供了代码所以你可能会看到我做错了什么这可能是严重错误的 If MsgBoxResult Yes The
将多个类绑定到单个变量

在使用 Tailwind 和实用程序优先的 css 方法时我经常发现需要将多个类绑定到单个变量例如要设置输入表单的样式我需要添加border red color red等如果有错误在 Vue 中是否有一种漂亮而优雅的方式来表达这
仅使用 javascript 在服务器上读取/写入 txt 文件，而不涉及任何服务器端语言

我正在开发一个简单的 HTML Javascript 应用程序该应用程序在文本区域中向用户显示一条随机文本消息我有15 20条这样的短信最多500个字符我不想将这些消息保存在数据库中我有两种情况我每条消息都有多个 txt 文件
每当声明停止请求时，HasAnyAuthority 总是让我进入 api

通过 Spring Security 我创建了一个方法 Configuration EnableWebSecurity EnableGlobalMethodSecurity securedEnabled true public class
使用 cmake 从 llvm 源目录开发 llvm 通道

我正在尝试在我的项目目录下开发 llvm pass 为此我遵循中的信息http llvm org docs CMake html developing llvm pass out of source 我按照此链接适当地创建了我的 CMak
RegEx 在 Javascript 中获取字符串后的 URL 部分

我有以下网址 http data test com api v1 entity 1231 我需要获取后面的文本v1 和之前斜线之间在本例中为单词entity 我正在使用以下正则表达式但我得到的是entity 1231第 1 组 v1
Java 1.5 中的 JTable 对行进行排序

有没有一种简单的方法可以使用 Java 1 5 对 JTable 中的行进行排序 setAutoCreateRowSorter and TableRowSorter似乎是 Java 1 6 功能 Java 1 5 中的排序只能通过库实现例
在 Objective-C 中替换字符串中的坏词

我有一个带有公共高分列表的游戏我允许图层输入他们的名称或任何最多 12 个字符的名称我正在尝试创建几个函数来从坏词列表中过滤掉坏词我有一个文本文件我有两种方法读取文本文件之一 void getTheBadWordsAndSave
如何在Python中读取可以保存为ansi或unicode的文件？

我必须编写一个脚本来支持读取可以保存为 Unicode 或 Ansi 的文件使用 MS 的记事本我的文件中没有任何编码格式的指示如何支持这两种编码格式一种在不提前知道格式的情况下读取文件的通用方法 MS 记事本为用户提供了 4 种编

如何在Python中读取可以保存为ansi或unicode的文件？

如何在Python中读取可以保存为ansi或unicode的文件？ 的相关文章

随机推荐

热门标签

如何在Python中读取可以保存为ansi或unicode的文件？的相关文章