Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？

2023-12-30

我必须将文本文件读入Python。文件编码为：

file -bi test.csv 
text/plain; charset=us-ascii

这是第三方文件，我每天都会收到一个新文件，所以我宁愿不更改它。该文件包含非 ascii 字符，例如 Ö。我需要使用 python 读取这些行，并且我可以忽略具有非 ASCII 字符的行。

我的问题是，当我在 Python 中读取文件时，当到达存在非 ascii 字符的行时，我会收到 UnicodeDecodeError 错误，并且无法读取文件的其余部分。

有没有办法避免这种情况。如果我尝试这个：

fileHandle = codecs.open("test.csv", encoding='utf-8');
try:
    for line in companiesFile:
        print(line, end="");
except UnicodeDecodeError:
    pass;

然后，当出现错误时，for 循环结束，我无法读取文件的其余部分。我想跳过导致错误的行并继续。如果可能的话，我宁愿不对输入文件进行任何更改。

有什么办法可以做到这一点吗？非常感谢。

您的文件似乎没有使用 UTF-8 编码。打开文件时使用正确的编解码器非常重要。

You can tell open() https://docs.python.org/3/library/functions.html#open如何处理解码错误，用errors关键词：

errors是一个可选字符串，指定如何处理编码和解码错误 - 这不能在二进制模式下使用。有多种标准错误处理程序可用，尽管已注册的任何错误处理名称codecs.register_error()也是有效的。标准名称是：

'strict'提出一个ValueError如果存在编码错误则异常。默认值为None具有相同的效果。

'ignore'忽略错误。请注意，忽略编码错误可能会导致数据丢失。

'replace'导致在存在格式错误的数据的地方插入替换标记（例如“？”）。

'surrogateescape'会将任何不正确的字节表示为 Unicode 专用使用区域中从 U+DC80 到 U+DCFF 的代码点。然后，当surrogateescape写入数据时使用错误处理程序。这对于处理未知编码的文件很有用。

'xmlcharrefreplace'仅在写入文件时受支持。编码不支持的字符将替换为适当的 XML 字符引用&#nnn;.

'backslashreplace'（也仅在写入时支持）用 Python 反斜杠转义序列替换不支持的字符。

使用除以下以外的任何其他方式打开文件'strict' ('ignore', 'replace'等）然后将让您读取该文件而不会引发异常。

请注意，解码是按缓冲的数据块进行的，而不是按文本行进行。如果必须逐行检测错误，请使用surrogateescape处理程序并测试代理范围内代码点读取的每一行：

import re

_surrogates = re.compile(r"[\uDC80-\uDCFF]")

def detect_decoding_errors_line(l, _s=_surrogates.finditer):
    """Return decoding errors in a line of text

    Works with text lines decoded with the surrogateescape
    error handler.

    Returns a list of (pos, byte) tuples

    """
    # DC80 - DCFF encode bad bytes 80-FF
    return [(m.start(), bytes([ord(m.group()) - 0xDC00]))
            for m in _s(l)]

E.g.

with open("test.csv", encoding="utf8", errors="surrogateescape") as f:
    for i, line in enumerate(f, 1):
        errors = detect_decoding_errors_line(line)
        if errors:
            print(f"Found errors on line {i}:")
            for (col, b) in errors:
                print(f" {col + 1:2d}: {b[0]:02x}")

请注意，并非所有解码错误都可以正常恢复。虽然 UTF-8 的设计在面对小错误时具有鲁棒性，但其他多字节编码（例如 UTF-16 和 UTF-32）无法应对丢失或额外的字节，这将影响行分隔符的准确度位于。上述方法可能会导致文件的其余部分被视为一长行。如果文件足够大，则可能会导致MemoryError如果“线”足够大，则例外。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

file

UTF8

Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？的相关文章

组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
PHP：是否可以从文件内容（字符串）创建 SplFileObject 对象？

例如 contents file get contents image png 是否可以从 contents 创建 SplFileObject 对象 Thanks php 有一些特殊的流包装器 http www php net manual
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

在 UIView 外部绘制阴影

背景我有一个UIView具有以下属性阿尔法 1 背景颜色白色不透明度 0 35 圆角阴影 Code 这就是我创建阴影的方法 UIView扩大 self layer masksToBounds false self layer sh
对于iOS healthkit如何保存收缩压和舒张压值？

这是在健康套件中保存血压数据的代码 HKUnit BPunit HKUnit millimeterOfMercuryUnit HKQuantity BPSysQuantity HKQuantity quantityWithUnit BPun
在 PHP 中向日期添加三个月

我有一个变量叫做 effectiveDate包含日期2012 03 26 我试图在此日期基础上增加三个月但没有成功这是我尝试过的 effectiveDate strtotime 3 months strtotime effectiveD
按上下文获取所有标签以实现 acts-as-taggable-on

We use https github com mbleigh acts as taggable on https github com mbleigh acts as taggable on对于我们的 Rails 应用程序我们遇到了问题
如何与 React Test Renderer / Jest 渲染的组件交互

我正在使用 Jest 和快照测试我想做的是渲染一个组件ReactTestRenderer 然后模拟单击其中的按钮然后验证快照 ReactTestRenderer 返回的对象create呼叫有一个getInstance函数允许我直接调用它
不兼容的片段类型

你好我在 android 中有一个小应用程序我在其中使用带导航抽屉的片段作为菜单但现在我想在用户单击某些内容时在片段对话框弹出窗口中显示并且出现以下错误主要活动 private void displayView int posit
shell 脚本参数非位置

有没有办法将非位置参数提供给 shell 脚本意思是明确指定某种标志 myscript sh value1 value2 myscript sh val1 value1 val2 value2 您可以使用getopts 但我不喜欢它因为
MySQL 错误 1241：操作数应包含 1 列

我正在尝试将表1中的数据插入表2中 insert into table2 Name Subject student id result select Name Subject student id result from table1 表2
在.Net Framework中使用最新版本的System.Net.Http

最新版本System Net Http https www nuget org packages System Net Http nuget 上的版本是 4 3 4 但即使是最新的 Net Framework 4 8 也附带了该库的 4 2
拼写检查等统计句子建议模型

已经有可用的拼写检查模型可以帮助我们根据经过训练的正确拼写语料库找到建议的正确拼写是否可以将粒度从字母表增加到单词以便我们可以有均匀的短语建议这样如果输入了错误的短语那么它应该从正确短语的语料库中建议最接近的正确短语当然它是从
Google 地图信息窗口中的 YouTube 视频

我正在尝试将 YouTube 视频放入 Google 地图 v3 信息窗口中它在 Firefox 和 Internet Explorer 中运行良好 It does not在 Safari 和 Chrome 中工作在这些浏览器中定位已
在 Activity.onCreate(..) 中显示警报

我是 Android 新手这是我的第一个问题所以请放轻松是否可以检查 Activity 的 onCreate 内的某些条件并显示 AlertDialog 我在 Oncreate 中匿名创建一个 AlertDialog 并在该实例上调用
使用 R Markdown 的 Beamer 演示

我正在使用 R Markdown 来制作投影仪演示我对幻灯片水平有疑问我选择法兰克福主题该主题允许制定演示计划标题中的项目符号我的问题当我输入 slide level 2 时我有内容但没有演示文稿的计划当我输入 slide
如何从命令行将错误列表（或任何自定义查询）从 TFS 导出到 Excel？

我需要将错误列表从 Team Foundation Server 导出到 Excel 手动执行此操作很简单但我需要命令行版本因为该任务需要自动化有人知道该怎么做吗回答你原来的问题在 TFS 中添加新查询创建查询并单击保存这应
使用 Visual Studio 创建 MSI 并强制所有用户

我使用 Visual Studio 2015 带有 Visual Studio 安装程序插件创建了一个安装程序目标是始终使用相同的本地资源运行应用程序无论谁登录因此我们的目标是 CommonAppDataFolder Win10 上
淡出旧元素，淡入新元素

我是新来反应并尝试过反应动画 http facebook github io react docs animation html 当在 TransitionGroup 中添加或删除元素时它们非常有用但是如果我用类似的元素替换单个元素
非活动类中的警报对话框

我有一个代码可以检查一些数据并在非活动类中显示警报但是在运行应用程序时崩溃并且不显示警报对话框我使用下面的代码 if str isEmpty strPort isEmpty new AlertDialog Builder Mtx get
Kivy (Python) - 椭圆点击事件

我正在尝试翻译的开头一个简单的画布应用程序 https bloom510 github io pitch canvas 我用 JavaScript 编写了 Kivy 框架我已经能够沿着圆的周长分布顶点但是无论是用 Python 还是 K
即使在 conda 中安装后也无法导入 Poppler

我正在尝试使用 pdf 渲染包 Poppler 我在这里找到了相同的 Anaconda 安装 https anaconda org conda forge poppler https anaconda org conda forge pop
Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？

我必须将文本文件读入Python 文件编码为 file bi test csv text plain charset us ascii 这是第三方文件我每天都会收到一个新文件所以我宁愿不更改它该文件包含非 ascii 字符例如我需

Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？

Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？ 的相关文章

随机推荐

热门标签

Python读取文件时出现UnicodeDecodeError，如何忽略错误并跳转到下一行？的相关文章