在 python 中读取具有恶意字节 0xc0 的文件,导致 utf-8 和 ascii 出错

2024-05-07

尝试将制表符分隔的文件读入 pandas 数据帧:

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False)

它会出错,如下所示:

b'Skipping line 58: expected 11 fields, saw 12\n'
Traceback (most recent call last):
...(many lines)...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 115: invalid start byte

字节 0xc0 似乎在 utf-8 和 ascii 编码中都会造成痛苦。

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False, encoding='ascii')
...(many lines)...
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc0 in position 115: ordinal not in range(128)

我也遇到了 csv 模块的阅读器同样的问题。
如果我将文件导入 OpenOffice Calc,它会被正确导入,列会被正确识别等。可能有问题的 0xc0 字节会被忽略。这不是数据等的重要部分,它可能只是生成该文件的系统的侥幸写入错误。如果涉及到这一点,我什至会很乐意砍掉他出现的那条线。我只想将文件读入python程序。这error_bad_lines=Falsepandas 的选项应该可以解决这个问题,但没有骰子。此外,该文件不包含任何非英语脚本内容,这使得 unicode 变得非常必要。都是标准的英文字母和数字。我也尝试过 utf-16 utf-32 等,但它们只会导致更多的错误。

如何使python(特别是pandas Dataframe)读取具有一个或多个流氓字节0xc0字符的文件?


把这个答案移到这里从另一个地方 https://stackoverflow.com/a/49838910/4355695在那里它受到了敌意的接待。

找到一个标准 https://stackoverflow.com/a/27456542/4355695实际上接受(意思是,不会出错)字节 0xc0 :

encoding="ISO-8859-1"  

注意:这需要确保文件的其余部分没有 unicode 字符。这可能对像我这样的人有帮助,他们的文件中没有任何 unicode 字符,只是想让 python 加载该死的东西,而 utf-8 和 ascii 编码都出错了。

有关 ISO-8859-1 的更多信息:UTF-8 和 ISO-8859-1 有什么区别? https://stackoverflow.com/q/7048745/4355695

有效的新命令:

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False, encoding='ISO-8859-1')

读入后,数据框很好,列、数据都像在 OpenOffice Calc 中一样工作。我还是不知道哪里冒犯了0xc0字节去了,但这并不重要,因为我已经得到了我需要的数据。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 python 中读取具有恶意字节 0xc0 的文件,导致 utf-8 和 ascii 出错 的相关文章

随机推荐

  • 在运行时检查对象类型兼容性

    这是一个非常普遍的问题 但我正在做的具体事情很简单 所以我包含了代码 当我在编译时不知道两个对象的类型时 如何检查两个对象之间的类型兼容性 也就是说 我可以做if object is SomeType when SomeType是编译时已知
  • 查看两个对象是否具有相同的类型

    假设我有一个类 A 并且 B C D 都是从 A 派生的 如果我想知道引用的对象的类型是什么 我可以声明 pseudo code if obj instanceof B lt is B gt else if obj instanceof C
  • 错误:找不到引用合同的默认端点元素

    我正在编写下面的代码来通过核心服务在 tridion 中创建 MM 组件 但运行此服务时出现错误 public ComponentData GetNewMultimediaComponent CoreServiceClient Client
  • perl生成字符串来匹配正则表达式

    我尝试找到一种方法来生成与正则表达式匹配的字符串 例如以下正则表达式 A Z 6 6 A Z2 9 A NP Z0 9 A Z0 9 3 3 0 1 我尝试过 Cpan 上的一些 perl 模块不起作用 gt 字符串 随机 gt 正则表达式
  • 通过cas进行ajax调用

    我需要编写一个谷歌小工具来读取谷歌群组的提要 问题是我正在进行 ajax 调用来检索提要 而我们的 google apps 域受 CAS 中央身份验证服务 保护 因此 我在拨打电话时收到 400 错误请求 我怀疑浏览器在进行 ajax 调用
  • 将字体导入 React 应用程序

    我正在尝试在我的应用程序中使用 Roboto 字体 但遇到了困难 I did npm install save typeface roboto并添加了import typeface roboto 到我的 React 组件 但仍然无法改变我的
  • 使用 AlamofireImage 下载图像有进度吗?

    有没有办法使用 AlamofireImage 下载图像并获得有关下载进度的某种反馈 同时利用它的强大功能UIImage 扩展 图像过滤器和图像缓存 我知道我可以退回到平原Alamofire request responseImage但我想让
  • 尝试通过 knex 连接到 Mssql 服务器

    我正在尝试使用 knex 连接到远程数据库 但收到此错误 乏味已弃用默认值options encrypt将会改变自false to true 请通过false如果您想保留当前行为 请明确地表示 在node modules mssql lib
  • 带有 Viper 和 Vimpulse 的 Emacs 缺少哪些 Vim 功能?

    Emacs 的一些重要功能在 Vim 中是缺失的 例如 comint 模式 并且没有脚本 插件可以替代它们 与 Emacs 相比 Vim 也有一些优点 例如模式编辑和通常更好的默认快捷键 然而 Viper 模式让我两者兼而有之 Vimpul
  • 如何修改s_client的代码?

    我正在玩apps s client c in the openssl源代码 我想进行一些更改并运行它 但是在保存文件并执行操作后 我的更改没有得到反映make all or a make 例如 我改变了sc usage函数为此 BIO pr
  • 请求开发者证书的分发配置文件

    使用 Xcode 9 1 构建 iOS 应用程序后 我尝试将其存档 但我收到以下错误消息 配置文件 MyAppProfile 不包括签名证书 iPhone Developer My Name X1YZ2AB3CD 仔细观察后 我发现 MyA
  • 如何使用 PHP 跳过 XML 文件中的无效字符

    我正在尝试使用 PHP 解析 XML 文件 但收到错误消息 解析器错误 字符 0x0 超出允许范围 我认为这是因为 XML 的内容 我认为有一个特殊符号 我能做些什么来修复它 我还得到 解析器错误 标签项行中数据过早结束 可能是什么原因导致
  • 没有找到适合 jdbc.sqlite 的驱动程序

    所以首先我之前看到过这个问题 我查看了以前的答案并尝试用它来解决我的问题 但是我做不到 我正在创建一个图书馆系统 并为注册类和登录类编写了代码 并为数据库创建了一个类 当我尝试运行该程序时 我收到一条消息 指出没有找到合适的驱动程序 后跟数
  • 如何以编程方式在 Genymotion 上刷新 zip

    我正在尝试将谷歌应用程序刷新到 genymotion 模拟器中 我可以使用拖放功能来完成此操作 但我的项目需要 google apps zip 已加载到 genymotion 机器中并且在内部闪烁 以避免与桌面交互 我检查过类似的问题thi
  • HTTP 查询字符串和 []

    PHP 使用 在查询参数名称中 以确保多次出现的参数都出现在 GET超全局变量 否则只出现最后一次出现的情况 还有其他软件可以做到这一点吗 但从RFC 3986 https www rfc editor org rfc rfc3986 以及
  • Raspberry Pi 无延迟(<10ms)视频流

    我正在基于 Raspberry Pi 构建四轴飞行器 我想通过蜂窝连接将网络摄像头的视频流式传输到我的计算机 我尝试了 ffmpeg 和 mjpg 但它必须有很大的延迟才能仅通过观看视频来控制 Quad 我的问题是是否可以以非常小的延迟 如
  • 将 Sprockets 的“depend_on”指令指向非资产文件

    我有一个app assets javascripts moufa js erb填充来自 a 的值的文件config moufa yml文件 我想使用depend onsprockets 指令 以便每次 yaml 文件发生更改时 它都会重新编
  • 如何画一个中间透明的圆

    我试图用以下代码绘制一个白色圆圈 mPaint setColor 0xFFFFFFFF canvas drawCircle x y radius mPaint 但它显示为固态磁盘 如何让它只显示为中心透明的圆形轮廓 我查看了帮助 这对我来说
  • Android Studio .2.2 和 Gradle 包不存在

    Android Studio 和导入外部 Java 库的新功能 我已阅读有关配置 Gradle 依赖项的帖子 并修复了我的第一个包不存在错误 这些是我的 MainAcitivity java 文件中的导入语句 import com goog
  • 在 python 中读取具有恶意字节 0xc0 的文件,导致 utf-8 和 ascii 出错

    尝试将制表符分隔的文件读入 pandas 数据帧 gt gt gt df pd read table fn na filter False error bad lines False 它会出错 如下所示 b Skipping line 58