在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错

2024-05-07

尝试将制表符分隔的文件读入 pandas 数据帧：

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False)

它会出错，如下所示：

b'Skipping line 58: expected 11 fields, saw 12\n'
Traceback (most recent call last):
...(many lines)...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 115: invalid start byte

字节 0xc0 似乎在 utf-8 和 ascii 编码中都会造成痛苦。

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False, encoding='ascii')
...(many lines)...
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc0 in position 115: ordinal not in range(128)

我也遇到了 csv 模块的阅读器同样的问题。
如果我将文件导入 OpenOffice Calc，它会被正确导入，列会被正确识别等。可能有问题的 0xc0 字节会被忽略。这不是数据等的重要部分，它可能只是生成该文件的系统的侥幸写入错误。如果涉及到这一点，我什至会很乐意砍掉他出现的那条线。我只想将文件读入python程序。这error_bad_lines=Falsepandas 的选项应该可以解决这个问题，但没有骰子。此外，该文件不包含任何非英语脚本内容，这使得 unicode 变得非常必要。都是标准的英文字母和数字。我也尝试过 utf-16 utf-32 等，但它们只会导致更多的错误。

如何使python（特别是pandas Dataframe）读取具有一个或多个流氓字节0xc0字符的文件？

把这个答案移到这里从另一个地方 https://stackoverflow.com/a/49838910/4355695在那里它受到了敌意的接待。

找到一个标准 https://stackoverflow.com/a/27456542/4355695实际上接受（意思是，不会出错）字节 0xc0 ：

encoding="ISO-8859-1"

注意：这需要确保文件的其余部分没有 unicode 字符。这可能对像我这样的人有帮助，他们的文件中没有任何 unicode 字符，只是想让 python 加载该死的东西，而 utf-8 和 ascii 编码都出错了。

有关 ISO-8859-1 的更多信息：UTF-8 和 ISO-8859-1 有什么区别？ https://stackoverflow.com/q/7048745/4355695

有效的新命令：

>>> df = pd.read_table(fn , na_filter=False, error_bad_lines=False, encoding='ISO-8859-1')

读入后，数据框很好，列、数据都像在 OpenOffice Calc 中一样工作。我还是不知道哪里冒犯了0xc0字节去了，但这并不重要，因为我已经得到了我需要的数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错的相关文章

类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

在运行时检查对象类型兼容性

这是一个非常普遍的问题但我正在做的具体事情很简单所以我包含了代码当我在编译时不知道两个对象的类型时如何检查两个对象之间的类型兼容性也就是说我可以做if object is SomeType when SomeType是编译时已知
查看两个对象是否具有相同的类型

假设我有一个类 A 并且 B C D 都是从 A 派生的如果我想知道引用的对象的类型是什么我可以声明 pseudo code if obj instanceof B lt is B gt else if obj instanceof C
错误：找不到引用合同的默认端点元素

我正在编写下面的代码来通过核心服务在 tridion 中创建 MM 组件但运行此服务时出现错误 public ComponentData GetNewMultimediaComponent CoreServiceClient Client
perl生成字符串来匹配正则表达式

我尝试找到一种方法来生成与正则表达式匹配的字符串例如以下正则表达式 A Z 6 6 A Z2 9 A NP Z0 9 A Z0 9 3 3 0 1 我尝试过 Cpan 上的一些 perl 模块不起作用 gt 字符串随机 gt 正则表达式
通过cas进行ajax调用

我需要编写一个谷歌小工具来读取谷歌群组的提要问题是我正在进行 ajax 调用来检索提要而我们的 google apps 域受 CAS 中央身份验证服务保护因此我在拨打电话时收到 400 错误请求我怀疑浏览器在进行 ajax 调用
将字体导入 React 应用程序

我正在尝试在我的应用程序中使用 Roboto 字体但遇到了困难 I did npm install save typeface roboto并添加了import typeface roboto 到我的 React 组件但仍然无法改变我的
使用 AlamofireImage 下载图像有进度吗？

有没有办法使用 AlamofireImage 下载图像并获得有关下载进度的某种反馈同时利用它的强大功能UIImage 扩展图像过滤器和图像缓存我知道我可以退回到平原Alamofire request responseImage但我想让
尝试通过 knex 连接到 Mssql 服务器

我正在尝试使用 knex 连接到远程数据库但收到此错误乏味已弃用默认值options encrypt将会改变自false to true 请通过false如果您想保留当前行为请明确地表示在node modules mssql lib
带有 Viper 和 Vimpulse 的 Emacs 缺少哪些 Vim 功能？

Emacs 的一些重要功能在 Vim 中是缺失的例如 comint 模式并且没有脚本插件可以替代它们与 Emacs 相比 Vim 也有一些优点例如模式编辑和通常更好的默认快捷键然而 Viper 模式让我两者兼而有之 Vimpul
如何修改s_client的代码？

我正在玩apps s client c in the openssl源代码我想进行一些更改并运行它但是在保存文件并执行操作后我的更改没有得到反映make all or a make 例如我改变了sc usage函数为此 BIO pr
请求开发者证书的分发配置文件

使用 Xcode 9 1 构建 iOS 应用程序后我尝试将其存档但我收到以下错误消息配置文件 MyAppProfile 不包括签名证书 iPhone Developer My Name X1YZ2AB3CD 仔细观察后我发现 MyA
如何使用 PHP 跳过 XML 文件中的无效字符

我正在尝试使用 PHP 解析 XML 文件但收到错误消息解析器错误字符 0x0 超出允许范围我认为这是因为 XML 的内容我认为有一个特殊符号我能做些什么来修复它我还得到解析器错误标签项行中数据过早结束可能是什么原因导致
没有找到适合 jdbc.sqlite 的驱动程序

所以首先我之前看到过这个问题我查看了以前的答案并尝试用它来解决我的问题但是我做不到我正在创建一个图书馆系统并为注册类和登录类编写了代码并为数据库创建了一个类当我尝试运行该程序时我收到一条消息指出没有找到合适的驱动程序后跟数
如何以编程方式在 Genymotion 上刷新 zip

我正在尝试将谷歌应用程序刷新到 genymotion 模拟器中我可以使用拖放功能来完成此操作但我的项目需要 google apps zip 已加载到 genymotion 机器中并且在内部闪烁以避免与桌面交互我检查过类似的问题thi
HTTP 查询字符串和 []

PHP 使用在查询参数名称中以确保多次出现的参数都出现在 GET超全局变量否则只出现最后一次出现的情况还有其他软件可以做到这一点吗但从RFC 3986 https www rfc editor org rfc rfc3986 以及
Raspberry Pi 无延迟（<10ms）视频流

我正在基于 Raspberry Pi 构建四轴飞行器我想通过蜂窝连接将网络摄像头的视频流式传输到我的计算机我尝试了 ffmpeg 和 mjpg 但它必须有很大的延迟才能仅通过观看视频来控制 Quad 我的问题是是否可以以非常小的延迟如
将 Sprockets 的“depend_on”指令指向非资产文件

我有一个app assets javascripts moufa js erb填充来自 a 的值的文件config moufa yml文件我想使用depend onsprockets 指令以便每次 yaml 文件发生更改时它都会重新编
如何画一个中间透明的圆

我试图用以下代码绘制一个白色圆圈 mPaint setColor 0xFFFFFFFF canvas drawCircle x y radius mPaint 但它显示为固态磁盘如何让它只显示为中心透明的圆形轮廓我查看了帮助这对我来说
Android Studio .2.2 和 Gradle 包不存在

Android Studio 和导入外部 Java 库的新功能我已阅读有关配置 Gradle 依赖项的帖子并修复了我的第一个包不存在错误这些是我的 MainAcitivity java 文件中的导入语句 import com goog
在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错

尝试将制表符分隔的文件读入 pandas 数据帧 gt gt gt df pd read table fn na filter False error bad lines False 它会出错如下所示 b Skipping line 58

在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错

在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错 的相关文章

随机推荐

热门标签

在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错的相关文章