UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节

2024-01-09

我正在尝试打开一系列 HTML 文件，以便使用 BeautifulSoup 从这些文件的正文中获取文本。我有大约 435 个文件想要运行，但我不断收到此错误。

我尝试将 HTML 文件转换为文本并打开文本文件，但出现相同的错误...

path = "./Bitcoin"
for file in os.listdir(path):
    with open(os.path.join(path, file), "r") as fname:
        txt = fname.read()

我想获取 HTML 文件的源代码，以便我可以使用 beautifulsoup 解析它，但出现此错误

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-133-f32d00599677> in <module>
      3 for file in os.listdir(path):
      4     with open(os.path.join(path, file), "r") as fname:
----> 5         txt = fname.read()

~/anaconda3/lib/python3.7/codecs.py in decode(self, input, final)
    320         # decode input (taking the buffer into account)
    321         data = self.buffer + input
--> 322         (result, consumed) = self._buffer_decode(data, self.errors, final)
    323         # keep undecoded input until the next call
    324         self.buffer = data[consumed:]

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 2893: invalid start byte

有多种方法可以处理具有未知编码的文本数据。然而，在这种情况下，当您打算将数据传递给 Beautiful Soup 时，解决方案很简单：不必费心尝试自己解码文件，让 Beautiful Soup 来完成。美丽的汤会自动将字节解码为 unicode https://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings.

在当前代码中，您以文本模式读取文件，这意味着 Python 将假定文件编码为 UTF-8，除非您向open功能。如果文件内容不是有效的 UTF-8，这会导致错误。

for file in os.listdir(path):
    with open(os.path.join(path, file), "r") as fname:
        txt = fname.read()

相反，以二进制模式读取 html 文件并传递结果bytes以美丽汤为例。

for file in os.listdir(path):
    with open(os.path.join(path, file), "rb") as fname:
        bytes_ = fname.read()
soup = BeautifulSoup(bytes_)

FWIW，当前导致您问题的文件可能是使用 cp1252 或类似的 Windows 8 位编码进行编码的。

>>> '’'.encode('cp1252')
b'\x92'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

characterencoding

UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节的相关文章

并行 dask for 循环比常规循环慢？

如果我尝试使用 dask 并行化 for 循环它最终会比常规版本执行得慢基本上我只是按照 dask 教程中的介绍性示例进行操作但由于某种原因它在我这边失败了我究竟做错了什么 In 1 import numpy as np from
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

jsonconvert.deserializeobject 返回 null

当用户输入城市和街道等地址的 2 个值目前时我试图从谷歌地图获取坐标来自谷歌地图 api 的 Json 字符串的反序列化遇到问题必须非常简单请帮助我关于我所缺少的这是 json 字符串 http pasted co d9e7c
如何在 Markdown 中为 Pandoc Beamer 幻灯片指定 YAML 元数据？

我正在尝试使用 YAML 元数据块来指定 Pandoc 的 Markdown 文档中的一些文档属性我将其转换为 LaTeX Beamer 我在这里阅读了描述 http johnmacfarlane net pandoc README ht
使用 TableAdapter 重新加载数据

private void UserList Load object sender EventArgs e TODO This line of code loads data into the workOrdersDataSet users
使用 ES6 import 语句时，有没有办法防止项目未定义？

import foobar1 foobar2 foobor3 typo this key doesn t exist in the module from module file js console log foobar1 foobar2
PHP preg_match_all 在长字符串上失败

这是我的代码 long str repeat a very long string text 100 try changing 100 to 5000 str lt lt
为什么我的汇编输出位于字母位置？ (1+1=b)

我正在使用塔斯姆这是一个简单的程序可以读取用户的输入并将两个数字相加但是我的输出是根据字母位置显示字母例如 3 5 h 8 我希望它以整数显示 model small stack 100h data input db 13 10
如何在 Apache 中集成 Clojure Web 应用程序

Note 鉴于这个OP是大约两年前写的我不想再问同样的问题我想知道是否存在分步说明以便我可以将Noir或其他Clojure Web应用程序集成到Apache中无论是Jetty Tomcat 或者是其他东西 Django 也有类似的说
angular2快速启动仅显示正在加载..而不显示index.html的内容

第一次使用 angular2 按照以下说明5 分钟快速入门指南 https angular io docs ts latest quickstart html 对于角度 2 一切正常意味着运行时没有错误npm start npm 启动镜像
在windows中用纯C创建唯一的临时目录

我想从一些 C 在 Windows 中创建一个唯一的临时目录代码不是 C 或 C 我想这样做以便我可以放置一些温度目录中的文件然后在完成后轻松将它们全部删除通过递归删除目录我本质上是在寻找与linux相当的东西mkdtemp
从数据库填充组合框

我的组合框出现错误 My code SqlConnection conn new SqlConnection try conn new SqlConnection Data Source SHARKAWY Initial Catalog B
使用 Flash IDE 测试电影无法从本地主机加载文件

我只是想知道是否有人可以帮助我解决我的简单但令人沮丧的问题我创建了一个 SWF 可以从以下位置加载 XML 文件http localhost flash Projects MEL Quiz Quiz bin xml quiz xml ht
在 WKWebView 中启用应用程序缓存

我知道 iOS WKWebView 不支持离线应用程序缓存这是在 Safari 中启用的所以我在 webkit 项目中搜索了负责的代码并发现了这个 WK首选项 void setOfflineApplicationCacheIsEnabl
使用 Wix 工具集安装应用程序的多个实例

我只需要安装应用程序的多个实例将它们保存在不同的文件夹中桌面上没有快捷方式换句话说当应用程序已安装在文件夹中时如果我再次双击 msi 文件安装程序不应询问我是否要修复或删除我的应用程序而只是允许安装它在一个新文件夹中我怎么解
Cache-Control s-maxage 标头是否会覆盖浏览器缓存的 Expires 标头？

我想设置一个遥远的未来过期标头以减少来自各个浏览器的请求我还想设置 Cache Control s maxage 600 以便代理缓存和 CDN 每 10 分钟与源重新验证一次新内容尽管存在带有 s maxage 指令的 Cache
是否可以使用与 Java 中相同的语法在 Groovy 中使用 JavaFX？

我使用的是jdk1 8 0 25 我正在尝试运行一个 JavaFX 应用程序文件在该文件下当名为 HelloWorldMain java 时可以使用 javac java 编译并运行正常我将其重命名为 HelloWorldMain
JavaScript比较危机

我遇到了以下问题无法理解原因有人可以解释一下吗 var foo 0 console log foo foo true console log foo foo true 第二个比较解释起来很简单 foo等于它本身然而第一个有点棘手 f
在 CTRL+MOUSEWHEEL 事件上

我被要求为我们的页面站点实现 ctrl mousewheel 事件以便更改用户放大或缩小时的图像偏移我找到了这个旧答案使用 javascript 覆盖浏览器 CTRL WHEEL SCROLL https stackoverflow c
将带有哈希密码的用户表从旧的 php 应用程序迁移到新的 laravel 应用程序

我正在开发一个旧的 php 应用程序用户的密码是用md5 功能所以密码的存储方式如下 c0c92dd7cc524a1eb55ffeb8311dd73f 我正在使用 Laravel 4 开发一个新应用程序我需要有关如何迁移的建议user
如何使用PHP7连接到sql服务器？（我错过了什么？）

这是 phpinfo 输出版本 php http cellcasehub com version php 这是代码 serverName X X X X connection array UID gt UserID PWD gt Pass
UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节

我正在尝试打开一系列 HTML 文件以便使用 BeautifulSoup 从这些文件的正文中获取文本我有大约 435 个文件想要运行但我不断收到此错误我尝试将 HTML 文件转换为文本并打开文本文件但出现相同的错误 path Bi

UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节

UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节 的相关文章

随机推荐

热门标签

UnicodeDecodeError 'utf-8' 编解码器无法解码位置 2893 中的字节 0x92：无效的起始字节的相关文章