如何使用 BeautifulSoup 正确解析 UTF-8 编码的 HTML 为 Unicode 字符串？ [复制]

2023-12-15

我正在运行一个 Python 程序，该程序获取 UTF-8 编码的网页，并使用 BeautifulSoup 从 HTML 中提取一些文本。

但是，当我将此文本写入文件（或在控制台上打印）时，它会以意外的编码写入。

示例程序：

import urllib2
from BeautifulSoup import BeautifulSoup

# Fetch URL
url = 'http://www.voxnow.de/'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')

# Response has UTF-8 charset header,
# and HTML body which is UTF-8 encoded
response = urllib2.urlopen(request)

# Parse with BeautifulSoup
soup = BeautifulSoup(response)

# Print title attribute of a <div> which uses umlauts (e.g. können)
print repr(soup.find('div', id='navbutton_account')['title'])

运行此命令给出结果：

# u'Hier k\u0102\u015bnnen Sie sich kostenlos registrieren und / oder einloggen!'

但我希望渲染一个 Python Unicode 字符串ö在这个词中können as \xf6:

# u'Hier k\xf6bnnen Sie sich kostenlos registrieren und / oder einloggen!'

我尝试将“fromEncoding”参数传递给 BeautifulSoup，并尝试read() and decode() the response对象，但它要么没有什么区别，要么抛出错误。

通过命令curl www.voxnow.de | hexdump -C，我可以看到该网页确实是UTF-8编码的（即它包含0xc3 0xb6）为了ö特点：

      20 74 69 74 6c 65 3d 22  48 69 65 72 20 6b c3 b6  | title="Hier k..|
      6e 6e 65 6e 20 53 69 65  20 73 69 63 68 20 6b 6f  |nnen Sie sich ko|
      73 74 65 6e 6c 6f 73 20  72 65 67 69 73 74 72 69  |stenlos registri|

我超出了我的Python能力的限制，所以我不知道如何进一步调试它。有什么建议吗？

正如 justhalf 上面指出的，我的问题本质上是重复的这个问题.

HTML 内容将自身报告为 UTF-8 编码，并且除了一两个恶意无效 UTF-8 字符外，大部分内容都是如此。

这显然让 BeautifulSoup 混淆了正在使用的编码，以及在将内容传递给 BeautifulSoup 时尝试首先解码为 UTF-8 时这：

soup = BeautifulSoup(response.read().decode('utf-8'))

我会得到错误：

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 186812-186813: 
                    invalid continuation byte

更仔细地观察输出，有一个角色的实例Ü它被错误地编码为无效字节序列0xe3 0x9c，而不是正确的0xc3 0x9c.

作为目前评分最高的答案关于这个问题表明，可以在解析时删除无效的 UTF-8 字符，以便仅将有效数据传递给 BeautifulSoup：

soup = BeautifulSoup(response.read().decode('utf-8', 'ignore'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

UTF8

beautifulsoup

urllib2

如何使用 BeautifulSoup 正确解析 UTF-8 编码的 HTML 为 Unicode 字符串？ [复制] 的相关文章

Urllib 的 urlopen 在某些网站上被破坏（例如 StackApps api）：返回垃圾结果

我在用着urllib2 s urlopen函数尝试从 StackOverflow api 获取 JSON 结果我正在使用的代码 gt gt gt import urllib2 gt gt gt conn urllib2 urlopen h
通过另一个指标数据框评估一个数据框

我有一个源数据框input df PatientID KPI Key1 KPI Key2 KPI Key3 0 1 C602 C603 C601 NaN 1 2 C605 C606 C602 NaN 2 3 75 L239 C602 NaN
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
如何对预测值进行反向移动平均（在 pandas 中，rolling().mean）操作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个像这样的 df import numpy as np import pandas as pd import matplotlib
字符编码失败，为什么\xBD在PHP + HTML中显示不正确

我只是想更好地理解字符编码所以我做了一些测试我有一个保存为 UTF 8 的 PHP 文件如下所示页面本身
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
skpy 向包含用户提及的组发送消息

我需要在发送给 Skype 群组的消息中提及特定用户我可以使用 skpy 轻松发送消息但不知道如何在消息中提及某人 sk Skype userid paasword SendMsgTo sk chats group id SendMsg
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
无法解析 ReferenceProperty -- App Engine

我遇到了一个错误无法找出其根本原因错误如下 ReferenceProperty 无法解析 u StatusLog STATUSLOGSID 此错误仅有时发生大约一天一次或两次生成此错误的脚本成功的次数多于失败的次数该错误最奇怪的事
更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok
在 Windows 上安装 PyGIMP

在网上我可以找到有关使用 python 编写 gimp 脚本的各种示例 http www jamesh id au software pygimp http www jamesh id au software pygimp http ww
在 pandas eval 中调用 round()、ceiling()、floor()、min()、max()

正如标题所说有没有办法在 pandas eval 中支持 round ceiling min max floor 函数数据框 import pandas as pd import numexpr as ne op d ID 1 2 3
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
GoLang - 坚持使用 ISO-8859-1 字符集

我正在开发一个项目我们需要将信息保存在具有 ISO 8859 1 表的旧数据库中因此在向数据库写入内容之前我需要将其从 UTF 8 转换为 ISO 8859 1 每次从数据库检索它时我都需要将其转换回 UTF 8 我试图使用图书馆
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
Python tkinter：在组合框中使用“文本变量”似乎没用

使用textvariable在 tkinter 中创建组合框时的属性似乎完全没用有人可以解释一下目的是什么吗我查看了 Tcl 文档它说textvariable用于设置默认值但看起来在 tkinter 中您只需使用 set方法来做到这

随机推荐

为每个单选按钮分配 2 个值

我试图为每个单选按钮分配 2 个值以在 2 个字段中输出但这不起作用这是我使用的代码 p What s your favorite browser p
我是否误解了heredoc应该做什么？

我对 PHP 很陌生所以我知道我在这里遗漏了一些明显的东西我认为heredoc函数应该保留格式换行符等但每当我测试它时它解析时都没有格式化我尝试了很多不同的脚本包括来自 PHP net 和 W3schools 等来源的复制粘贴
Excel VBA 在函数中合并单元格

我编写了一个粗略的函数来根据范围选择和连接单元格 Function GetSkills CellRef As String CellRefEnd As String Delimiter As String Dim CellStart As
非整数的错误“整数输入语法无效”？

我正在使用 Python 和 psycopg2 我正在尝试执行带有值列表的准备好的语句如下所示 cur callproc prepared func prepared values psycopg2 DataError invalid i
无法在 xcode 4.2 上构建我的项目

我已将我的 xcode 升级到 4 2 使用雪豹以前我使用的是 Xcode 3 2 6 我的项目使用它成功构建现在我无法构建它而是 Xcode 发出以下错误 ld warning option A is obsolete and be
将生成的 img 嵌入 django 模板中

我如何将生成的图像嵌入 django 模板中就像是 return render to response graph html img get graph 我不想要这个因为它只是发送图像 http HttpResponse get gra
FFmpeg从mp4创建m3u8，视频文件大小

我正在使用 ffmpeg 将 mp4 转换为 m3u8 但首先我需要让 mp4 变小我使用这段代码来缩小它 ffmpeg i big mp4 b 1000000 small mp4 然后我使用这段代码将其转换为m3u8 ffmpeg i
Vue 3 自定义复选框组件，带有 v-model 和项目数组

迫切需要你们的帮助所以基本上我有一个带有 v 模型的自定义复选框组件我在组件上使用 v for 循环来显示带有数组中名称的复选框在父组件中我有两列可用和选定这个想法是如果我选中其中一个框可用栏它应该出现在选定的列问题是它
设置 win32 控制台应用程序的库路径

当我尝试执行简单的 HelloWorld win32 控制台应用程序时出现找不到 dll 重新启动应用程序可能会解决问题错误我知道 dll 的位置从命令提示符执行 exe 时如何指定其位置 PS 将 dll复制到 exe的当前目录
Doctrine2：这些实体之间的关联有什么问题？

我正在尝试通过简单的示例来了解 Doctrine2 中的所有更改请查看以下实体片段 VCat php namespace Application Models Entity Table name v cat class VCat Id C
UITableViewCell 中加载 UIView 的 Nib 文件不会拉伸

我有一个 UIView 可以通过 nib xib 文件重用我想加载它并填充一个 UITableViewCell 它将在自动调整大小的 UITableView 中使用全部带有自动布局大多数工作都很好但似乎加载的 UIView 使用周围
如何升级Oracle 11g 11.2.0.1中的java版本[关闭]

Closed 这个问题是无关目前不接受答案我的oracle数据库的java版本是1 5 0 10 如何将其升级到java 1 7 0 10 Thanks 这是不可能的 Oracle 为特定版本的 DBMS 提供了特定版本的 Java 并
Javascript cloneNode 不是一个函数[重复]

这个问题在这里已经有答案了我有几个跨度 span a span span b span span c span span d span I use getElementsByName获取跨度集合 var spans document ge
修复 RegEx 中的 JSLint 擒纵机构不良警告

我在名为的第三方 jQuery 控件中有以下代码jquery facebox js that JSLint不喜欢这是正则表达式中的一个严重的擒纵错误正则表达式对我来说就像 Romulan 所以我不知道如何修复错误这是正则表达式中的句点
如何使用 Devise 设置电子邮件确认？

是否有教程解释如何从头开始设置 Devise 的注册确认电子邮件在开发和生产中即如果您没有设置 Action Mailer 谷歌搜索刚刚出现了一堆与此相关的单独片段没有一篇文章能够解释得足够多而且我不确定它们如何组合在一起是否有分
正则表达式替换除第一个和最后一个字符之外的内容

什么是正则表达式用于将字符串中的双引号替换为转义反斜杠后跟双引号字符串的第一个和最后一个字符除外示例 1 嵌入字符串中的双引号 Input This is a Test Expected Output This is a Test
WELD-001408 类型 [Validator] 的依赖关系不满足

将项目从 Java EE 6 迁移到 Java EE 7 后我无法部署该项目我已经启用了 CDI beans xml 带有 bean discovery mode all 以实现向后兼容性部署错误似乎与我的代码无关因为它提到了一个尝
C# 将内部 XML 反序列化为字符串

我有以下 XML
Mongodb 按索引字段搜索

我将字段 search string 添加到我的文档中并为其建立索引 db my collection createIndex search string text Search string 包含以下内容 a ar are are are
如何使用 BeautifulSoup 正确解析 UTF-8 编码的 HTML 为 Unicode 字符串？ [复制]

这个问题在这里已经有答案了我正在运行一个 Python 程序该程序获取 UTF 8 编码的网页并使用 BeautifulSoup 从 HTML 中提取一些文本但是当我将此文本写入文件或在控制台上打印时它会以意外的编码写入示

如何使用 BeautifulSoup 正确解析 UTF-8 编码的 HTML 为 Unicode 字符串？ [复制]

如何使用 BeautifulSoup 正确解析 UTF-8 编码的 HTML 为 Unicode 字符串？ [复制] 的相关文章

随机推荐

热门标签