utf-8字符编码问题

2024-01-01

我通过使用美丽的汤库从网页获得链接a.get('href')。链接中有一个奇怪的字符®但当我得到它时，它变成了Â®。我怎样才能正确地对其进行编码？我已经在页面开头添加了# -*- coding: utf-8 -*-

r = requests.get(url)

soup = BeautifulSoup(r.text)

Do not use r.text;将解码留给BeautifulSoup:

soup = BeautifulSoup(r.content)

r.content https://requests.readthedocs.io/en/latest/api/#requests.Response.content为您提供以字节为单位的响应，无需解码。r.text https://requests.readthedocs.io/en/latest/api/#requests.Response.text另一方面，响应被解码为unicode.

发生的情况是服务器未在响应标头中包含字符集。那一刻，requests遵循HTTP RFC 2261，第 3.7.1 节 http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.7.1: text/回应默认情况下预计将使用 ISO-8859-1 (Latin 1) 字符集。

对于您的 HTML 页面，该默认值是错误的，并且您得到了不正确的结果；r.text将字节解码为 Latin-1，结果是Mojibake http://en.wikipedia.org/wiki/Mojibake:

>>> print u'®'.encode('utf8').decode('latin1')
Â®

HTML 本身可以包含正确的编码在 HTML 页面本身中，形式为<meta> tag https://developer.mozilla.org/en-US/docs/Web/HTML/Element/meta在 HTML 标头中。 BeautifulSoup 将使用该标头并为您解码字节。

即使<meta>header 标签丢失，BeautifulSoup 包含其他方法自动检测编码 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

utf-8字符编码问题的相关文章

嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

将 YUV 作为字节数组导入

我正在开发一个项目必须对 YUV420 SP NV21 图像从 Android 相机拍摄应用阈值以确定哪些像素是黑色哪些像素是白色因此我想将其作为字节数组导入 Python 中使用 OpenCV NumPy PIL 这样
如何从 bash 脚本在 GitHub 操作上创建输出？

我有一个 GitHub 操作本质上是一个 bash 脚本我的操作的 javascript 部分执行 bash 脚本 const core require actions core const exec require actions e
在模型上重复纹理

我正在创建一个小游戏你在迷宫中迷宫的组织方式是2D Array 描述x and z position和block type 原来如此Tile based 假设每个块都是1 m 现在我的角色是2m高迷宫应该是4m高的因此如果该瓷砖上
SQL查询多个AND和OR不起作用

我有一个单元格其中包含由双管分隔的值我正在尝试使用以下内容搜索此单元格的内容其中 10 是要搜索的数字 10 10 10 和 10 我的查询似乎只返回 10 没有其他变化有人可以告诉我为什么它不起作用吗提前谢谢了您在下面看到的
为什么从 python/uwsgi 内部调用时 `node.js` 会死掉？

从外壳这个python启动并与之通信的代码node js过程工作正常 gt from subprocess import gt js function m console log m hello world gt out err Popen
更改java的.class文件而不重新编译

有什么办法可以做到以下几点所以我有一个project jar 文件在其中我需要修改传递给classA class 的某些方法的字符串例如假设这个 classA class 有一个名为 change String a String b
检查 Postgres 复合字段是否为 null/空

With Postgres 复合类型 http www postgresql org docs 9 2 static rowtypes html您基本上可以构建一个字段其结构被定义为另一个表我有一个名为 recipient 的复合字段
错误：Angular 解析期间出现 Http 失败

我正在学习 Angular 我想在 HTML 页面上显示 JSON 数据错误是 Angular 解析期间 Http 失败我不知道为什么请告诉我我的错误并给我链接如何显示多种类型的 JSON 数据 person component htm
MSBuild - 设置解决方案的属性

我们在 VS2008 中使用 NET 3 5 我有一个包含约 20 个项目的解决方案随着应用程序的增长和添加新模块这个数字会随着时间的推移而增长今天我需要为每个项目设置一个属性我必须编辑每个 csproj 文件以添加以下内容
如何避免在 Visual Studio 2017 中加载 Microsoft.VisualStudio.Threading 时出现错误

我已在仅针对 Visual Studio 2019 的版本中对 Visual Studio 包进行了更新日志我开始使用 NuGet 包的一项更改微软VisualStudio SDK 版本 16 0 202 并删除了许多对 DLL 的单独引
"aaaa".StartsWith("aaa") 返回 false

如果这不是一个错误那么任何人都可以解释这种行为背后的原因吗事实上似乎每个奇数个字母都会返回 false string test aaaaaaaaaaaaaaaaaaaa Console WriteLine test StartsWit
php oop文件上传

我正在研究 oop php 文件上传脚本很简单但不起作用问题是什么我学习如何使用 FILE 以及如何编写 oop 风格的代码 Thanks upload php 是
Promise - 是否可以强制取消 Promise

我使用 ES6 Promises 来管理所有网络数据检索在某些情况下我需要强制取消它们基本上场景是这样的我在 UI 上进行预先输入搜索其中请求委托给后端必须根据部分输入执行搜索虽然此网络请求 1 可能需要一点时间但用户继续键入
SQL 在 Select 语句中合并两列

如果我的数据库中有一个列是 Address1 和 Address2 我如何组合这些列以便我只能在 select 语句中对其执行操作我仍然会将它们单独保留在数据库中我希望能够做到这一点 WHERE completeaddress LIK
Dos 内联 IF 测试错误级别，不使用延迟扩展

无论如何是否可以在不延迟扩展的情况下执行以下操作一行为了可读性而中断 comspec v on c windir System32 reg exe import c temp test reg if errorlevel neq 0
为什么SELECT标签的下拉框显示在错误的位置？

My CSS file doesn t touch the tag select at all also no CSS classes are related to the tag select But when showing in br
C# 相当于 VB6 字符占位符

C 是否有相当于 VB6 格式函数中使用的符号 VB6 字符占位符显示一个字符或一个空格如果该字符串在格式字符串中出现的位置有字符则显示它否则在该位置显示一个空格占位符从右到左填充除非有格式字符串中的字符我猜你的意思是
抛出异常：WebDriver.dll 中的“OpenQA.Selenium.WebDriverException”

我是使用 C 的 Selenium 新手每当我尝试运行简单的代码时我都会得到 Exception thrown OpenQA Selenium WebDriverException in WebDriver dll 每次注意我使用的
如何在Python中跳出双while循环？

新手蟒蛇在这里如果用户选择 Q 作为退出我如何才能跳出第二个 while 循环如果我按 m 它会进入主菜单在那里我可以停止按 Q 键 while loop 1 choice main menu if choice 1 os sys
utf-8字符编码问题

我通过使用美丽的汤库从网页获得链接a get href 链接中有一个奇怪的字符但当我得到它时它变成了我怎样才能正确地对其进行编码我已经在页面开头添加了 coding utf 8 r requests get url soup Bea

utf-8字符编码问题

utf-8字符编码问题 的相关文章

随机推荐

热门标签

utf-8字符编码问题的相关文章