BeautifulSoup 返回意外的额外空格

2024-03-03

我正在尝试使用 BeautifulSoup 从 html 文档中获取一些文本。在一个对我来说非常相关的案例中，它产生了一个奇怪而有趣的结果：在某一点之后，汤在文本中充满了额外的空格（空格将每个字母与下一个字母分开）。我试图在网络上搜索以找到原因，但我只遇到了一些有关相反错误的新闻（根本没有空格）。

您对为什么会发生这种情况以及如何解决这个问题有一些建议或提示吗？

这是我创建的非常基本的代码：

from bs4 import BeautifulSoup

import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup

这是从结果中取出的一行，该问题开始出现的行：

value=\"Giuseppe labbate ogm? non vorremmo nuovi uccelli chiamati lontre\"> G i u s e p p e l a b a t e g m ? no n v or re m monuoviuccellicchiamatilontre

我相信这是 Lxml 的 HTML 解析器的一个错误。尝试：

from bs4 import BeautifulSoup

import urllib2
html = urllib2.urlopen ("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova.replace('ISO-8859-1', 'utf-8'))
print soup

这是解决该问题的方法。我相信该问题已在 lxml 3.0 alpha 2 和 lxml 2.3.6 中得到解决，因此值得检查您是否需要升级到较新的版本。

如果您想了解有关该错误的更多信息，该错误最初是在此处提交的：

https://bugs.launchpad.net/beautifulsoup/+bug/972466 https://bugs.launchpad.net/beautifulsoup/+bug/972466

希望这可以帮助，

Hayden

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BeautifulSoup 返回意外的额外空格的相关文章

使用时间序列数据和scaleBand指定D3条形图上的刻度

我尝试为具有时间序列数据的 d3 v4 条形图指定多个刻度和多个刻度标签如下图所示基于本教程 https bl ocks org zigahertz 1ee4965ff76514517bb7ce6af21e5d44我有一个处理时间序列数
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
等待动态加载脚本

在我的页面正文中我需要插入以下代码作为 AJAX 调用的结果 p Loading jQuery p p Using jQuery p 我不能使用 load 由于文档已经加载因此该事件不会触发这安全吗如果没有我如何确保在执行自定义生
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
输入元素可滚动并启用文本溢出省略号

当我添加text overflow ellipsis对于输入元素该元素是可滚动的当我将光标放在元素上时我可以左右滚动就好像文本是全宽并且没有被截断一样尽管后面没有文本我该如何阻止这种行为 input width 180px te
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Android：选择 EditField 上焦点上的所有文本

我试图让 Android 在获得焦点时选择 EditText 字段中的所有文本我在布局中使用此属性在两个字段上 android selectAllOnFocus true 我不确定这是否相关但为了将光标移动到第一个可编辑字段前面还
使用js获取选择选项的onclick事件

我有一个非常令人沮丧的问题我有这个代码它过滤掉我的结果并将它们输入到选择框中 var syn
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
HTML：JavaScript：阻止表单提交并调用 Javascript 函数

我想在按下表单中的提交按钮时进行 AJAX 调用事实上我无法删除

随机推荐

离开范围时 Swift 在 CFRelease 中崩溃

我刚刚投入 iOS 开发目前在 queryServer 函数末尾的 CFRelease 函数中遇到运行时错误我在突出显示的行上添加了注释但没有错误如果我注释掉对 extractIPFromQuery 的函数调用下面的代码获取服务器的
simple_form 和引导程序验证不起作用

我想设置一个创建帐户页面我使用的宝石是导轨 3 2 3 简单形式 2 0 1 全方位身份验证 twitter bootstrap rails 2 0 6 蒙戈伊德 2 2 3 表格如下所示 simple form for ident
在 Jenkinsfile 中运行映像时如何传递 docker 容器参数

我有一个以以下结尾的 Dockerfile ENTRYPOINT node index js CMD help The index js可以采用几个不同的参数我还需要公开容器的端口因此如果我手动运行它我会执行以下操作 docker r
组在 RabbitMQ 中接收消息，最好使用 Spring AMQP？

我正在从服务 S 接收消息该服务将每个单独的属性更改作为单独的消息发布到实体一个人为的例子是这样的实体 Person id 123 name Something address 如果姓名和地址在同一交易中更新则 S 将发布两条消息 P
如何获取iframe的scrollTop

当window是iframe时 jQuery的scrollTop返回null 有谁能弄清楚如何获取 iframe 的scrollTop 吗更多信息我的脚本在 iframe 本身中运行父窗口位于另一个域中因此我无法访问 iframe
将多个/不同的 MongoTemplate 与相同的 Repository 类一起使用

我有三个不同的 mongo 数据库相同架构的集合所以我为此创建了一个存储库但是我是否可以使用不同的 mongoTemplates 一个用于三个不同的数据库但使用相同的存储库类我可以创建三个不同的存储库类每个数据库一个但我不想
批处理模式下 Kafka headers 作为列表

我试图在以批处理模式消费消息的同时访问一些标头如果我设置监听器来处理Message data Acknowledgment ack throws SQLException for int i 0 i lt data size Object
React - 错误：尝试运行 npm start 时找不到模块 React

我在尝试为 React 应用程序运行 npm start 时遇到了一个错误我的应用程序在开发过程中基本上按照我的预期运行但是我遇到了一个错误需要我更新我的节点版本作为潜在的修复我将 node 更新到 v16 13 2 并且还决定将
JQuery 自动完成。如果找不到项目，显示“按 Enter 键插入自动完成”？

我正在做一种标签自动完成组合因此基本上当用户输入没有自动完成选项的查询即 aaa 时我希望自动完成下拉并显示按 Enter 为 aaa 创建标签我在文档中找不到任何内容我想这需要我进行一些黑客攻击但在这样做之前我想看看是
C# 相当于 Java 的 Exception.printStackTrace()？

C 是否有与 Java 等效的方法Exception printStackTrace 或者我必须自己写一些东西通过 InnerExceptions 来解决尝试这个 Console WriteLine ex ToString From h
css api 的 jquery if else 条件

我有下面的 jquery 语句 this span section1 css background url images accordion closed left png no repeat scroll 0 0 transparent
WPF 从 DataTrigger 调用方法

是否可以使用通配符或调用方法来确定是否应应用 DataTrigger 我目前将 DataList 绑定到包含文件名的 IEnumerable 并且如果文件扩展名以 old 开头我希望文件名显示为灰色我的非工作梦想 xaml 标记看起来像
返回内置类型的常量值[重复]

这个问题在这里已经有答案了为内置类型返回 const 值是一个好的习惯吗原因是 const int F int y F x y 如果返回值是const 上面的代码将无法编译然而如果不是的话F x y 是一个非常隐蔽的错误由于为函数
UserType / Hibernate / JodaTime - 在哪里设置 UserType 全局属性？

我正在使用org jadira usertype dateandtime joda PersistentDateTimeUserType 3 0 0 RC1 中的类来映射 JodaTimeDateTime进入休眠状态 Java文档 http
为什么 Collections.Frequency 在转换后的列表上无法按预期工作？

我过去使用过 Collections Frequency 它工作得很好但现在我使用 int 时遇到了问题基本上 Collections Frequency 需要一个数组但我的数据采用 int 的形式所以我转换了我的列表但没有得到结
如何将 Bootstrap CDN 添加到我的 WordPress

我想在我的 Wordpress 中使用 Bootstrap 框架如何在functions php 中编辑我找到一个地方告诉这样的代码 function enqueue my scripts wp enqueue script jquer
带有 Spring-boot 后端的 Flutter websocket

好吧 Flutter 在食谱中有 WebSocket 配方 here https flutter dev docs cookbook networking web sockets 这对于 websocket org 测试服务器非常有效问题
WPF - 更改隐藏代码中的样式

我有一个显示 TFS 查询结果的列表框我想更改后面代码中 ListBoxItem 的样式以使查询结果中包含列 ListBox 项的样式在我的 Windows Resources 部分中定义我已经尝试过这个 public T GetQu
Nginx 不区分大小写 proxy_pass

我有一个网站叫http example com 正在运行一个可以通过以下位置访问的应用程序http example com app1 app1 位于 nginx 反向代理后面如下所示 location app1 proxy pass ht
BeautifulSoup 返回意外的额外空格

我正在尝试使用 BeautifulSoup 从 html 文档中获取一些文本在一个对我来说非常相关的案例中它产生了一个奇怪而有趣的结果在某一点之后汤在文本中充满了额外的空格空格将每个字母与下一个字母分开我试图在网络上搜索以找到原

BeautifulSoup 返回意外的额外空格

BeautifulSoup 返回意外的额外空格 的相关文章

随机推荐

热门标签

BeautifulSoup 返回意外的额外空格的相关文章