BeautifulSoup 返回意外的额外空格

2024-03-03

我正在尝试使用 BeautifulSoup 从 html 文档中获取一些文本。在一个对我来说非常相关的案例中,它产生了一个奇怪而有趣的结果:在某一点之后,汤在文本中充满了额外的空格(空格将每个字母与下一个字母分开)。我试图在网络上搜索以找到原因,但我只遇到了一些有关相反错误的新闻(根本没有空格)。

您对为什么会发生这种情况以及如何解决这个问题有一些建议或提示吗?

这是我创建的非常基本的代码:

from bs4 import BeautifulSoup

import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup

这是从结果中取出的一行,该问题开始出现的行:

value=\"Giuseppe labbate ogm? non vorremmo nuovi uccelli chiamati lontre\"> G i u s e p p e l a b a t e g m ? no n v or re m monuoviuccellicchiamatilontre


我相信这是 Lxml 的 HTML 解析器的一个错误。 尝试:

from bs4 import BeautifulSoup

import urllib2
html = urllib2.urlopen ("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova.replace('ISO-8859-1', 'utf-8'))
print soup

这是解决该问题的方法。 我相信该问题已在 lxml 3.0 alpha 2 和 lxml 2.3.6 中得到解决,因此值得检查您是否需要升级到较新的版本。

如果您想了解有关该错误的更多信息,该错误最初是在此处提交的:

https://bugs.launchpad.net/beautifulsoup/+bug/972466 https://bugs.launchpad.net/beautifulsoup/+bug/972466

希望这可以帮助,

Hayden

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

BeautifulSoup 返回意外的额外空格 的相关文章

随机推荐

  • 离开范围时 Swift 在 CFRelease 中崩溃

    我刚刚投入 iOS 开发 目前在 queryServer 函数末尾的 CFRelease 函数中遇到运行时错误 我在突出显示的行上添加了注释 但没有错误如果我注释掉对 extractIPFromQuery 的函数调用 下面的代码获取服务器的
  • simple_form 和引导程序验证不起作用

    我想设置一个 创建帐户 页面 我使用的宝石是 导轨 3 2 3 简单形式 2 0 1 全方位身份验证 twitter bootstrap rails 2 0 6 蒙戈伊德 2 2 3 表格如下所示 simple form for ident
  • 在 Jenkinsfile 中运行映像时如何传递 docker 容器参数

    我有一个以以下结尾的 Dockerfile ENTRYPOINT node index js CMD help The index js可以采用几个不同的参数 我还需要公开容器的端口 因此如果我手动运行它 我会执行以下操作 docker r
  • 组在 RabbitMQ 中接收消息,最好使用 Spring AMQP?

    我正在从服务 S 接收消息 该服务将每个单独的属性更改作为单独的消息发布到实体 一个人为的例子是这样的实体 Person id 123 name Something address 如果姓名和地址在同一交易中更新 则 S 将发布两条消息 P
  • 如何获取iframe的scrollTop

    当window是iframe时 jQuery的scrollTop返回null 有谁能弄清楚如何获取 iframe 的scrollTop 吗 更多信息 我的脚本在 iframe 本身中运行 父窗口位于另一个域中 因此我无法访问 iframe
  • 将多个/不同的 MongoTemplate 与相同的 Repository 类一起使用

    我有三个不同的 mongo 数据库 相同架构 的集合 所以我为此创建了一个存储库 但是我是否可以使用不同的 mongoTemplates 一个用于三个不同的数据库 但使用相同的存储库类 我可以创建三个不同的存储库类 每个数据库一个 但我不想
  • 批处理模式下 Kafka headers 作为列表

    我试图在以批处理模式消费消息的同时访问一些标头 如果我设置监听器来处理Message data Acknowledgment ack throws SQLException for int i 0 i lt data size Object
  • React - 错误:尝试运行 npm start 时找不到模块 React

    我在尝试为 React 应用程序运行 npm start 时遇到了一个错误 我的应用程序在开发过程中基本上按照我的预期运行 但是我遇到了一个错误 需要我更新我的节点版本作为潜在的修复 我将 node 更新到 v16 13 2 并且还决定将
  • JQuery 自动完成。如果找不到项目,显示“按 Enter 键插入自动完成”?

    我正在做一种标签自动完成组合 因此 基本上 当用户输入没有自动完成选项的查询 即 aaa 时 我希望自动完成下拉并显示 按 Enter 为 aaa 创建标签 我在文档中找不到任何内容 我想这需要我进行一些黑客攻击 但在这样做之前 我想看看是
  • C# 相当于 Java 的 Exception.printStackTrace()?

    C 是否有与 Java 等效的方法Exception printStackTrace 或者我必须自己写一些东西 通过 InnerExceptions 来解决 尝试这个 Console WriteLine ex ToString From h
  • css api 的 jquery if else 条件

    我有下面的 jquery 语句 this span section1 css background url images accordion closed left png no repeat scroll 0 0 transparent
  • WPF 从 DataTrigger 调用方法

    是否可以使用通配符或调用方法来确定是否应应用 DataTrigger 我目前将 DataList 绑定到包含文件名的 IEnumerable 并且如果文件扩展名以 old 开头 我希望文件名显示为灰色 我的非工作梦想 xaml 标记看起来像
  • 返回内置类型的常量值[重复]

    这个问题在这里已经有答案了 为内置类型返回 const 值是一个好的习惯吗 原因是 const int F int y F x y 如果返回值是const 上面的代码将无法编译 然而 如果不是的话F x y 是一个非常隐蔽的错误 由于为函数
  • UserType / Hibernate / JodaTime - 在哪里设置 UserType 全局属性?

    我正在使用org jadira usertype dateandtime joda PersistentDateTimeUserType 3 0 0 RC1 中的类来映射 JodaTimeDateTime进入休眠状态 Java文档 http
  • 为什么 Collections.Frequency 在转换后的列表上无法按预期工作?

    我过去使用过 Collections Frequency 它工作得很好 但现在我使用 int 时遇到了问题 基本上 Collections Frequency 需要一个数组 但我的数据采用 int 的形式 所以我转换了我的列表 但没有得到结
  • 如何将 Bootstrap CDN 添加到我的 WordPress

    我想在我的 Wordpress 中使用 Bootstrap 框架 如何在functions php 中编辑 我找到一个地方告诉这样的代码 function enqueue my scripts wp enqueue script jquer
  • 带有 Spring-boot 后端的 Flutter websocket

    好吧 Flutter 在食谱中有 WebSocket 配方 here https flutter dev docs cookbook networking web sockets 这对于 websocket org 测试服务器非常有效 问题
  • WPF - 更改隐藏代码中的样式

    我有一个显示 TFS 查询结果的列表框 我想更改后面代码中 ListBoxItem 的样式 以使查询结果中包含列 ListBox 项的样式在我的 Windows Resources 部分中定义 我已经尝试过这个 public T GetQu
  • Nginx 不区分大小写 proxy_pass

    我有一个网站叫http example com 正在运行一个可以通过以下位置访问的应用程序http example com app1 app1 位于 nginx 反向代理后面 如下所示 location app1 proxy pass ht
  • BeautifulSoup 返回意外的额外空格

    我正在尝试使用 BeautifulSoup 从 html 文档中获取一些文本 在一个对我来说非常相关的案例中 它产生了一个奇怪而有趣的结果 在某一点之后 汤在文本中充满了额外的空格 空格将每个字母与下一个字母分开 我试图在网络上搜索以找到原