为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？

2023-11-22

YCombinator 足够好，可以提供RSS feed and a 大RSS提要包含顶部项目黑客新闻。我正在尝试编写一个 python 脚本来访问 RSS feed 文档，然后使用 BeautifulSoup 解析出某些信息。但是，当 BeautifulSoup 尝试获取每个项目的内容时，我遇到了一些奇怪的行为。

以下是 RSS 源的一些示例行：

<rss version="2.0">
<channel>
<title>Hacker News</title><link>http://news.ycombinator.com/</link><description>Links for the intellectually curious, ranked by readers.</description>
<item>
    <title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39;</title>
    <link>https://www.eff.org/press/releases/eff-patent-project-gets-half-million-dollar-boost-mark-cuban-and-notch</link>
    <comments>http://news.ycombinator.com/item?id=4944322</comments>
    <description><![CDATA[<a href="http://news.ycombinator.com/item?id=4944322">Comments</a>]]></description>
</item>
<item>
    <title>Two Billion Pixel Photo of Mount Everest (can you find the climbers?)</title>
    <link>https://s3.amazonaws.com/Gigapans/EBC_Pumori_050112_8bit_FLAT/EBC_Pumori_050112_8bit_FLAT.html</link>
    <comments>http://news.ycombinator.com/item?id=4943361</comments>
    <description><![CDATA[<a href="http://news.ycombinator.com/item?id=4943361">Comments</a>]]></description>
</item>
...
</channel>
</rss>

这是我编写的代码（用 python）来访问此提要并打印出title, link, and comments对于每个项目：

import sys
import requests
from bs4 import BeautifulSoup

request = requests.get('http://news.ycombinator.com/rss')
soup = BeautifulSoup(request.text)
items = soup.find_all('item')
for item in items:
    title = item.find('title').text
    link = item.find('link').text
    comments = item.find('comments').text
    print title + ' - ' + link + ' - ' + comments

但是，该脚本给出的输出如下所示：

EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39; -  - http://news.ycombinator.com/item?id=4944322
Two Billion Pixel Photo of Mount Everest (can you find the climbers?) -  - http://news.ycombinator.com/item?id=4943361
...

正如你所看到的，中间的项目，link，不知何故被省略了。也就是说，结果值link不知何故是一个空字符串。那么这是为什么呢？

当我深入研究其中的内容时soup，我意识到它在解析 XML 时有点令人窒息。这可以通过查看第一项来看出items:

>>> print items[0]
<item><title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39;</title></link>https://www.eff.org/press/releases/eff-patent-project-gets-half-million-dollar-boost-mark-cuban-and-notch<comments>http://news.ycombinator.com/item?id=4944322</comments><description>...</description></item>

你会注意到一些奇怪的事情发生了link标签。它只是获取关闭标签，然后获取该标签后面的文本。这是一些非常奇怪的行为，尤其是与title and comments被解析没有问题。

这似乎是 BeautifulSoup 的问题，因为请求实际读取的内容没有任何问题。我不认为它仅限于 BeautifulSoup，因为我也尝试使用 xml.etree.ElementTree API 并且出现了同样的问题（BeautifulSoup 是基于这个 API 构建的吗？）。

有谁知道为什么会发生这种情况，或者我如何仍然可以使用 BeautifulSoup 而不会出现此错误？

注意：我终于能够通过 xml.dom.minidom 获得我想要的东西，但这似乎不是一个强烈推荐的库。如果可能的话我想继续使用BeautifulSoup。

Update：我使用的是 OSX 10.8、Python 2.7.2 和 BS4 4.1.3 的 Mac。

Update 2：我有 lxml，它是用 pip 安装的。它是3.0.2版本。至于libxml，我检查了/usr/lib，显示的是libxml2.2.dylib。不确定何时或如何安装的。

哇，好问题。在我看来，这是 BeautifulSoup 中的一个错误。您无法使用以下方式访问链接的原因soup.find_all('item').link是当你第一次将 html 加载到 BeautifulSoup 时，它对 HTML 做了一些奇怪的事情：

>>> from bs4 import BeautifulSoup as BS
>>> BS(html)
<html><body><rss version="2.0">
<channel>
<title>Hacker News</title><link/>http://news.ycombinator.com/<description>Links
for the intellectually curious, ranked by readers.</description>
<item>
<title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and 'No
tch'</title>
<link/>https://www.eff.org/press/releases/eff-patent-project-gets-half-million-d
ollar-boost-mark-cuban-and-notch
    <comments>http://news.ycombinator.com/item?id=4944322</comments>
<description>Comments]]&gt;</description>
</item>
<item>
<title>Two Billion Pixel Photo of Mount Everest (can you find the climbers?)</ti
tle>
<link/>https://s3.amazonaws.com/Gigapans/EBC_Pumori_050112_8bit_FLAT/EBC_Pumori_
050112_8bit_FLAT.html
    <comments>http://news.ycombinator.com/item?id=4943361</comments>
<description>Comments]]&gt;</description>
</item>
...
</channel>
</rss></body></html>

仔细一看，居然改变了第一个<link> tag to <link/>然后删除了</link>标签。我不确定为什么会这样做，但没有解决问题BeautifulSoup.BeautifulSoup类初始化，您现在无法使用它。

Update:

我认为你现在最好的（尽管是 hack-y）的选择是使用以下内容link:

>>> soup.find('item').link.next_sibling
u'http://news.ycombinator.com/'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？的相关文章

优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
USSD 接口 -> java web 应用程序通信

请需要一些有关通过 USSD 接口进行 Java Web 应用程序通信的信息我们需要实施这一举措以覆盖拥有低端手机的贫困社区的目标客户群我正在研究 USSD 作为与我们当前的 Java EE Web 应用程序进行通信的一种方式我相信
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
SQL Server XQuery 返回错误

我正在 SQL Server 2012 中对 XML 数据类型列执行查询数据示例如下

随机推荐

iOS 检测蓝牙连接/断开

即使我的应用程序处于后台当蓝牙设备与 iOS 连接或断开连接时是否可以收到通知在 Android 上我使用ACTION ACL CONNECTED and ACTION ACL DISCONNECTED事件但我找不到 iOS 的等
Chrome 特定的 CSS 问题将表格单元格设置为显示：块

I found 这个问题那似乎有我想要的我正在使用 chrome 32 0 1700 102 甚至fiddle第一个答案对我来说效果很好但是当我将以下 html 放入新文件并在 chrome 中打开它时 tds 的计算样式选项卡仍
Flutter 中是否有任何回调告诉我“构建”功能何时完成？

我的屏幕上有一个 listView 我已经给它附加了一个控制器我能够调用我的端点接收响应解析它并插入行中 ListView 应该自动滚动确实如此但不是以完美的方式我总是落后一个项目这是我的代码 override Widget
Serilog ：选择在运行时记录哪个接收器

我将在 net 标准 2 0 库中实现 Serilog 我正在寻找一种方法来选择每个日志行应使用哪个接收器假设我们在配置中定义了 2 个接收器控制台和文件 Log Logger new LoggerConfiguration Minim
为什么用c源代码调试时GDB会“跳回来”

我正在调试 goldfish android 内核版本 3 4 带有内核源代码现在我发现 gdb 有时会在行之间来回跳转例如考虑如下 c 源代码 char XXX int a if 当我到达if子句我输入n它会跳回到int a部分
Ruby on Rails / PostgreSQL - 启动服务器时出现库未加载错误

嘿哟如果这个问题已在另一个线程中得到回答我提前表示歉意我搜索过该网站但没有找到答案然而最接近的相关问题是Ruby on Rails PostgreSQL 启动服务器时出现库未加载错误 libq 5 dylib 但它从未解决答案
如何获得带有空格和大小写混合的随机字符串？

我需要生成一个带有空格和混合大小写的随机字符串 This到目前为止我所得到的就是
删除 groupby 中不包含元素的组 (Python Pandas)

让数据框如下所示 import pandas as pd df pd DataFrame name A A B B C C nickname X Y X Z Y Y 如何对 df 进行分组并删除那些不至少包含一个 X 的组 C 谢谢您可以
通过文件共享、用户身份验证通过网络复制文件

我正在构建一个 net C 控制台程序来将文件部署到 Windows 文件共享服务器正在共享的文件夹路径是 192 168 0 76 htdocs public 运行时我收到错误 09 35 29 Step 1 3 Unhandled
如何对算法进行逆向工程？

我想知道如何反转一种算法例如用于存储登录名或个人识别码的算法假设我有大量数据其中 7262627 gt gt 8172 5353773 gt gt 1132 等等这只是一个例子或者说将一个十六进制字符串转换为另一个字符串 h871
JavaScript 中如何检查字符串中是否包含数字？

我不明白在 JavaScript 中区分包含数字的字符串和其他字符串有多难 Number 评估为0 while 对于人类来说绝对不是一个数字 parseFloat强制使用数字但允许它们被任意文本所限制 isNaN对于空白字符串计算结果为
有没有办法在编译时将二进制文件作为 C 中的 const 变量加载

我想知道是否有一种方法可以通过包含文件或头文件或类似文件来加载外部二进制文件作为 C 中的变量例如在我目前正在进行的一个项目中我正在使用一个具有图形显示器的嵌入式系统该系统将使用 ASCII 数据和命令来显示文本和次要图形框线等
vb.net数据表序列化为json

我有这样的表我需要获取这个 JSON 当然顺序可以是任意的结构树是最重要的数据表可以改变所以序列化应该是动态的我正在使用 vb net 并使用以下代码 Public Function GetJson As String Dim
google-maps-react 获取拖动端的标记位置

我试图弄清楚如何在拖动标记时检索标记位置我找到了这个拖动标记事件并提供纬度经度回调并在我的应用程序上实现如下 export class MapContainer extends React Component onMarkerDra
Swift 必须调用超类 uiinputviewcontroller 的指定初始化程序

今天早上升级到 8 3 后我收到了该主题的错误下面的代码曾经完美地工作但是它不再编译了你们中有人可以帮助我吗 protocol CustomAccessoryProtocol func controlButtonPressed ta
在 Mac 上运行时更改基于 JavaFX 的应用程序的应用程序名称

请看一下这张图片 https i stack imgur com pFKKg png应用程序启动后是否可以在运行时更改 Mac OS X 系统菜单栏中的应用程序名称我的基于 JavaFX 的 Mac 应用程序如果无法在运行时更改是否
月度数据的季节性分解，包括 r 中的 NA

我需要帮助来分解具有季节性的每月数据但它不起作用因为 NA 值未删除可能还有另一个问题请查看我的数据和错误如下 ts monthly lt ts monthly rBC median frequency 12 start c 200
PHP 不区分大小写的explode()

我有以下代码 explode delimiter snippet 但我希望我的分隔符不区分大小写只需使用preg split 并通过flag i对于不区分大小写 keywords preg split your delimiter i t
如何只显示div的前几行（夹紧）？

我有一个清单divs我在其中显示较长文档的预览这些文档使用不同的字体样式所以我没有恒定的行高这是一个例子 http jsfiddle net z56vn 我只需要显示每个文档的前几行我们确定 300px 大约是合适的如果我简单地设
为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？

YCombinator 足够好可以提供RSS feed and a 大RSS提要包含顶部项目黑客新闻我正在尝试编写一个 python 脚本来访问 RSS feed 文档然后使用 BeautifulSoup 解析出某些信息但是当 B

为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？

Update:

为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？ 的相关文章

随机推荐

热门标签

为什么BeautifulSoup无法正确读取/解析这个RSS（XML）文档？的相关文章