

YCombinator 足够好,可以提供RSS feed and a 大RSS提要包含顶部项目黑客新闻。我正在尝试编写一个 python 脚本来访问 RSS feed 文档,然后使用 BeautifulSoup 解析出某些信息。但是,当 BeautifulSoup 尝试获取每个项目的内容时,我遇到了一些奇怪的行为。

以下是 RSS 源的一些示例行:

<rss version="2.0">
<title>Hacker News</title><link>http://news.ycombinator.com/</link><description>Links for the intellectually curious, ranked by readers.</description>
    <title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39;</title>
    <description><![CDATA[<a href="http://news.ycombinator.com/item?id=4944322">Comments</a>]]></description>
    <title>Two Billion Pixel Photo of Mount Everest (can you find the climbers?)</title>
    <description><![CDATA[<a href="http://news.ycombinator.com/item?id=4943361">Comments</a>]]></description>

这是我编写的代码(用 python)来访问此提要并打印出title, link, and comments对于每个项目:

import sys
import requests
from bs4 import BeautifulSoup

request = requests.get('http://news.ycombinator.com/rss')
soup = BeautifulSoup(request.text)
items = soup.find_all('item')
for item in items:
    title = item.find('title').text
    link = item.find('link').text
    comments = item.find('comments').text
    print title + ' - ' + link + ' - ' + comments


EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39; -  - http://news.ycombinator.com/item?id=4944322
Two Billion Pixel Photo of Mount Everest (can you find the climbers?) -  - http://news.ycombinator.com/item?id=4943361


当我深入研究其中的内容时soup,我意识到它在解析 XML 时有点令人窒息。这可以通过查看第一项来看出items:

>>> print items[0]
<item><title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and &#39;Notch&#39;</title></link>https://www.eff.org/press/releases/eff-patent-project-gets-half-million-dollar-boost-mark-cuban-and-notch<comments>http://news.ycombinator.com/item?id=4944322</comments><description>...</description></item>

你会注意到一些奇怪的事情发生了link标签。它只是获取关闭标签,然后获取该标签后面的文本。这是一些非常奇怪的行为,尤其是与title and comments被解析没有问题。

这似乎是 BeautifulSoup 的问题,因为请求实际读取的内容没有任何问题。我不认为它仅限于 BeautifulSoup,因为我也尝试使用 xml.etree.ElementTree API 并且出现了同样的问题(BeautifulSoup 是基于这个 API 构建的吗?)。

有谁知道为什么会发生这种情况,或者我如何仍然可以使用 BeautifulSoup 而不会出现此错误?

注意:我终于能够通过 xml.dom.minidom 获得我想要的东西,但这似乎不是一个强烈推荐的库。如果可能的话我想继续使用BeautifulSoup。

Update:我使用的是 OSX 10.8、Python 2.7.2 和 BS4 4.1.3 的 Mac。

Update 2:我有 lxml,它是用 pip 安装的。它是3.0.2版本。至于lib​​xml,我检查了/usr/lib,显示的是libxml2.2.dylib。不确定何时或如何安装的。

哇,好问题。在我看来,这是 BeautifulSoup 中的一个错误。您无法使用以下方式访问链接的原因soup.find_all('item').link是当你第一次将 html 加载到 BeautifulSoup 时,它对 HTML 做了一些奇怪的事情:

>>> from bs4 import BeautifulSoup as BS
>>> BS(html)
<html><body><rss version="2.0">
<title>Hacker News</title><link/>http://news.ycombinator.com/<description>Links
for the intellectually curious, ranked by readers.</description>
<title>EFF Patent Project Gets Half-Million-Dollar Boost from Mark Cuban and 'No
<title>Two Billion Pixel Photo of Mount Everest (can you find the climbers?)</ti

仔细一看,居然改变了第一个<link> tag to <link/>然后删除了</link>标签。我不确定为什么会这样做,但没有解决问题BeautifulSoup.BeautifulSoup类初始化,您现在无法使用它。


我认为你现在最好的(尽管是 hack-y)的选择是使用以下内容link:

>>> soup.find('item').link.next_sibling

