BeautifulSoup 找不到正确解析的元素

2024-01-09

我在用BeautifulSoup解析一堆可能非常脏的HTML文件。我偶然发现了一件非常奇怪的事情。

HTML 来自这个页面：http://www.wvdnr.gov/ http://www.wvdnr.gov/

它包含多个错误，例如多个<html></html>, <title>之外的<head>, etc...

然而，即使在这些情况下，html5lib 通常也能很好地工作。事实上，当我这样做时：

soup = BeautifulSoup(document, "html5lib")

我漂亮地打印soup，我看到以下输出：http://pastebin.com/8BKapx88 http://pastebin.com/8BKapx88

其中包含很多<a> tags.

然而，当我这样做时soup.find_all("a")我得到一个空列表。和lxml我也得到同样的结果。

那么：以前有人偶然发现过这个问题吗？到底是怎么回事？我如何获得链接html5lib找到但没有返回find_all?

即使正确的答案是“使用另一个解析器”（感谢@alecxe），我还有另一个解决方法。出于某种原因，这也有效：

soup = BeautifulSoup(document, "html5lib")
soup = BeautifulSoup(soup.prettify(), "html5lib")
print soup.find_all('a')

它返回相同的链接列表：

soup = BeautifulSoup(document, "html.parser")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

beautifulsoup

htmlparsing

html5lib

BeautifulSoup 找不到正确解析的元素的相关文章

Disqus 评论数始终为 0 条评论

我想我已经按照通用代码的说明设置了 Disqus 问题是它总是说某个帖子有 0 条评论拿这个帖子来说 http tx0rx0 com retropie and the raspberry pi http tx0rx0 com retrop
数据表“footerCallback”函数未在页脚中显示结果

我尝试获取每列的总和并将结果显示在页脚中我在用着页脚回调 https datatables net reference option footerCallbackDatatables提供的功能但是它在页脚中没有显示任何内容数据表解释
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
div 之间的额外空间从何而来？

http www lethalmonk6 byethost24 com index html http www lethalmonk6 byethost24 com index html 如果您使用 firebug 检查项目链接 div
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
如何仅突出显示嵌套表的最里面的表行？

我有几个嵌套表我想突出显示鼠标指针下方的最里面的行我怎样才能做到这一点一些提示我使用嵌套表来显示递归表格数据表可以嵌套 10 层嵌套正如您所期望的那样 table tr td table tr td table tr td 可能
tr 元素周围的边框不显示？

Chrome Firefox 似乎不渲染边框tr 但如果选择器是它会渲染边框table tr td 如何在 tr 上设置边框我的尝试不起作用 table tr border 1px solid black table tbody tr
我可以设置

BeautifulSoup 找不到正确解析的元素

BeautifulSoup 找不到正确解析的元素 的相关文章

BeautifulSoup 找不到正确解析的元素的相关文章