Python html 解析确实有效

2024-02-08

我正在尝试用Python 解析一些html。以前有一些方法确实有效……但现在，如果没有解决方法，我实际上无法使用任何方法。

SGMLParser 消失后 beautifulsoup 出现问题
html5lib 无法解析“外面”的一半内容
lxml 试图对于典型的 html 来说“太正确”（属性和标签不能包含未知的名称空间，否则会抛出异常，这意味着几乎无法解析具有 Facebook connect 的页面）

如今还有哪些其他选择？（如果他们支持xpath，那就太好了）

确保您使用html解析 HTML 时使用的模块lxml:

>>> from lxml import html
>>> doc = """<html>
... <head>
...   <title> Meh
... </head>
... <body>
... Look at this interesting use of <p>
... rather than using <br /> tags as line breaks <p>
... </body>"""
>>> html.document_fromstring(doc)
<Element html at ...>

所有错误和异常都会消失，您将得到一个速度惊人的解析器，它通常比 BeautifulSoup 更好地处理 HTML soup。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

Parsing

Python html 解析确实有效的相关文章

为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
如何使用 CSS 将 div 置于表格中心？

我正在尝试向我的网站之一添加幻灯片整个页面布局在一个 HTML 表格中我非常讨厌它并且没有选择我想将我的幻灯片放在该特定列的中心我的 CSS 如下所示 slideshow position relative slideshow IM
NodeJS 无法加载 css 文件

所以我正在尝试制作一个 NodeJS 服务器并且我尝试保留尽可能少的附加组件但是我遇到了一个问题我似乎无法加载任何内容CSS我调用的文件HTML文件该调用似乎确实由服务器处理但它不会显示在浏览器中 My 网络服务器 js fil
在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件？

我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
页面不会居中对齐

我遇到了 CSS 问题 http www luukratief design nl dump parallax index html http www luukratief design nl dump parallax index htm
CryptoJS 和 Pycrypto 一起工作

我正在使用 CryptoJS v 2 3 加密 Web 应用程序中的字符串并且需要在服务器上使用 Python 对其进行解密因此我使用 PyCrypto 我觉得我错过了一些东西因为我无法让它工作这是JS Crypto AES enc
有不同图像尺寸的缩略图 Bootstrap

我想要包含不同大小和不同文本量的图像的缩略图但我希望它们都具有相同的大小像这样来自 Bootstrap 站点的示例 http getbootstrap com components thumbnails custom content 下
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
响应式菜单：悬停子菜单显示错误

简而言之我根据教程创建了一个响应式菜单当您将鼠标悬停在投资组合按钮上时菜单应该显示子菜单而在移动模式下您需要按该按钮才能显示子菜单效果很好问题是该教程有一个错误如果您在桌面模式下按组合按钮子菜单将不会再次显示除非您按单
在 Python 中伪造一个对象是否是类的实例

假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它在Python 3中是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
python 相当于 sed

有没有一种方法无需双循环即可完成以下 sed 命令的操作 Input Time Banana spinach turkey sed i Banana s Toothpaste file Output Time BananaToothpas
html 表格顶部对齐？

我怎样才能让图像和内容向右顶部对齐如你所见我尝试了 valign top table border 0 cellspacing 0 cellpadding 0 tbody tr valign top td valign top img
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
html5 canvas 使用图像作为蒙版

是否可以使用具有形状的图像作为整个画布或画布内图像的蒙版我想将图像放置在画布中并在图像上添加蒙版然后将其另存为新图像您可以使用 source in globalCompositeOperation 将黑白图像用作蒙版首先将蒙版图

随机推荐

让 CC-Tray 工作

我正在尝试让 cc tray 工作而不是使用网络仪表板我不确定如何获得运行 Cruisecontrol 的服务器的正确 URL 并且在网上找不到任何有用的文档有人可以帮忙吗 Thanks 我遇到了同样的问题并解决了在添加服务器 ht
“未在此范围内声明”错误

所以我正在编写这个简单的程序来使用发现的高斯算法来计算任何日期的日期here http en wikipedia org wiki Determination of the day of the week Gaussian algorith
Redis 对二级索引的支持

redis是否支持字符串数据类型的二级索引我已经安装了 redis 服务器来检查这一点但无法清楚地找到执行此操作的方法我想知道如何将数据与辅助密钥一起存储在 Redis 中例如假设我想存储车辆 ID 注册号在我的情况下这将是主
直接应用 numpy 梯度结果与使用 xarray.apply_ufunc 应用的结果之间的差异

我正在尝试使用 xarray 的apply ufunc包装 numpy 的gradient函数以便沿一维获取梯度然而 apply ufunc返回一个与使用的数组形状不同的数组np gradient直接返回 import xarray a
C 中构造函数和析构函数的命名约定 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
不要在管理中通过电子邮件 opencart 2.3.0.2 向客户发送电子邮件

我想为客户电子邮件发送电子邮件但显示消息成功但不为 yahoo 或 gmail 发送电子邮件我的开放式购物车是2 3 0 2 安全 SSL TLS 设置推荐 Username email protected cdn cgi l em
我正在尝试使用 System.Reflection.Emit 编写 .NET 编译器，如何进行类型解析？

我有一个从引用的 dll 解析类型的策略我一直在尝试解析正在编译的程序集中定义的类型我使用的是 System Reflection Emit api 没有第三方库例如 class A class B public A AnInstan
HTML5 视频控件 - 放大吗？

我知道您可以自定义视频控件来制作自己的按钮布局但是有什么方法可以使默认控件更大不是以跨浏览器的方式但控件是用影子 DOM http www html5rocks com en tutorials webcomponents shad
VSCode 无法加载插件找不到模块“eslint-plugin-prettier”

我正在安装eslint and Prettier在我的项目中并尝试通过 VSCode 自动进行代码格式化当我转到 React 文件时我发现 ESLint 出现错误因此我打开 ESLint 控制台在其中看到无法加载 js esli
在Python和C#之间传递数据而不写入文件

我想在 Python 和 C 之间传递二进制信息我假设您可以打开一个标准的输入输出通道并像文件一样读取和写入该通道但是有很多移动部件而且我不太了解 C 我想做这种事情但不写文件 python code with open DATA
Python 相同的字符不等于

我的数据库中有文本我从 xhr 发送一些文本到我的视图函数 find 未找到某些 unicode 字符我想使用以下方法查找选定的文本 text find selection 但有时变量选择包含这样的字符 in xhr unichr
FieldValue.arrayRemove() 根据属性值从对象数组中删除对象

我有一个具有以下结构的文档 email email protected cdn cgi l email protection value 100 children email email protected cdn cgi l email
JavaScript 检查时间范围是否重叠

我有例如一个包含 2 个对象的数组 myObject1 和 myObject2 等现在当我添加第三个对象时我将检查时间范围是否重叠实际上我不知道如何以高性能的方式做到这一点 var myObjectArray var myObjec
用于本地（非远程）命令执行的 ssh 隧道

我想创建一个 Linux shell bash 脚本该脚本创建 SSH 隧道运行使用该隧道的本地命令最后关闭隧道和周围的 SSH 连接为了使解释起来更容易请考虑有一个名为 remoteserver 的主机的本地 SSH 配置其中
正确使用 stacktrace 进行调试

以下代码行导致我出现异常 plug Instance AddDocuments new Int32 val pid val ptype val doccat val subcat val doctype val notes val summ
删除 QML 网格的子项

我想循环遍历 QML 网格的子级并使用 Javascript 销毁它们中的每一个 Grid id contentGrid spacing 10 ImageItem imageSource file foo jpeg destroy this
如何将img放置在div的右下角

替代文本 http img190 imageshack us img190 7514 unbenanntax jpg http img190 imageshack us img190 7514 unbenanntax jpg 这就是我想做的
由于 mysql 错误，Magento 站点关闭一般错误：1030 来自存储引擎的错误 -1

我什至删除了 log visitor 表中的所有记录但仍然遇到同样的问题以下是我得到的堆栈 SQLSTATE HY000 一般错误 1030 来自存储引擎的错误 1 0 home site public html lib Varien
Rouge gem 最小示例不显示格式？

我部分遵循了简单的说明A of this https stackoverflow com a 37721539 5783745回答该代码可以在浏览器中看到但其格式不符合预期当我查看源代码时我可以看到正在生成 css 类但它似乎没有
Python html 解析确实有效

我正在尝试用Python 解析一些html 以前有一些方法确实有效但现在如果没有解决方法我实际上无法使用任何方法 SGMLParser 消失后 beautifulsoup 出现问题 html5lib 无法解析外面的一半内容 lxm

Python html 解析确实有效

Python html 解析确实有效 的相关文章

随机推荐

热门标签

Python html 解析确实有效的相关文章