Python html 解析确实有效

2024-02-08

我正在尝试用Python 解析一些html。以前有一些方法确实有效……但现在,如果没有解决方法,我实际上无法使用任何方法。

  • SGMLParser 消失后 beautifulsoup 出现问题
  • html5lib 无法解析“外面”的一半内容
  • lxml 试图对于典型的 html 来说“太正确”(属性和标签不能包含未知的名称空间,否则会抛出异常,这意味着几乎无法解析具有 Facebook connect 的页面)

如今还有哪些其他选择? (如果他们支持xpath,那就太好了)


确保您使用html解析 HTML 时使用的模块lxml:

>>> from lxml import html
>>> doc = """<html>
... <head>
...   <title> Meh
... </head>
... <body>
... Look at this interesting use of <p>
... rather than using <br /> tags as line breaks <p>
... </body>"""
>>> html.document_fromstring(doc)
<Element html at ...>

所有错误和异常都会消失,您将得到一个速度惊人的解析器,它通常比 BeautifulSoup 更好地处理 HTML soup。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python html 解析确实有效 的相关文章

  • 为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”,其值来自 raw_

    我正在尝试创建一个非常简单的程序 它将绘制一个抛物线 其中v是速度 a是加速度和x是时间 用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
  • 将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

    我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的 我正在使用读取 csv 文件pd read csv并将它们附加到列表中 出于这个问题的目的 让我们考虑以下代码 imp
  • Tensorflow 训练期间 GPU 使用率非常低

    我正在尝试为 10 类图像分类任务训练一个简单的多层感知器 这是 Udacity 深度学习课程作业的一部分 更准确地说 任务是对各种字体呈现的字母进行分类 数据集称为 notMNIST 我最终得到的代码看起来相当简单 但无论如何我在训练期间
  • 使用 NumPy 的 Mittag-Leffler 函数的不稳定性

    在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
  • 如何使用 CSS 将 div 置于表格中心?

    我正在尝试向我的网站之一添加幻灯片 整个页面布局在一个 HTML 表格中 我非常讨厌它并且没有选择 我想将我的幻灯片放在该特定列的中心 我的 CSS 如下所示 slideshow position relative slideshow IM
  • NodeJS 无法加载 css 文件

    所以我正在尝试制作一个 NodeJS 服务器 并且我尝试保留尽可能少的附加组件 但是 我遇到了一个问题 我似乎无法加载任何内容CSS我调用的文件HTML文件 该调用似乎确实由服务器处理 但它不会显示在浏览器中 My 网络服务器 js fil
  • 在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件?

    我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件 我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
  • 收到“/:未找到事件。”使用 PyCharm 远程调试器时

    当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器 很多时候它停止工作 并显示 未找到事件 更具体地说 我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
  • 如何使用 selenium 获取 javascript 结果?

    我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
  • 页面不会居中对齐

    我遇到了 CSS 问题 http www luukratief design nl dump parallax index html http www luukratief design nl dump parallax index htm
  • CryptoJS 和 Pycrypto 一起工作

    我正在使用 CryptoJS v 2 3 加密 Web 应用程序中的字符串 并且需要在服务器上使用 Python 对其进行解密 因此我使用 PyCrypto 我觉得我错过了一些东西 因为我无法让它工作 这是JS Crypto AES enc
  • 有不同图像尺寸的缩略图 Bootstrap

    我想要包含不同大小和不同文本量的图像的缩略图 但我希望它们都具有相同的大小 像这样来自 Bootstrap 站点的示例 http getbootstrap com components thumbnails custom content 下
  • Python 中的颜色处理

    对于我的聚类 GUI 我目前对聚类使用随机颜色 因为我事先不知道最终会得到多少个聚类 在 Python 中 这看起来像 import random def randomColor return random random random ra
  • 如何从 IDLE 命令行运行 Python 脚本?

    在 bash shell 中 我可以使用 bash 或 source 手动调用脚本 我可以在 Python IDLE 的交互式 shell 中做类似的事情吗 我知道我可以转到文件 gt gt 打开模块 然后在单独的窗口中运行它 但这很麻烦
  • 响应式菜单:悬停子菜单显示错误

    简而言之 我根据教程创建了一个响应式菜单 当您将鼠标悬停在投资组合按钮上时 菜单应该显示子菜单 而在移动模式下 您需要按该按钮才能显示子菜单 效果很好 问题是该教程有一个错误 如果您在桌面模式下按组合按钮 子菜单将不会再次显示 除非您按 单
  • 在 Python 中伪造一个对象是否是类的实例

    假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它 在Python 3中 是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
  • python 相当于 sed

    有没有一种方法 无需双循环即可完成以下 sed 命令的操作 Input Time Banana spinach turkey sed i Banana s Toothpaste file Output Time BananaToothpas
  • html 表格顶部对齐?

    我怎样才能让图像和内容向右顶部对齐 如你所见 我尝试了 valign top table border 0 cellspacing 0 cellpadding 0 tbody tr valign top td valign top img
  • 真实值与预测值的降维可视化

    我有一个数据框 如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
  • html5 canvas 使用图像作为蒙版

    是否可以使用具有形状的图像作为整个画布或画布内图像的蒙版 我想将图像放置在画布中 并在图像上添加蒙版 然后将其另存为新图像 您可以使用 source in globalCompositeOperation 将黑白图像用作蒙版 首先 将蒙版图

随机推荐

  • 让 CC-Tray 工作

    我正在尝试让 cc tray 工作 而不是使用网络仪表板 我不确定如何获得运行 Cruisecontrol 的服务器的正确 URL 并且在网上找不到任何有用的文档 有人可以帮忙吗 Thanks 我遇到了同样的问题 并解决了在添加服务器 ht
  • “未在此范围内声明”错误

    所以我正在编写这个简单的程序来使用发现的高斯算法来计算任何日期的日期here http en wikipedia org wiki Determination of the day of the week Gaussian algorith
  • Redis 对二级索引的支持

    redis是否支持字符串数据类型的二级索引 我已经安装了 redis 服务器来检查这一点 但无法清楚地找到执行此操作的方法 我想知道如何将数据与辅助密钥一起存储在 Redis 中 例如 假设我想存储车辆 ID 注册号 在我的情况下 这将是主
  • 直接应用 numpy 梯度结果与使用 xarray.apply_ufunc 应用的结果之间的差异

    我正在尝试使用 xarray 的apply ufunc包装 numpy 的gradient函数 以便沿一维获取梯度 然而 apply ufunc返回一个与使用的数组形状不同的数组np gradient直接返回 import xarray a
  • C 中构造函数和析构函数的命名约定 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 不要在管理中通过电子邮件 opencart 2.3.0.2 向客户发送电子邮件

    我想为客户电子邮件发送电子邮件 但显示消息成功 但不为 yahoo 或 gmail 发送电子邮件 我的开放式购物车是2 3 0 2 安全 SSL TLS 设置 推荐 Username email protected cdn cgi l em
  • 我正在尝试使用 System.Reflection.Emit 编写 .NET 编译器,如何进行类型解析?

    我有一个从引用的 dll 解析类型的策略 我一直在尝试解析正在编译的程序集中定义的类型 我使用的是 System Reflection Emit api 没有第三方库 例如 class A class B public A AnInstan
  • HTML5 视频控件 - 放大吗?

    我知道您可以自定义视频控件来制作自己的按钮 布局 但是有什么方法可以使默认控件更大 不是以跨浏览器的方式 但控件是用影子 DOM http www html5rocks com en tutorials webcomponents shad
  • VSCode 无法加载插件找不到模块“eslint-plugin-prettier”

    我正在安装eslint and Prettier在我的项目中 并尝试通过 VSCode 自动进行代码格式化 当我转到 React 文件时 我发现 ESLint 出现错误 因此我打开 ESLint 控制台 在其中看到 无法加载 js esli
  • 在Python和C#之间传递数据而不写入文件

    我想在 Python 和 C 之间传递二进制信息 我假设您可以打开一个标准的输入 输出通道并像文件一样读取和写入该通道 但是有很多移动部件 而且我不太了解 C 我想做这种事情 但不写文件 python code with open DATA
  • Python 相同的字符不等于

    我的数据库中有文本 我从 xhr 发送一些文本到我的视图 函数 find 未找到某些 unicode 字符 我想使用以下方法查找选定的文本 text find selection 但有时变量 选择 包含这样的字符 in xhr unichr
  • FieldValue.arrayRemove() 根据属性值从对象数组中删除对象

    我有一个具有以下结构的文档 email email protected cdn cgi l email protection value 100 children email email protected cdn cgi l email
  • JavaScript 检查时间范围是否重叠

    我有例如一个包含 2 个对象的数组 myObject1 和 myObject2 等 现在 当我添加第三个对象时 我将检查时间范围是否重叠 实际上我不知道如何以高性能的方式做到这一点 var myObjectArray var myObjec
  • 用于本地(非远程)命令执行的 ssh 隧道

    我想创建一个 Linux shell bash 脚本 该脚本创建 SSH 隧道 运行使用该隧道的本地命令 最后关闭隧道和周围的 SSH 连接 为了使解释起来更容易 请考虑有一个名为 remoteserver 的主机的本地 SSH 配置 其中
  • 正确使用 stacktrace 进行调试

    以下代码行导致我出现异常 plug Instance AddDocuments new Int32 val pid val ptype val doccat val subcat val doctype val notes val summ
  • 删除 QML 网格的子项

    我想循环遍历 QML 网格的子级并使用 Javascript 销毁它们中的每一个 Grid id contentGrid spacing 10 ImageItem imageSource file foo jpeg destroy this
  • 如何将img放置在div的右下角

    替代文本 http img190 imageshack us img190 7514 unbenanntax jpg http img190 imageshack us img190 7514 unbenanntax jpg 这就是我想做的
  • 由于 mysql 错误,Magento 站点关闭 一般错误:1030 来自存储引擎的错误 -1

    我什至删除了 log visitor 表中的所有记录 但仍然遇到同样的问题 以下是我得到的堆栈 SQLSTATE HY000 一般错误 1030 来自存储引擎的错误 1 0 home site public html lib Varien
  • Rouge gem 最小示例不显示格式?

    我部分遵循了简单的说明A of this https stackoverflow com a 37721539 5783745回答 该代码可以在浏览器中看到 但其格式不符合预期 当我查看源代码时 我可以看到正在生成 css 类 但它似乎没有
  • Python html 解析确实有效

    我正在尝试用Python 解析一些html 以前有一些方法确实有效 但现在 如果没有解决方法 我实际上无法使用任何方法 SGMLParser 消失后 beautifulsoup 出现问题 html5lib 无法解析 外面 的一半内容 lxm