需要 python lxml 语法帮助来解析 html

2024-02-28

我是 python 的新手，我需要一些有关使用 lxml 查找和迭代 html 标签的语法的帮助。以下是我正在处理的用例：

HTML 文件的格式相当好（但并不完美）。屏幕上有多个表格，其中一个包含一组搜索结果，每个表格包含页眉和页脚。每个结果行都包含搜索结果详细信息的链接。

我需要找到包含搜索结果行的中间表（我能够弄清楚这一点）：

    self.mySearchTables = self.mySearchTree.findall(".//table")
    self.myResultRows = self.mySearchTables[1].findall(".//tr")

我需要找到此表中包含的链接（这是我陷入困境的地方）：
```
    for searchRow in self.myResultRows:
        searchLink = patentRow.findall(".//a")
```
它似乎并没有真正找到链接元素。
我需要链接的纯文本。我想它会是这样的searchLink.text如果我真的首先得到了链接元素。

最后，在 lxml 的实际 API 参考中，我无法找到有关 find 和 findall 调用的信息。我从谷歌上找到的一些代码中收集了这些。我是否遗漏了有关如何使用 lxml 有效查找和迭代 HTML 标签的信息？

好的，首先，关于解析 HTML：如果您遵循 zweiterlinde 和 S.Lott 的建议，至少使用以下版本lxml 中包含 beautifulsoup http://lxml.de/elementsoup.html。这样您还将获得良好的 xpath 或 css 选择器界面的好处。

不过，我个人更喜欢 Ian Bicking 的lxml 中包含 HTML 解析器 http://lxml.de/lxmlhtml.html.

第二，.find() and .findall()来自试图与 ElementTree 兼容的 lxml，这两种方法在ElementTree 中的 XPath 支持 http://effbot.org/zone/element-xpath.htm.

这两个函数相当容易使用，但它们是非常有限的 XPath。我建议尝试使用完整的 lxmlxpath() method http://lxml.de/xpathxslt.html#the-xpath-method或者，如果您已经熟悉 CSS，请使用cssselect() method http://lxml.de/cssselect.html.

以下是一些示例，其中 HTML 字符串的解析如下：

from lxml.html import fromstring
mySearchTree = fromstring(your_input_string)

使用 css 选择器类，您的程序大致如下所示：

# Find all 'a' elements inside 'tr' table rows with css selector
for a in mySearchTree.cssselect('tr a'):
    print 'found "%s" link to href "%s"' % (a.text, a.get('href'))

使用 xpath 方法的等效方法是：

# Find all 'a' elements inside 'tr' table rows with xpath
for a in mySearchTree.xpath('.//tr/*/a'):
    print 'found "%s" link to href "%s"' % (a.text, a.get('href'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要 python lxml 语法帮助来解析 html 的相关文章

当默认 pip 为 pip2 时，升级 pip3 的正确格式是什么？

我为两者开发Python 2 and 3 因此我必须同时使用pip2 and pip3 使用时pip3 我收到此升级请求最后两行 pip3 install arrow Requirement already satisfied use
顶级棉花糖模式验证

From 棉花糖 validation http marshmallow readthedocs org en latest quickstart html validation 我知道我可以在架构中的特定字段上注册验证器如果验证器失败
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
查找 python 数据框中每行的最高值

我想找到每行中的最高值并返回 python 中该值的列标题例如我想找到每行的前两个 df A B C D 5 9 8 2 4 1 2 3 我希望我的输出看起来像这样 df B C A D 您可以使用字典理解来生成largest n数据帧
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
Python：使用for循环更改变量后缀

我知道这个问题被问了很多但到目前为止我无法使用理解答案我想改变for循环中变量的后缀我尝试了 stackoverflow 搜索提供的所有答案但很难理解提问者经常提出的具体代码因此为了清楚起见我使用一个简单的示例这并不意味着
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
如何使用 Ajax 在 Flask 中发布按钮值而不刷新页面？

我有一个问题当我单击 Flask 应用程序中的按钮时我想避免重新加载我知道有 Ajax 解决方案但我想知道如何将我的按钮链接到 ajax 函数以发布按钮值并运行链接到其值的 python 函数这是我的 html 按钮 div di
无法在 Windows 服务器上使 SVN 预提交脚本失败

我正在编写一个 SVN pre commit bat 文件该文件调用 Python 脚本来查询我们的问题跟踪系统以确定用户提供的问题跟踪 ID 是否处于正确的状态例如打开状态并与正确的关联项目 SVN 服务器运行 Windows
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return

随机推荐

SQL 调用临时表中的最大行数

在临时表中只有两列可用我想获取每次加载的最新ID 如下图所示我已经尝试过但它没有给我我需要的答案 select max rn plus 1 a load a id from select a load a id ROW NUMBER
交互式 lua：命令行参数

我想做 lua prog lua arg1 arg2 从命令行在prog lua里面我想说比如 print arg1 arg2 n Lua 似乎没有 argv 1 等而且我见过的处理命令行参数的方法似乎不成熟和或麻烦我错过了什么
在 Express 中使用“jade”模板引擎时渲染“html”

你如何渲染一个html文件同时保持模板引擎为jade app set view engine jade 是我将模板引擎设置为jade我想做一些类似的事情 app get world function req res res render
Android：ScrollView 内的 HorizontalScrollView

我有多个水平滚动视图里面一个滚动视图水平滚动一点也不流畅我必须几乎完全水平滚动才能滚动才能工作有没有一个简单的修复方法可以调整这个谢谢您可以将 Recycler 视图与交错布局管理器一起使用 StaggeredGridLayout
如何为 TFS 上的 dockerized F# Expecto 测试配置 CI

我有一些码头化的由 Expecto 和 fscheck 框架编写的 F 测试作为 dotnet 核心独立可执行文件如何在 Team Foundation Server 上配置持续集成以运行它们并在每次运行后获取相应的报告如果您的意思是
Play Framework：合并多模块项目中的多个全局对象

我正在使用 Play 2 3 和 Java 8 构建一个多模块项目根应用程序和每个模块都有一个全局对象但我们如何知道 Play 仅使用根应用程序中的一个全局对象简化的文件夹结构 root app Global java conf ap
SAS 中的“auto.arima”？

我曾经使用 auto arima 在 R 中运行 arima 模型来识别适合数据的最佳 arima 模型即使没有它在 R 中编写一个函数来执行类似的任务也很容易然而我这几天google了一下在SAS中找不到类似的过程有谁知道SA
在Python中应用PMML预测模型

Knime 为我生成了PMML http en wikipedia org wiki Predictive Model Markup Language模型这时候我想把这个模型应用到一个python进程中这样做的正确方法是什么更深入我
在应用程序浏览器中将 Instagram 转义至 Safari

我的网站中有一个链接可以重定向到 Instagram 登录以获取一些照片但该页面无法在 iOS 设备上的 Instagram 应用内浏览器上运行我的想法是放置一个链接以便用户可以单击它并重定向到 safari 或默认浏览器中的页面
有没有一种好方法可以让 Map get 和 put 忽略大小写？ [复制]

这个问题在这里已经有答案了有没有好的方法可以有一个Map
如何使用离线设备捕获地理位置 - cordova

我正在使用 cordova 开发一个应用程序并发现需要获取用户的纬度和经度数据但我的应用程序将离线使用无需互联网访问我有两个问题 1 如何检查设备是否启用 GPS 2 如何在没有互联网连接的情况下离线获取纬度和经度这是可能的我会
在 React 中设置单选按钮值

我正在制作一个简单的反应应用程序其表单具有单选按钮这里有一个可用的默认数据例如 const defaultData ContactMode 3 ContactMode 2 ContactMode 2 要求 gt 需要迭代这个defau
Tensorflow：“GraphDef 不能大于 2GB。”分配变量后保存模型时出错

我想用一个预训练的模型来热启动另一个有一点差异的模型简而言之我创建一个新模型并使用预训练的模型权重分配具有相同名称的变量但是在保存模型时出现错误 Traceback most recent call last File tf t
Android 应用程序在发布中崩溃，但在调试 NullPointerException 中不会崩溃

由于从我正在使用的 API 返回的数据发生了更改我最近更改了 2 行代码作为解决方法现在当使用发布的 apk 和 aab 时应用程序崩溃但是当我通过 API 27 上的 Android 模拟器使用该应用程序并将 API 27 设
多线程中 volatile 变量的值不会改变

我有一个在后台运行的 winform 应用程序BackgroundWorker它有一个无限循环每小时执行一些事情我的用户界面Form类是这样的 public partial class frmAutoScript Form privat
未找到 System.Data 程序集

我有一个参考System Data在我的Windows服务项目中我不断得到Exception 无法加载文件或程序集 System Data Version 4 0 0 0 Culture neutral PublicKeyToken b7
SkipList 与 Dictionary

我最近一直在阅读有关跳过列表的内容我有一个 Web 应用程序它对静态数据集执行相当复杂的 Sql 查询我想实现一个缓存系统生成 sql 查询的 md5 哈希值然后返回查询的缓存数据集如果集合中存在该数据集哪种算法更好字典还是
如何在android中列表视图为空时显示消息

我是 Android 方面的新手我正在创建一个应用程序其中包含将动态填充的列表视图我的要求是当列表为空时我想显示一条消息我不想仅仅为了显示此消息而创建其他视图有什么好的方法可以做到这一点吗有什么建议么 ListActivity
语法错误：插入“enum Identifier”，插入“EnumBody”，插入“}”

我编写了一个枚举类型当我运行为其创建的 JUnit 测试时该类型会出现以下语法错误 java lang Error Unresolved compilation problems Syntax error insert enum Ide
需要 python lxml 语法帮助来解析 html

我是 python 的新手我需要一些有关使用 lxml 查找和迭代 html 标签的语法的帮助以下是我正在处理的用例 HTML 文件的格式相当好但并不完美屏幕上有多个表格其中一个包含一组搜索结果每个表格包含页眉和页脚每个结果行

需要 python lxml 语法帮助来解析 html

需要 python lxml 语法帮助来解析 html 的相关文章

随机推荐

热门标签