xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）

2023-05-16

上一篇文章主要给大家介绍了Xpath的基础知识，大家看完之后有没有收获呢？按照计划，今天就结合示例给大家介绍如何使用Xpath？

1.获取所有节点

我们一般会用「//」开头的Xpath规则来选取所有符合要求的节点。以下面的HTML文本为例，如果要选取所有节点，可以这样实现：

运行结果如下：

[<Element html at 0x295b308>, <Element body at 0x295b2c8>, <Element div at 0x295b3c8>, <Element ul at 0x295b408>, <Element li at 0x295b448>, <Element a at 0x295b4c8>, <Element li at 0x295b508>, <Element a at 0x295b548>, <Element li at 0x295b588>, <Element a at 0x295b488>, <Element li at 0x295b5c8>, <Element a at 0x295b608>, <Element li at 0x295b648>, <Element a at 0x295b688>]

这里使用*代表匹配所有节点，也就是整个HTML文本的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是Elment类型，其后跟了节点的名称，如html、body、div、ul、li、a等，所有节点都包含在列表中了。

如果想获取指定节点名称，例如li节点，操作如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])

这里要选取li节点，可以使用//，然后直接加上节点名称即可，调用时直接使用xpath()方法即可。

运行结果如下：

[<Element li at 0x294b448>, <Element li at 0x294b488>, <Element li at 0x294b4c8>, <Element li at 0x294b508>, <Element li at 0x294b548>]
<Element li at 0x294b448>

我们可以看到提取结果是一个列表形式，其中每个元素都是一个Elment对象。如果要取出其中一个对象，可以直接用中括号加索引，如[0]。

2.获取子节点

我们通过/或//即可查找元素的子节点或子孙节点。假如现在想选择li节点的所有直接a子节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

这里通过追加/a即选择了所有li节点的所有直接a子节点。因为//li用于选中所有li节点，/a用于选中li节点的所有直接子节点a，二者组合在一起即获取所有li节点的所有直接a子节点。

运行结果如下：

[<Element a at 0x292e2c8>, <Element a at 0x292e308>, <Element a at 0x292e348>, <Element a at 0x292e388>, <Element a at 0x292e3c8>]

此处的/用于选取直接子节点，如果要获取所有子孙节点，就可以使用//。例如，要获取ul节点下的所有子孙a节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

运行结果如下：

[<Element a at 0x293b408>, <Element a at 0x293b448>, <Element a at 0x293b488>, <Element a at 0x293b4c8>, <Element a at 0x293b508>]

但是如果这里用//ul/a，就无法获取任何结果了。因为/用于获取直接子节点，而在ul节点下没有直接的a子节点，只有li节点，所以无法获取任何匹配结果，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//ul/a')
print(result)

运行结果如下：

[]

小结：这里我们要注意/和//的区别，其中/用于获取直接子节点，//用于获取子孙节点。

3.获取父节点

假如我们知道了子节点，怎么来查找父节点呢？可以用..来实现。

比如，现在首先选中href属性为link4.html的a节点，然后再获取其父节点，然后再获取class属性，相关代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

运行结果如下：

['item-1']

检查一下结果发现，这正是我们获取的目标li节点的class。

同时，我们也可以通过parent：：来获取父节点，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

4.属性匹配

在选取的时候，我们还可以用@符号进行属性过滤。比如，这里选取class为item-0的li节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

这里我们通过加入[@class=“item-0”]，限制了节点的class属性为item-0，而HTML文本中符合条件的li节点有两个，所以结果应该返回两个匹配到的元素。结果如下：

[<Element li at 0x293e2c8>, <Element li at 0x293e308>]

可见，匹配到的结果正是两个，至于是不是那正确的两个，后面再验证。

5.获取文本

我们用Xpath中的text（）方法获取节点的文本，接下来尝试获取前面li节点中的文本，相关代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

运行结果如下：

['rn']

奇怪的是，我们并没有获取到任何文本，只获取到了一个换行符，这是为什么呢？

因为Xpath中text()前面是/，而此处/的含义是选取直接子节点，很明显li的直接子节点都是a节点，文本都是在a节点内部，所以这里匹配到的结果就是被修正的li节点内部的换行符，因为自动修正的li节点的尾标签换行了。

即选中的是这两个节点：

<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li>

其中一个节点因为自动修正，li节点的尾标签添加的时候换行了，所以提取文本得到唯一结果就是li节点的尾标签和a节点的尾标签之间的换行符。

因此，如果想获取li节点内部的文本，就有两种方式，一种是先选取a节点再获取文本，另一种就是使用//。接下来，我们来看一下二者的区别。

（1）选取到a节点再获取文本，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

运行结果如下：

['first item', 'fifth item']

可以看到，这里的返回值是两个，内容都是属性为item-0的li节点的文本，这也验证了前面属性匹配的结果是正确的。

这里我们是逐层选取的，先选取了li节点，又利用/选取了其直接子节点a，然后再选取其文本，得到的结果恰好是符合我们预期的两个结果。

（2）再来看一下另一种方式（即使用//）选取的结果，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

运行结果如下：

['first item', 'fifth item', 'rn']

不出所料，这里的返回结果是3个。分析可知，这里是选取所有子孙节点的文本，其中前面两个就是li的子节点a节点内部的文本，另一个就是最后一个li节点内部的文本，即换行符。

小结：如果要想获取子孙节点内部的所有文本，可以直接用//加text（）的方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。

如果想获取某些特定子孙节点下的所有文本，可以先选取到特定的子孙节点，然后再调用text（）方法获取其内部文本，这样可以保证获取到的结果是整洁的。

6.获取属性

这里我们用@符号就可以获取节点属性。例如，我们想获取所有li节点下所有a节点的href属性，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

这里我们通过@href即可获取节点href属性。注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如[@href=“link1.html”]，而此处的@href指的是获取节点的某个属性，二者需要做好区分。

运行结果如下：

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

可以看到，我们成功获取了所有li节点下a节点的href属性，它们以列表形式返回。

7.属性多值匹配

有时候，某些节点的某个属性可能有多个值，例如：

from lxml import etree
text = """
<li class="li li-first"><a href="link.html">first item</a></li>
"""
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

这里HTML文本中li节点的class属性有两个值li和li-first，此时如果还想用之前的属性匹配获取，就无法匹配了，此时的运行结果如下：

[]

这时就需要用contains（）函数了，代码可以改写如下：

from lxml import etree
text = """
<li class="li li-first"><a href="link.html">first item</a></li>
"""
html = etree.HTML(text)
result = html.xpath('//li[contains(@class,"li")]/a/text()')
print(result)

这样通过contains（）方法，第一个参数传入属性名称，第二个参数传入属性值，只要此属性包含所传入的属性值，就可以完全匹配了。

此时运行结果如下：

['first item']

此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的class属性通常有多个。

总结

到目前为止，我们基本上把可能用到的Xpath选择器介绍完了。今天我们主要介绍了Xpath在获取所有节点、子节点、父节点、文本、属性、以及属性多值匹配、多属性匹配等方面的具体操作，Xpath功能非常强大，内置函数非常多，熟练使用之后，可以大大提升HTML信息的提取效率。

如果想查询更多Xpath的用法，可以查看：http://www.w3school.com.cn/xpath/index.asp。如果想查询更多Python lxml库的用法，可以查看http://lxml.de/。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）的相关文章

CGAL中的3D布尔运算

CGAL是Computational Geometry Algorithms Library 的简称 xff0c 主页是 xff1a http www cgal org 在主页的左栏有Mailing Lists xff0c 在这里有很多人在
python xml etree_Python xml.etree格式化美化？

我使用xml etree ElementTree解析XML文件 xff0c 并认为一个孩子为一个元素添加脚本我有两种方法 xff0c 即在技术上的工作 xff0c 但结果都在搞砸格式化空格当我转储使用ET dump xff08 根 xf
怎么用python输入计算公式_「0基础学Python」如何使用python完成算数运算？

Python近几年来越来越受到各行各业的喜爱 xff0c 主要还是因为Python语言的简洁性 xff0c 下边小编就带大家一起来看一下用Python来实现我们小学时候的加减乘除运算时有多么的简单 xff01 实例 xff1a 加减乘除运算
光纤中的多种光学模式芯径_光纤基础知识介绍，看懂这一篇就够！

弱电监控系统中 xff0c 当链路传输距离超过100米后 xff0c 我们就会考虑使用光纤传输 xff0c 光纤具有抗干扰能力强 xff0c 传输距离远 xff0c 带宽大等优势 xff0c 今天我们就来一起聊聊光纤的基础知识 xff01
python 读取windows进程内存_python通过wmi获取windows下进程的信息

linux应该有很多方法可以获取进程的cpu和内存信息 xff0c 但windows貌似之前接触的是psutil xff0c 后来查了一些资料发现wmi也能够获取进程的信息 xff0c 但貌似效率不太高 xff0c 应该可以做监控等性能要求
python openstackclient_在Linux系统上安装和配置OpenStack Client（客户端）的方法

本文介绍在Linux操作系统上安装和配置OpenStack Client 客户端的方法 xff0c OpenStack Client是OpenStack的命令行客户端工具 xff0c 它将计算身份图像对象存储和块存储API的命令集放
mybatisplus page排序_mybatis 分页插件 mybatis-plus-page

mybatis plus page 详细介绍 mybatis分页插件MicroPageInterceptor 特点 xff1a 1 xff0c 支持mysql和oracle分页 2 xff0c 不必在xml编写统计count的sql 3 x
Arch Linux开启SSH远程安装

现在你的眼前应该可以看到 root 64 liujunjun 的提示首先 xff0c 建立目标机器的网络设置 xff1a 安装和升级软件包前 xff0c 先让本地的包数据库和远程的软件仓库同步是个好习惯 root 64 liujunjun
Kali Linux忘记root账号密码的解决方法

一方法步骤首先启动Kali 系统 xff0c 等待出现GRUB引导菜单 xff1b 这时我们按下方向键选择恢复模式 xff0c 按E键进入编辑状态进入恢复模式的编辑状态后 xff0c 找到标注对方进行修改将ro改为rw xf
应急响应的整体思路和基本流程

2018 年信息安全事件频发 xff0c 信息安全的技能人才需求大增现在 xff0c 不管是普通的企业 xff0c 还是专业的安全厂商 xff0c 都不可避免的需要掌握和运用好信息安全的知识技能 xff0c 以便在需要的时候 xff0
Linux ag命令的安装及使用

一 ag命令安装 yum y span class token function install span the silver searcher 二 ag命令常用参数 ag命令类似grep 和 find xff0c 但是执行效率比grep
用plot,hist等函数画各种图示

hist函数 xff0c 给定一堆数据 xff0c 统计数据在某一值的个数 plot是给定横纵坐标向量 xff0c 描绘点列统计频率 hist 第一步 xff1a 用load导入文本数据 xff0c Matlab会自动生成以文件名命名的
linux 的tee命令

如果你在linux下希望将程序或命令运行的信息 xff0c 在输入到文件的同时 xff0c 也能够显示在屏幕上 xff0c 你可以考虑使用tee这个命令举个例子 xff0c 直接上图 span class token function l
网络安全等级保护拓扑图大全

一整体技术体系架构产品清单下一代防火墙数据库审计负载均衡感知平台 43 xff08 检测探针 xff09 上网行为管理 SSL VPN 信服云眼信服云盾日志审计系统漏洞扫描系统主机杀毒运维堡垒机二云平台安全建设拓扑
linux系统chromium设置中文,在linux上使用更新替代设置Chromium作为默认的web浏览器...

我尝试使用update替代方法通过以下命令将Chromium设置为默认的web浏览器虽然我成功地将 39 snap bin chromium 39 添加到 config中但它没有起作用 levi 64 Lab XPS sudo upda
python画应力云图_利用Python对Abaqus进行后处理结果输出

利用Python对Abaqus进行后处理结果输出 1 概述在Abaqus的二次开发过程中 xff0c 通常需要采用Python脚本语言将Abaqus的计算结果进行输出 xff0c 然后再进行处理 Python使Abaqus的内核语言 xf
portainer忘记用户名密码_大华监控设备密码忘记怎么办

写在前面首先要了解的是 xff0c 安防监控产品首要注重的是安全性保密性 xff0c 因此设置一个相对复杂的密码很重要 xff0c 其次网络摄像头 IPC 为前端编码 xff0c 因此和模拟同轴摄像头不同的是 xff0c 网络摄像头也
VS2019 C#安装那些插件_Visual Studio 2019 安装教程

软件下载长按选择复制链接 Visual Studio 2019 32 64位 1 3MB 下载地址语言 xff1a 简体中文安装环境 xff1a Win7 Win8 Win10 https docs qq com doc DZWxaT
python怎么输入百分数_python怎么用百分数

Python 输出百分比的两种方式注 xff1a 在python3环境下测试方式1 xff1a 直接使用参数格式化 xff1a 2 2 xff1a 显示小数点后2位显示小数点后2位 xff1a gt gt gt print 39 pe
74ls390设计任意进制计数器_数电复习之任意进制计数器设计

点击上方蓝字给一个关注吧数电复习之任意进制计数器设计首先再提醒一下 xff0c 四五章的内容之前已经写过 xff0c 需要的同学可以翻一下本公众号历史消息 xff0c 最开始的几篇就是本篇内容是将之前落下的用集成计数器芯片进行任意

随机推荐

matlab清除坐标轴,matlab 使用技巧之设置坐标轴

使用matlab的绘图函数plot绘图时系统默认设置了一些属性 xff0c 例如坐标轴字号大小等并根据情况自动设置坐标轴显示的上下限 xff0c 这些属性可以通过函数灵活改动 xff0c 此处总结一小部分 figure 设置坐标轴线宽加边
无线路由器关掉dhcp服务器,无线路由器关闭dhcp会好不好

无线路由器关闭DHCP服务器后 xff0c 所有接入WIFI的移动设备都需要使用静态IP地址对于没有IT知识的用户 xff0c 在使用路由器上网时 xff0c 路由器中的DHCP功能千万不要关闭 xff0c 否则会出现无法上网的问题路由
GiD初步使用

GiD软件具有全面的几何建模网格划分 CAD数据导入后处理结果显示等功能 GiD采用类似于CAD的操作模式 xff0c 用户在使用GiD创建复杂模型问题时 xff0c 会感受到前所未有的方便和轻松它易于操作方便灵活直观便捷 1 下
问道海岛地区服务器维护,问道手游今日09:00服务器停机维护通知_网络-游戏圈...

亲爱的玩家 xff1a 为了给各位道友提供更好的修行环境 xff0c 问道手游梦回佳境服务器将于2015年11月27日09 00进行停机维护 xff0c 维护时间预计持续1小时 xff0c 如遇到突发性事件维护时间将会顺延 xff0c
客户机打开文件服务器,从服务器数据库上载并在客户机上打开文件

如何组织从服务器数据库下载文件并在客户机上打开它 xff1f 我的代码仅在服务器上打开页面时起作用 xff1a OracleCommand oracleCom 61 new OracleCommand oracleCom Connectio
微星主板黑苹果_一次踩完两个坑：风冷 ITX + 十代黑苹果 = 桌底小钢炮

本内容来源于 64 什么值得买APP xff0c 观点仅代表作者本人 xff5c 作者 xff1a 陈星星创作立场声明 xff1a 文中所有商品均自费购买 xff0c 分享一下折腾的喜悦和痛苦购买理由原来使用的白苹果设备好几年了 xf
linux 快照工具,技术预览：CentOS 7中利用Snapper GUI管理系统快照

Snapper gui是snapper的界面化管理工具 xff0c 支持btrfs ext4和精简LVM xff0c 因其目前尚在开发阶段 xff0c 很多功能尚不完善 xff0c 这里仅作为技术预览做简单介绍准备工作 CentOS 7中
笔记本电脑换显卡_旧电脑舍不得扔？旧物新用，10年笔记本电脑500元升级计划...

本文首发于什么值得买平台请关注本账号获取更多好文 xff0c 作者 xff1a VitaminC爱摄影 Hi xff0c 亲爱的值友们 xff0c 值无不言栏目新的一期上线啦 xff01 无论你是想了解更多攻略还是学习更多知识 xff0c
linux 安装jre和jdk,linux安装jdk jre

先卸载以前的rpm qa grep jdk 然后rpm e nodeps所有接着解压安装包 xff0c vi etc profile配置环境 JAVA HOME 61 usr local java jdk1 7 0 79 JRE HOME
ios 线条球_iOS 一条线条绕贝塞尔曲线做动画?

这个题目说得不清楚 xff0c 我先猜想题主的意图 xff0c 可能猜错假设是 2 维情况先有一条贝塞尔曲线组成的线条 xff0c 假设为红色之后有个小点在红色线条上移动 xff0c 小点移动过的路径就是蓝色 xff0c 还没有移动到
iphone储存空间系统怎么清理_苹果12iCloud储存空间不足怎么办-IPhone12iCloud存储空间不足解决方法...

苹果12iCloud储存空间不足怎么办 xff1f 当我们在使用IPhone12手机时 xff0c 在使用过程中收到iCloud储存空间不足的提示 xff0c 该怎么解决这个问题呢 xff0c 怎么解决IPhone 12iCloud储存空间
整个电脑键盘被锁住了_键盘锁住了，怎么解锁

可能是由于您的电脑曾经外接过键盘 xff0c 您可以将外接键盘重新连接 xff0c 然后再按下 Numlock 键解锁 xff0c 或者是Fn 和 Numlock 键解锁 xff1b 还有可能是用 Fn 键加快捷键解除全局的键盘键以下是详
通达信手机版指标源码大全_通达信手机版指标源码公式：抄底逃顶副图指标公式...

电脑版效果展示 xff1a 手机版效果展示 xff1a 指标源码 xff1a 多空 EMA CLOSE MA 2 CLOSE 43 HIGH 43 LOW 4 30 MA 2 CLOSE 43 HIGH 43 LOW 4 30 100 3
GiD学习笔记

1 GiD的工作模式有两个 xff1a preprocessing and postprocessing To change between both modes please selectFiles gt Postprocess 2 Gi
西子奥的斯电梯服务器使用教程方法_OTIS电梯服务器简单使用说明

OTIS 电梯服务器简单使用说明来源发布日期 2008 1 9 本说明书仅以与 TOEC 40 型电梯相连时为例 xff0c 与其它电梯相连时略有不同测试工具接在 LB 逻辑板上 xff0c 因此它可以一边登记一边检查轿厢的状况和各
产生随机小数_Excel办公技巧：运用RANDBETWEEN函数生成随机密码和随机编码

今天我们学习运用RANDBETWEEN函数生成随机密码和随机编码 xff0c 在讲解案例前 xff0c 先了解一下RANDBETWEEN函数 RANDBETWEEN函数的语法结构和特征 RANDBETWEEN函数用于随机生成两个整数之间的整
文档转换云服务器,pdf转换成word云服务器

pdf转换成word云服务器内容精选换一换切换操作系统是为您的弹性云服务器重新切换一个系统盘切换完成后弹性云服务器的系统盘ID会发生改变 xff0c 并删除原有系统盘如果弹性云服务器当前使用的操作系统不能满足业务需求如软件要求的
carx2服务器维修,CarX漂移赛车2

CarX漂移赛车2是一款以赛车为题材的竞速类手游 xff0c CarX漂移赛车2中玩家以第一人称驾驶视角来体验游戏 xff0c 3D高清逼真的游戏画面给你带来最刺激的驾驶体验 xff0c 海量的赛车类型 xff0c 自由改装的玩法 xff0
饥荒怎么修改创建好的服务器,联机版饥荒创建世界后怎么再次修改设置 | 手游网游页游攻略大全...

发布时间 xff1a 2016 02 15 存档保存位置是很多玩家对此并不是很了解不过别着急哟下面99单机小编就为你带来高玩分享的相关技巧心得攻略希望大家能喜欢联机版的存档与单机版是不同的由于联机版饥荒建标签 xff1a 游戏
xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）

上一篇文章主要给大家介绍了Xpath的基础知识 xff0c 大家看完之后有没有收获呢 xff1f 按照计划 xff0c 今天就结合示例给大家介绍如何使用Xpath xff1f 1 获取所有节点我们一般会用开头的Xpath规则来选取所有符

xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）

xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏） 的相关文章

随机推荐

热门标签

xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）的相关文章