关于Python爬虫Xpath的一切都在这里了

2023-11-01

Xpath是python爬虫过程中，非常重要的一种用来定位的语法。

PART

开始使用

首先我们需要得到一个 HTML 源代码，用来模拟爬取网页中的源代码。

先下载lxml 包。

pip install lxml

准备HTML源代码。

from lxml import etree

doc='''
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
             </ul>
         </div>
        '''

html = etree.HTML(doc)
result = etree.tostring(html)
print(str(result, 'utf-8'))

PART

节点、元素、属性、内容

xpath的思想是通过路径表达去寻找节点。节点包括元素，属性，和内容。

2.1 路径表达式

/   根节点，节点分隔符，
//  任意位置
.   当前节点
..  父级节点
@   属性

2.2 通配符

*   任意元素
@*  任意属性
node()  任意子节点（元素，属性，内容)

2.3 谓语

使用中括号来限定元素，称为谓语

//a[n] n为大于零的整数，代表子元素排在第n个位置的<a>元素
//a[last()] last()代表子元素排在最后个位置的<a>元素
//a[last()-] 和上面同理，代表倒数第二个
//a[position()<3] 位置序号小于3，也就是前两个，这里我们可以看出xpath中的序列是从1开始
//a[@href] 拥有href的<a>元素
//a[@href='www.baidu.com'] href属性值为'www.baidu.com'的<a>元素
//book[@price>2] price值大于2的<book>元素

PART

定位

3.1 匹配多个元素，返回列表

from lxml import etree

if __name__ == '__main__':
    doc='''
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        '''

    html = etree.HTML(doc)
    print(html.xpath("//li"))
    print(html.xpath("//p"))
    print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))
    print(html.xpath("//li[@class='item-inactive']")[0].text)
    print(html.xpath("//li[@class='item-inactive']/a")[0].text)
    print(html.xpath("//li[@class='item-inactive']/a/text()"))
    print(html.xpath("//li[@class='item-inactive']/.."))
    print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))

3.2 contains

有的时候，class作为选择条件的时候不合适@class=‘…’ 这个是完全匹配，当网页样式发生变化时，class或许会增加或减少像active的class。用contains就能很方便。


from lxml import etree
if __name__ == '__main__':
    doc='''
        <div>
            <ul>
                 <p class="item-0 active"><a href="link1.html">first item</a></p>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
             </ul>
         </div>
        '''

    html = etree.HTML(doc)
    print(html.xpath("//li[@class='item']"))
    print(html.xpath("//*[contains(@class,'item')]"))

3.3 starts-with

包含某个属性的第一个节点。


from lxml import etree
if __name__ == '__main__':
    doc='''
        <div>
            <ul class='ul items'>
                 <p class="item-0 active"><a href="link1.html">first item</a></p>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
             </ul>
         </div>
        '''

    html = etree.HTML(doc)
    print(html.xpath("//*[contains(@class,'item')]"))
    print(html.xpath("//*[starts-with(@class,'ul')]"))

3.4 text、last


from lxml import etree

if __name__ == '__main__':
    doc='''
        <div>
            <ul class='ul items'>
                 <p class="item-0 active"><a href="link1.html">first item</a></p>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
             </ul>
         </div>
        '''

    html = etree.HTML(doc)
    print(html.xpath("//li[last()]/a/text()"))

3.5 获取内容

上面已经提到过，可以使用.text和text()的方式来获取元素的内容。


from lxml import etree
if __name__ == '__main__':
    doc='''
        <div>
            <ul class='ul items'>
                 <li class="item-0 active"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
             </ul>
         </div>
        '''
    html = etree.XML(doc)
    print(html.xpath("//a/text()"))
    print(html.xpath("//a")[0].text)
    print(html.xpath("//ul")[0].text)
    print(len(html.xpath("//ul")[0].text))
    print(html.xpath("//ul/text()"))

3.6 获取属性

print(html.xpath("//a/@href"))
print(html.xpath("//li/@class"))

PART

使用Xpath爬取豆瓣

import requests
from lxml import etree


def main():
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
    }

    baseurl = "https://movie.douban.com/top250?start="

    res = requests.get(url=baseurl, headers=head).text

    data = etree.HTML(res)

    # 电影排行榜
    txt = data.xpath('//*[@id="content"]/div/div[1]/ol/li')

    list = []

    for i in txt:
        vidow = {
            "title": "",
            "year": '',
            "score": 0,
            "num": 0
        }
        title_list = i.xpath('./div/div[2]/div[1]/a/span/text()')
        for item in title_list:
            vidow['title'] += item.replace("\n", "").replace("\xa0", " ")

        vidow['year'] = i.xpath('./div/div[2]/div[2]/p[1]/text()')[1].split("/")[0].replace("\n", "").replace("\xa0", " ").replace(" ", "")
        vidow['score'] = i.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
        vidow['num'] = i.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0].replace("人评价", "")

        list.append(vidow)

    print(list)


if __name__ == '__main__':
    main()

如果你也喜欢编程，想通过学习Python获取更高薪资，这里给大家分享一份Python学习资料。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

c

关于Python爬虫Xpath的一切都在这里了的相关文章

在 DefaultHttpContext 上使用 FeatureCollection 时，响应对象为 null

我正在测试一些 net Core 中间件并希望使用整个 asp net Core http 管道来运行中间件而不是模拟它问题是当我使用特征集合时不知何故响应对象没有在 httpRequest 中设置并且它在请求本身上是只读的
没有真正理解 std::atomic::compare_exchange_weak 和compare_exchange_strong 的逻辑

我读了https en cppreference com w cpp atomic atomic compare exchange https en cppreference com w cpp atomic atomic compare
为什么Boost在“程序选项”中使用全局函数覆盖来实现自定义验证器

这个例子 http www boost org doc libs 1 55 0 doc html program options howto html idp163429032显示一个名为validate在全局范围内定义重载函数boost
使用 MapViewOfFile 有什么限制吗？

我正在尝试将内存映射文件用作 hFile CreateFile State Path GENERIC READ FILE SHARE READ FILE SHARE WRITE 0 OPEN EXISTING FILE FLAG SEQUE
如何在 django 中发出 post 请求后获取表单的名称？
如何忽略搜索条件中的空属性

我有一个不好的要求要做无论如何我必须在我的应用程序中实现它我有一个Track class public class Track public string Name get set public string City get set
如何更改Python中的全局变量[重复]

这个问题在这里已经有答案了我正在尝试更改程序中的变量我在程序开始时声明了一个全局变量我想在程序中的不同函数中更改该变量我可以通过再次声明函数内的变量来做到这一点但我想知道是否有更好的方法来做到这一点下面是一些测试代码来解释我的意
Django populate() 不可重入

当我尝试在生产环境中加载 Django 应用程序时我不断收到此消息我尝试了所有的 stackoverflow 答案但没有任何解决办法任何其他想法我使用的是 Django 1 5 2 和 Apache Traceback most
C++ std:.auto_ptr 或 std::unique_ptr （支持多个编译器，甚至是旧的 C++03 编译器）？

我正在尝试更新一些 C 代码我想转向更现代的代码 c 11 但我仍然需要使用一些较旧的编译器兼容 c 03 来编译代码因为支持的平台限制我知道在 C 11 编译器中 std auto ptr 已被弃用但由于较旧的编译器支持我不能
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
使用std::begin()、std::end()将ArrayXd转换为stl向量，

在我看来我应该能够使用std begin and std end 转换ArrayXd to std vector
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
序列化时如何跳过 xml 声明？

我正在尝试输出一个没有 xml 头的 xml 文件例如我试过 Type t obj GetType XmlSerializer xs new XmlSerializer t XmlWriter xw XmlWriter Create c
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
在 C++ 中将大型数据向量写入/读取到二进制文件

我有一个 C 程序它通过将 ascii 文件中的网格人口数据读取到大型 8640x3432 元素双精度向量中来计算给定半径内的人口将 ascii 数据读入向量大约需要 30 秒循环每列和每行而程序的其余部分只需要几秒钟我被要求通过
类型错误：对于仅使用浮点数的函数，返回数组必须是 ArrayType

这个实在是难倒我了我有一个计算单词权重的函数我已经确认 a 和 b 局部变量都是 float 类型 def word weight term a term freq term print a type a b idf term prin
python生成器太慢，无法使用它。我为什么要使用它？什么时候？

最近我收到一个问题哪一个是最快的 iterator list comprehension iter list comprehension and generator 然后编写简单的代码如下 n 1000000 iter a iter ra
使用 Python PuLP 混合整数规划的时间限制

我一直在使用PuLP http pythonhosted org PuLP 解决我感兴趣的特定混合整数线性规划 MIP 但是随着问题规模的增长 PuLP 花费的时间太长我希望能够运行求解器一段时间并在需要很长时间的情况下提前终止它并
字符串常量之前应有非限定 ID

我目前正在编写一个 C 应用程序它与 math h 结合实现了振荡器我拥有的代码应该可以很好地用于该应用程序尝试编译目标文件但是我遇到编译器错误很可能与语法等有关我认为这与命名空间有关错误终端输出 User Name Ma
散列 hash_hmac 时，Convert.ToChar(0) 散列结果与 PHP 中的 chr(0) 不同的字符串

我在 PHP 中有一个字符串它被转换为字节数组并进行哈希处理转换为字节数组的字符串如下所示 G 字符 0 便便我需要 C 中的等效字节数组这样我才能得到相同的哈希值编辑这是完整的问题生成的哈希值不同 PHP api secre

随机推荐

小米手机解BL锁

Beauty provoketh thieves sooner than gold As You Like It 解锁下载官网解锁方法
报错:ORA-00955:名称已由现有对象使用

报错 ORA 00955 名称已由现有对象使用查下名称看看是不是已经有视图或者表存在我遇到的是确实存在了可能已经创建成功了或者用个不一样的名称
MacBook M1 配置 tensorflow开发环境

MacBook M1 配置 tensorflow开发环境方法一提示目前MacBook M1在安装和配置深度学习的框架tensorflow上由于兼容性的问题存在着很多困扰本文将给出详细的安装说明文章目录 MacBook M1 配置
XiaoMi NoteBook Pro EFI 黑苹果引导文件

TM1701 和 TM1707 规格详细信息电脑型号小米笔记本电脑Pro 15 6 MX150 GTX 处理器英特尔酷睿 i5 8250U i7 8550U 处理器内存 8GB 16GB 三星 DDR4 2400MHz 硬盘三
ubuntu安装dlib

电脑内部环境很多传统pip无法安装 3 0环境有dlib 最近用2 7的环境发现没有好久没装了试了一些方法并不work 还是用的老指令 conda install c menpo dlib 18 18
Word调用ChatGPT

目录前言一 ChatGPT是什么二使用步骤 1 申请ChatGPT的API KEY 2 创建宏模块 3 添加工具栏按钮 4 使用此模块的方法总结前言此文章目的是将ChatGPT作为工具在Word中直接使用以快速生成自己想要的
《计算机网络》（第8版）第三章数据链路层知识点总结

文章目录 1 数据链路层的三个基本问题 1 1 封装成帧 framing 1 2 透明传输 1 3 差错检测 1 3 1 循环冗余检验CRC Cycle Redundancy Check 1 3 2 FCS计算图 2 点到点协议PPP及其透
毕业设计 - 树莓派寝室宿舍门禁刷卡系统 - 物联网单片机嵌入式

文章目录 0 前言 1 前言 2 主要器件 3 实物效果 4 树莓派读取 RC522 RFID 标签 5 mg90s 控制原理 6 最后 0 前言这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的毕设题目缺少创新和亮点往往达不到毕
公司网络故障总结

公司网络故障总结 Author skate Time 2007 6 8 今天早上一到公司刚坐下买的早饭还没吃呢就有人打电话反映不能上网我以为是个别机器的问题但我还是检测一下查看网络是否畅通查看结果是不通于是就要分析原因要尽
Redis基础与高可用集群架构进阶详解

一 NoSQL简介 1 问题引入每年到了过年期间大家都会自觉自发的组织一场活动叫做春运以前我们买票都是到火车站排队后来呢有了 12306 有了它以后就更方便了我们可以在网上买票但是带来的问题大家也很清楚春节期间买票进不去
西瓜书作业4.4(基于基尼指数划分决策树，未剪枝/预剪枝/后剪枝)

文章目录题目未减枝思想画图预剪枝思想画图后剪枝思想画图比较总结参考全部代码画图代码题目试编程实现基于基尼指数进行划分选择的决策树算法为表4 2中数据生成预剪枝后剪枝决策树并与未剪枝决策树进行比较牢骚
密码学与网络安全 - 11 密码学Hash函数

11 密码学Hash函数 Hash函数输入长度可变而输出长度固定合格的Hash函数输出应该均匀分布看起来随机 Hash函数两个要求 1 抗碰撞性找到两个不同的输入对应相同的输出在计算上不可行 2 单向性通过Hash值找到输入值在计
Vue突然报错 doesn‘t work properly without JavaScript enabled

突然报错未启用JavaScript 下午演示项目的时候突然给我整了一出JavaScript未启用当场就把我整尴尬了然后我怀疑是不是写的路由守卫有问题就注释了再试发现问题还在然后经过各种骚操作以后发现还是报这个js未启用当场我就不
Idea 激活插件IDEA Eval Reset食用

在setting中的Plugins中点击设置小图标点击第一个选项添加远程仓库 2 点击号输入 https plugins zhile io 3 搜索 IDEA Eval Reset 安装 4 Help gt Eval Restart
短短半小时创建自己的个性操作系统

短短半小时创建自己的个性操作系统邹震大家认为桌面使用比较困难但是前段时间推出一款Whitefin 而且可以在半小时内自己创建个性操作系统今天我们采访一下熊伟先生熊伟先生您好我们想请您谈一下Whitefin这个的来源熊伟
分数构造方法java,Java--构造方法

1 构造方法类中的特殊方法主要用于创建并初始化对象 2 特点构造方法的名称与类名完全相同没有返回值类型定义的时候不用写 void 普通方法没有返回值的时候要写void 创建对象时触发构造方法的调用不可以通过句点手动调用方法
Typescript学习——接口

接口 interface TypeScript 的核心原则之一就是对值所具有的结构进行类型检查而接口的作用就是为这些类型命名或为你的第三方代码定义契约相当于定义了值的类型用法 const foo params name strin
C语言：数组指针/指针数组等相关的选择题目

文章目录写在前面形参和实参二维数组传参字符数组二维数组函数指针数组参数匹配多级指针写在前面本篇总结的是和指针相关的有难度的选择题并对这些题进行解析和分析形参和实参下面程序的运行结果是什么 include
C/S和B/S的区别和优缺点

一 CS BS架构定义 1 C S Client Server 客户端服务器结构 C S结构在技术上很成熟它的主要特点是交互性强具有安全的存取模式网络通信量低响应速度快利于处理大量数据因为客户端要负责绝大多数的业务逻辑和UI展
关于Python爬虫Xpath的一切都在这里了

Xpath是python爬虫过程中非常重要的一种用来定位的语法 PART 01 开始使用首先我们需要得到一个 HTML 源代码用来模拟爬取网页中的源代码先下载lxml 包 pip install lxml 准备HTML源代码 fro

关于Python爬虫Xpath的一切都在这里了

关于Python爬虫Xpath的一切都在这里了 的相关文章

随机推荐

热门标签

关于Python爬虫Xpath的一切都在这里了的相关文章