Python爬虫学习笔记（四）————XPath解析

2023-11-05

0.xpath最新下载地址和安装教程

1.xpath安装

2.xpath基本使用

0.xpath最新下载地址和安装教程

https://blog.csdn.net/laosao_66/article/details/131752611

1.xpath安装

注意：提前安装xpath插件

（1）打开chrome浏览器

（2）点击右上角小圆点

（3）更多工具

（4）扩展程序

（5）拖拽xpath插件到扩展程序中

（6）如果crx文件失效，需要将后缀修改zip

（7）再次拖拽

（8）关闭浏览器重新打开

（9）ctrl + shift + x

（10）出现小黑框

2.xpath基本使用

xpath解析分为两种
一种是解析本地文件方法为：etree.parse
另一种是解析服务器响应的数据（即从response.read().decode('utf-8') 里解析，这种用的多方法为：etree.HTML()

（1）安装lxml库 pip install lxml ‐i https://pypi.douban.com/simple

（2）导入lxml.etree from lxml import etree

（3）etree.parse() 解析本地文件 html_tree = etree.parse('XX.html')

（4）etree.HTML() 服务器响应文件 html_tree = etree.HTML(response.read().decode('utf‐8')

（5）html_tree.xpath(xpath路径)

3.xpath基本语法

路径查询 //：查找所有子孙节点，不考虑层级关系

/ ：找直接子节点

谓词查询 //div[@id] //div[@id="maincontent"]

属性查询 //@class

模糊查询 //div[contains(@id, "he")] //div[starts‐with(@id, "he")]

内容查询 //div/h1/text()

逻辑运算 //div[@id="head" and @class="s_down"] //title | //price

4.实例

（1）xpath解析本地文件

本地 HTML文件

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Title</title>
</head>
<body>
    <ul>
        <li id="11" class="c1">北京</li>
        <li id="12">上海</li>
        <li id="c3">深圳</li>
        <li id="c4">武汉</li>
    </ul>

< ! --    <ul>-->
< ! --        <li>大连</li>-->
< ! --        <li>锦州</li>-->
< ! --        <li>沈阳</li>-->
< ! --    </ul>-->

</body>
</html>

xpath解析本地文件

from lxml import etree

# xpath解析
# （1）本地文件                                                etree.parse
# （2）服务器响应的数据  response.read().decode('utf-8') *****   etree.HTML()

# xpath解析本地文件
tree = etree.parse('爬虫_解析_xpath的基本使用.html')

#tree.xpath('xpath路径')

# 查找ul下面的li
li_list = tree.xpath('//body/ul/li')


# 查找所有有id的属性的li标签
# text()获取标签中的内容
li_list = tree.xpath('//ul/li[@id]/text()')

# 找到id为l1的li标签  注意引号的问题
li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 查找到id为l1的li标签的class的属性值
li = tree.xpath('//ul/li[@id="l1"]/@class')

# 查询id中包含l的li标签
li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')

# 查询id的值以l开头的li标签
li_list = tree.xpath('//ul/li[starts-with(@id,"c")]/text()')

#查询id为l1和class为c1的
li_list = tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')

li_list = tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')

# 判断列表的长度
print(li_list)
print(len(li_list))

（2）xpath解析服务器响应的数据

①获取百度网站的“百度一下”四个字



# （1） 获取网页的源码
# （2） 解析   解析的服务器响应的文件  etree.HTML
# (3)  打印

import urllib.request

url = 'https://www.baidu.com/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

# 请求对象的定制
request = urllib.request.Request(url = url,headers = headers)

# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)

# 获取网页源码
content = response.read().decode('utf-8')

# 解析网页源码 来获取我们想要的数据
from lxml import etree

# 解析服务器响应的文件
tree = etree.HTML(content)

# 获取想要的数据  xpath的返回值是一个列表类型的数据
result = tree.xpath('//input[@id="su"]/@value')[0]

# 这样写也可以，xpath路径可以在选中区域后右键直接copy
# result = tree.xpath('//*[@id="su"]//@value')[0]    

print(result)

②获取站长素材网站情侣图片前十页的图片

注：一般涉及图片的网站都会进行懒加载



# (1) 请求对象的定制
# （2）获取网页的源码
# （3）下载


# 需求 下载的前十页的图片
# https://sc.chinaz.com/tupian/qinglvtupian.html   1
# https://sc.chinaz.com/tupian/qinglvtupian_page.html

import urllib.request
from lxml import etree

def create_request(page):
    if(page == 1):
        url = 'https://sc.chinaz.com/tupian/qinglvtupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/qinglvtupian_' + str(page) + '.html'

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
    }

    request = urllib.request.Request(url = url, headers = headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content


def down_load(content):
#     下载图片
    # urllib.request.urlretrieve('图片地址','文件的名字')
    tree = etree.HTML(content)

    name_list = tree.xpath('//div[@id="container"]//a/img/@alt')

    # 一般涉及图片的网站都会进行懒加载
    src_list = tree.xpath('//div[@id="container"]//a/img/@src2')

    for i in range(len(name_list)):
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src

        urllib.request.urlretrieve(url=url,filename='./loveImg/' + name + '.jpg')




if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页码'))

    for page in range(start_page,end_page+1):
        # (1) 请求对象的定制
        request = create_request(page)
        # （2）获取网页的源码
        content = get_content(request)
        # （3）下载
        down_load(content)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫学习

python

爬虫

学习

网络爬虫

Python爬虫学习笔记（四）————XPath解析的相关文章

利用 Python f 字符串和 Yaml 文件？

如果我有一个 yaml 文件其中包含一个带有括号符号的字符串与 python f 字符串配合使用那么如何在此处利用 f 字符串插值以这个简单的 yaml 文件为例 tmp yaml k1 val1 k2 val2 as well
为seaborn lmplot添加文本注释

我正在尝试为聚类结果创建seaborn lmplot 数据示例如下所示 ID CA IP clusters 38 10 3 5 6 1 59 10 4 6 1 0 64 10 0 6 6 1 35 10 6 5 6 1 54 10 6 5
Flask-SQLAlchemy 构造函数

在 Flask SQLAlchemy 教程中定义了 User 模型的构造函数 from flask import Flask from flask ext sqlalchemy import SQLAlchemy app Flask na
在 python 中更改函数的 __qualname__ 时会发生什么？

为了能够pickle嵌套函数用于多重处理我用装饰器装饰了嵌套函数 def globalize one func def wrapper one args kwargs return func args kwargs setattr mo
如何使用类似 KDnuggets 风格的 PDF 绘制比较箱线图

在经历了解 KDnuggets 文章中的箱线图 https www kdnuggets com 2019 11 understanding boxplots html 我找到了带有概率密度函数的箱线图的详细图 pdf 我正在尝试绘制比较箱线
Python/Pandas –– ParserError：标记数据时出错。 C 错误：第 i 行中预期有 x 字段，但看到了 y

我需要一些帮助我正在使用以下代码 matplotlib inline import csv from datetime import datetime import numpy as np import pandas as pd from
根据 cron 规范计算下一个计划时间

在给定当前时间和 cron 规范的情况下计算事件下一次运行时间的有效方法是什么我正在寻找每分钟循环检查是否符合规范以外的东西规格示例可能是每月1日 15日15 01 每小时整点的 10 20 30 40 50 分钟 Python
使用 Python 请求通过 POST 请求发送图像

我目前正在尝试使用 Python 3 5 和 Requests 库来发送 POST 请求此 POST 将发送一个图像文件这是示例代码 import requests url https api address files files o
调用 close() 后大文件没有立即刷新到磁盘？

我正在使用 python 脚本创建大文件超过1GB 实际上有 8 个在创建它们之后我必须创建将使用这些文件的进程该脚本如下所示 This is more complex function but it basically does
Django-获取外键对象列表

假设我有以下模型 class ParentModel models Model name models CharField child models ForeignKey ChildModel class ChildModel models
Python 字符串格式 - 类型错误 - 格式字符串参数不足

那么这个字符串有什么问题呢我无法弄清楚为什么它说格式字符串没有足够的参数我是 Python 新手只是想弄清楚编辑这与建议的其他问题不同另一个正在尝试做一些我什至没有涉及的疯狂数组事情我只需要了解元组的基本概念以及字符串格式化的
我可以在 Mac OS X 上将 enthought python 重新链接到新版本的 openssl 吗？

今天早上我在 Mac OS X 10 6 8 上使用 EPD 7 3 时遇到了与 SSL 相关的问题当我运行 pip 版本 1 3 1 时我得到 pip install requests Downloading unpacking r
AttributeError：模块“rest_framework.serializers”没有属性“NullBooleanField”

升级后djangorest框架 https pypi org project djangorestframework from djangorestframework 3 13 1 to djangorestframework 3 14 0
knitr：python 引擎输出不在 .md 或 .html 中

当我处理 Rmd 文件时没有显示 matplotlib img 是否需要块选项或不同的 matplotlib 方法 title Viz Examples output html document keep md true r testpl
Psycopg2 中的元命令 - \d 不起作用

我希望使用列出表的所有列名psycopg2Python 包 2 7 但我无法执行以下查询 cur execute d my table psycopg2 ProgrammingError syntax error at or near 对于
zsh：当我尝试在 venv 中运行应用程序时，中止 python 错误

我使用以下命令设置 Python 3 6pyenv这样我将来就可以管理多个Python版本例如3 7和3 8 我没有使用 Homebrew 安装 Python 因为它改变了系统版本这是我第一次使用zshshell 因为它是 Catali
PyPy/RPython 可以用来生成小型独立可执行文件吗？

或者可以使用 PyPy RPython 将 Python 编译翻译为 C C 不需要 Python 运行时我试图通过它的 RPython 和 Python 它的运行它的编译和它的翻译来理解 PyPy 但有些失败 I have a h
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
使用 Python for Linux 模拟按键事件

我正在编写一个脚本来自动运行特定模型当模型失败时它会等待用户输入 Enter 键我可以检测到模型何时失败但我无法使用 python 在 Linux 上来模拟按键事件 Windows 有 SendKeys 库来执行此操作但我想知道
“from-import”是否执行整个模块？

好的所以我知道from import与完全相同import 但这显然不是因为命名空间的填充方式不同我的问题主要是因为我有一个utils我的应用程序中的每个其他模块都使用一个或两个函数的模块我正在努力合并标准库logging模块据

随机推荐

.net dapper简单使用

以本地mysql数据库为例准备工作新建数据库新建表例如book表然后定义Book类 book表和Book类应对应这样dapper才能把他们映射好在appsettings json中配置数据库连接 ConnectionStrin
pytorch autograd计算标量函数二阶导数

计算标量函数 y x 3 s i n
微信公众号实现简易的物联网控制（一）

这篇主要说说如何通过微信公众号来查看室内传感器数据至于硬件部分和物联网平台以后再详细说明准备工作 1 申请微信公众号 2 搭建云服务器首先说明一下整体流程用户发送相应的指令到公众号后台服务器根据指令的内容调用OneNET的API获
深入理解JVM（四）JVM的垃圾回收机制

文章目录 1 什么是垃圾回收机制 2 Java中的引用类型 3 如何判断对象是否可以被回收 4 方法区的垃圾收集 5 垃圾收集算法 5 1 标记清除 Mark Sweep 算法 5 2 标记整理 Mark Compact 算法 5 3 复
谭浩强C++课后习题16——矩阵对角线元素之和

谭浩强C 课后习题16 矩阵对角线元素之和题目描述求一个n n矩阵对角线元素之和算法思路定义一个动态二维数组定义方法定义一个指向指针的指针令其指向每一行的首地址循环n次定义n个一维数组循环n次对角线之和即为每一行num
Dynamics 365发送邮件

在Dynamics 365 CRM 开发中发送邮件除了CRM自带的邮件以外还可以使用代码发送邮件大大丰富了邮件的内容满足客户不同的需求 Entity email new Entity email 邮件接收人类型为 EntityCo
梳理总结线程池知识（内含常用线程池选型技巧及其API分类讲解）

核心救急线程概念核心线程救急线程二者区别原始线程池的构造方法常用线程池及其适用场景 FixedThreadPool CachedThreadPool SingleThreadExecutor ScheduledExecutor
Opecncv-python使用踩坑篇（一）

import cv2时 RuntimeError module compiled against API version 0xb but this version of numpy is 0xaTraceback most recent c
【Proteus仿真】DAC0832+51单片机汇编实现三角波输出

Proteus仿真 DAC0832 51单片机汇编实现三角波输出 Proteus仿真汇编代码 asm 利用DAC0832产生三角波程序如下本程序中产生的电压的最大幅度受DAC0832的基准电压限制产生的的三角波周期受累加器A的控制
噪声库NOISEX-92下载并用python转为wav

0 直接一键获取可以进我的CSDN下载 https download csdn net download weixin 44908427 85833708 也可以留言发邮箱 1 数据下载官方下载链接 NOISEX 92 下载下来后是ma
Python本地安装的包(setup.py / pip install -e)复制后需要重新安装

之前运行的AE代码然后为了改charnet复制了一份然后就发现在新复制的目录里面程序打断点也会跳过而且在aetextspotter py里面增加一些输出也没变化这是因为aetextspotter py所在的目录mmdet是通过pyt
IT项目管理作业八

RUNNING CASE 第一题 90 的员工在系统推出后的两周内登录了该系统 90 的员工在系统推出后的四周内完成了有关该系统的培训该系统帮助确定了25 的员工如何改善健康状况 25 的员工已将改善健康的目标纳入系统并通过报名参加项目
C#和Java之间的语法和特性差异

C 和Java是两种常见的面向对象编程语言虽然它们在许多方面都非常相似但仍然有一些不同之处下面是它们之间的主要差异以及相应的功能列表语法差异 C 使用分号作为语句结束符而Java使用分号和花括号 C 使用 using 关键字导入命
Codeforces Round #776 (Div. 3)

菜鸡在这里做做笔记各位进来的大佬我先 orz 了 B include
App的启动过程（10）surfaceflinger对数据合成，送显

下面就是SurfaceFlinger执行实际的数据合成然后刷新到屏幕上 voidSurfaceFlinger onMessageReceived int32 t what switch what case MessageQueue INV
Java异常体系

Thorwable类表示可抛出是所有异常和错误的超类两个直接子类为Error和Exception 分别表示错误和异常 Error是程序无法处理的错误它是由JVM产生和抛出的这些异常发生时 Java虚拟机 JVM 一般会选择线程终止
C++函数嵌套定义

函数的嵌套定义 int AddThreeInt int iFirst int iSecond int iThree struct AddTwoInt int operator int iOne int iTwo return iOne iT
java方法重写override_子类重写父类方法

1 重写子类重写父类的方法 2 格式要求 1 必须相同的方法名参数列表 2 可以不同的有限制条件尽量一致返回值修饰符 package com msb import javax sound midi Soundbank Auth
sqli-labs/Less-23

这一关又变回了get请求了而且他的欢迎界面提示我们要用id为参数名称试一试id 1 and 1 2 正确输出所以属于字符型然后在输入id 1 出现报错报错信息如下说明此次的注入点的结构为单引号注入然后我怕出什么幺蛾子所以说有
Python爬虫学习笔记（四）————XPath解析

目录 0 xpath最新下载地址和安装教程 1 xpath安装 2 xpath基本使用 3 xpath基本语法 4 实例 1 xpath解析本地文件 2 xpath解析服务器响应的数据获取百度网站的百度一下四个字获取站长素材网站情侣

Python爬虫学习笔记（四）————XPath解析

0.xpath最新下载地址和安装教程

1.xpath安装

2.xpath基本使用

3.xpath基本语法

4.实例

（1）xpath解析本地文件

（2）xpath解析服务器响应的数据

①获取百度网站的“百度一下”四个字

②获取站长素材网站情侣图片前十页的图片

Python爬虫学习笔记（四）————XPath解析 的相关文章

随机推荐

热门标签

Python爬虫学习笔记（四）————XPath解析的相关文章