python爬虫数据采集使用的三种匹配方式:正则re,xpath,beautifulsoup4

2023-05-16

一般情况下三种方式都是可以匹配到结果的,只是复杂程度不一致,根据情况进行选择re/xpath/bs4

  • 先进行简单的比较:
    • 一、正则re的使用
    • 二、lxml
    • 三、bs4 的使用

先进行简单的比较:

抓取工具速度使用难度安装
正则re最快一般内置
xpath简单简单
bs4最简单简单

注:xpath 一般与lxml 一起使用

简单来说:
正则re 是通过html str进行匹配的
xpath 是通过html节点 进行匹配
bs4 则通过css的选择器进行匹配

一、正则re的使用

re的方法
pattern = re.compile('^\d+$')
str = 'abc123'

# 表示重头匹配   result有可能报错
result = pattern.match(str)

# 表示任意位置匹配   
result = pattern.match(str)

# 爬虫最常用的的findall
result = pattern.findall(str)

 # sub 替换
one = 'chuan_zhi_hei_ma'
sub_pattern = re.compile('_')
result = sub_pattern.sub('', one)

# 调换顺序
two = "hello world,fsd,;fds;gds,A B"
sub_pattern = re.compile('(\w+) (\w+)')
result = sub_pattern.sub(r'\2 \1', two)

# split 分割
thre = "a,b,,,,c;;;d ,f e"
split_pattern = re.compile('[,; ]+')
result = split_pattern.split(thre)

# 汉字--unicode字符 [u4e00-u9fa5]
china_str = "小明老王是一家人is not"
china_pattern = re.compile('[\u4e00-\u9fa5]+')
china_pattern = re.compile('[^\u4e00-\u9fa5]+')
result = china_pattern.findall(china_str)

re 正则findall中的参数

 # 1. . 点 匹配任意字符 除了\n ; 但是在DOTALL 可以匹配

    one = """
        assffddsfb
        MMMMMMMMMM
        NNNNNNNNNB
    """

    # 1. 正则表达式
    pattern = re.compile('a(.*)b')
    # 可以匹配的\n  12行13行等价
    pattern = re.compile('a(.*)b', re.DOTALL)
    pattern = re.compile('a(.*)b', re.S)
    # 可以匹配 不区分大小写
    pattern = re.compile('a(.*)b', re.S | re.IGNORECASE)
    pattern = re.compile('a(.*)b', re.S | re.I)

    # 2. 调用findall---list
    result = pattern.findall(one)

注:在python3中 匹配\w 会匹配到中文字符
所以经常使用的
pattern = re.compile(r’[1-9a-zA-Z_]’)

二、lxml

  1. lxml库的安装: pip install lxml
  2. lxml的导包:from lxml import etree;
  3. lxml转换解析类型的方法:etree.HTML(text)
  4. lxml解析数据的方法:data.xpath("//div/text()")
  5. 需要注意lxml提取完毕数据的数据类型都是列表类型
  6. 如果数据比较复杂:先提取大节点, 在遍历小节点操作
  7. 把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)
    返回的是element对象,可以继续使用xpath方法,对此我们可以在后面的数据提取过程中:先根据某个标签进行分组,分组之后再进行数据的提取

发现结果是一个element对象,这个对象能够继续使用xpath方法:要注意的是 xpath的语法就变成了在此element的路径进行下一步的匹配 使用 ./ (点斜杠) 表示当前路径

下面是:xpath的语法
xpath的概述XPath (XML Path Language),解析查找提取信息的语言
xml是和服务器交互的数据格式和json的作用一致
html是浏览器解析标签数据显示给用户
xpath的节点关系:根节点,子节点,父节点,兄弟节点,子节点,后代节点
xpath的重点语法获取任意节点://
xpath的重点语法根据属性获取节点:标签[@属性 = ‘值’]
xpath的获取节点属性值:@属性值
xpath的获取节点文本值:text()
xpath的使用方法: 如果没有取到想要的结果,再去看他的父元素,一直往上找。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、bs4 的使用

  1. 使用 pip 安装即可: pip install beautifulsoup4
  2. beautifulsoup导包: from bs4 import BeautifulSoup
  3. find 方法返回一个解析完毕的对象
  4. findall 方法返回的是解析列表list
  5. select 方法返回的是解析列表list
  6. 获取属性的方法: get(‘属性名字’)
  7. 和获取文本的方法: get_text()
    需要知道使用bs4时,需要指明解析器 一般是lxml
#创建 Beautiful Soup 对象
# soup = BeautifulSoup(html)

#打开本地 HTML 文件的方式来创建对象
#soup = BeautifulSoup(open('index.html'))
soup = BeautifulSoup(html_str, 'lxml')   # 常用的方式

#格式化输出 soup 对象的内容
result = soup.prettify()

常用的方法如下

2.1 
find_all(name, attrs, recursive, text, **kwargs)
2.3 CSS选择器

(1)通过标签选择器查找
print soup.select('title') 
#[<title>The Dormouse's story</title>]

(2)通过类选择器查找
print soup.select('.sister')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

(3)通过 id 选择器查找
print soup.select('#link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

(4)层级选择器 查找
print soup.select('p #link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

(5)通过属性选择器查找
print soup.select('a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

(6) 获取文本内容 get_text()
soup = BeautifulSoup(html, 'lxml')
print type(soup.select('title'))
print soup.select('title')[0].get_text()

for title in soup.select('title'):
    print title.get_text()
    
(7) 获取属性 get('属性的名字')
soup = BeautifulSoup(html, 'lxml')
print type(soup.select('a'))
print soup.select('a')[0].get('href')

举例如下

# pip install beautifulsoup4

from bs4 import BeautifulSoup
import re

if __name__ == '__main__':
    html_str = """
        <html><head><title>The Dormouse's story</title></head>
        <body>
        <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
        <p class="story">Once upon a time there were three little sisters; and their names were
        <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
        <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
        <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
        and they lived at the bottom of a well.</p>
        <p class="story">...</p>
    """

    # 1. 转类型
    soup = BeautifulSoup(html_str, 'lxml')


    # 2.3 select 选择器--list
    # 标签选择器
    # 类选择器
    # ID选择器
    # 层级选择器 后代选择器
    # 组选择器
    # 属性选择器

    result = soup.select('a')
    result = soup.select('.sister')
    result = soup.select('head title')
    result = soup.select('#link3,#link1')
    result = soup.select('p[name="dromouse"]')
    result = soup.select('#link3')


    # 标签包裹的内容
    # result = result[0].get_text()

    # 标签的属性
    result = result[0].get('href')


    print(result)

    # 2.解析数据
    # 2.1 find--获取符合条件 第一个
    result = soup.find()
    result = soup.find(attrs={
        "id": "link2"
    })
    pattern = re.compile('^b')
    result = soup.find(pattern)

    result = soup.find(text="...")

    # 2.2 find_all ---list
    result = soup.find_all('a')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫数据采集使用的三种匹配方式:正则re,xpath,beautifulsoup4 的相关文章

  • Python复习笔记5——常用模块

    一 内建模块 1 1 datetime日期时间 xff08 1 xff09 导入模块 span class token keyword from span datetime span class token keyword import s
  • COLMAP+OpenMVS实现物体三维重建mesh模型

    一 环境准备 1 COLMAP 进入COLMAP官网 xff0c 打开下载页面 xff0c 下载COLMAP程序 2 OpenMVS OpenMVS可以自己从源码下载进行编译 如果觉得编译openmvs可能要费点时间 xff0c 那也可以直
  • 解决ubuntu火狐无法上网问题

    之前安装Ubuntu时是可以上网的 xff0c 呆了一个月没怎么用突然不能搜索了 xff0c 记录一下 xff0c 已解决 只需一条命令 打开终端 xff0c 输入 sudo apt get install firefox 问题解决啦 xf
  • C语言基本数据类型int, short int, long int, long long int, unsigned int, signed int等解析

    一 普通int类型 int类型是有符号整型 xff0c 即int类型的值必须是整数 xff0c 可以是正整数 xff0c 负整数 xff0c 零 int类型取值范围因计算机系统而异 早起的16位IBM PC兼容机使用16位来存储一个int值
  • Docker容器内更新apt-get 国内加速

    Docker容器内更新源apt get的方法 由于不使用国内镜像网速缓慢 xff0c 所以使用国内镜像加速就很必要了 xff0c 但是经过博主测试大部分apt get加速都是针对Ubuntu 的 xff0c 根本解决不了Docker 容器内
  • STM32F4 422串口通信

    STM32F429 422串口通信 422串口的硬件原理图如下 xff1a 422串口和232串口不同的是引脚的电平控制 xff0c 还有DE是发送使能 xff0c 置高即可 xff1a RE是接收使能 xff0c 置低即可 422接出来的
  • Java基础学习记录

    一 基础DOS操作 dir xff1a directory 列出当前目录内容 md xff1a make directory 创建目录 rd xff1a remove directory 删除目录 cd xff1a change direc
  • 6、杂项:rtk原理简要说明

    目录 x1f345 点击这里查看所有博文 随着自己工作的进行 xff0c 接触到的技术栈也越来越多 给我一个很直观的感受就是 xff0c 某一项技术 经验在刚开始接触的时候都记得很清楚 往往过了几个月都会忘记的差不多了 xff0c 只有经常
  • 树莓派控制直流电机

    古月金真 1 直流电机 直流电机是一种将直流电能转换为机械能的装置 xff0c 被广泛的用于驱动各种设备 xff0c 如电风扇 遥控小车 电动车窗等 xff0c 在控制设备运转领域中 xff0c 它是不可或缺的一种设备 小型直流电机的的电压
  • SVN创建指定版本号的分支

    SVN创建分支下面三个选择的具体含义 xff1a 最新版本 xff08 HEAD revision in therepository xff09 直接从版本库中最新创建 xff0c 由于不需要从你的工作拷贝中传输数据 xff0c 创建过程会
  • 图像降噪算法——图像降噪算法总结

    图像降噪算法 图像降噪算法总结 图像降噪算法 图像降噪算法总结 图像降噪算法 图像降噪算法总结 前面这段时间我看了几篇和图像降噪相关的Review xff0c 给我的感觉就是SLAM这一研究领域像是一片汪洋 xff0c 而图像降噪领域则是另
  • 图像降噪算法——图像噪声模型

    图像降噪算法 图像噪声模型 图像降噪算法 图像噪声模型1 图像噪声建模2 C 43 43 代码实现3 结论 图像降噪算法 图像噪声模型 1 图像噪声建模 首先 xff0c 我们要区分图像传感器噪声和图像噪声 xff0c 图像传感器噪声我在博
  • 图像降噪算法——维纳滤波

    图像降噪算法 维纳滤波 图像降噪算法 维纳滤波1 基本原理2 C 43 43 代码实现3 结论 图像降噪算法 维纳滤波 维纳滤波是在频域中处理图像的一种算法 xff0c 是一种非常经典的图像增强算法 xff0c 不仅可以进行图像降噪 xff
  • 图像降噪算法——Variance Stabilizing Transform / Generalization Anscombe Transform算法

    图像降噪算法 Variance Stabilizing Transform Generalization Anscombe Transform算法 图像降噪算法 Variance Stabilizing Transform Generali
  • 图像降噪算法——DnCNN / FFDNet / CBDNet / RIDNet / PMRID / SID

    图像降噪算法 DnCNN FFDNet CBDNet RIDNet PMRID SID 图像降噪算法 DnCNN FFDNet CBDNet RIDNet PMRID SID1 基本原理1 1 DnCNN1 2 FFDNet1 3 CBDN
  • SLAM算法总结——经典SLAM算法框架总结

    SLAM算法总结 经典SLAM算法框架总结 SLAM算法总结 经典SLAM算法框架总结 SLAM算法总结 经典SLAM算法框架总结 从研究生接触SLAM算法到现在也有两三年了 xff0c 期间学习了很多经典的SLAM算法框架并写了一些相关的
  • 计算机视觉算法——基于Anchor Free的目标检测网络总结

    计算机视觉算法 基于Anchor Free的目标检测网络总结 计算机视觉算法 基于Anchor Free的目标检测网络总结1 CornerNet1 1 关键知识点 网络结构及特点1 2 关键知识点 正负样本匹配1 3 关键知识点 损失计算
  • 计算机视觉算法——基于Transformer的语义分割(SETR / Segmenter / SegFormer)

    计算机视觉算法 基于Transformer的语义分割 xff08 SETR Segmenter SegFormer xff09 1 SETR1 1 网络结构及特点1 1 1 Decoder 1 2 实验 2 Segmenter2 1 网络结
  • 计算机视觉算法——基于深度学习的高精地图算法(HDMapNet / VectorMapNet / MapTR / VectorNet)

    计算机视觉算法 基于深度学习的高精地图算法 xff08 HDMapNet VectorMapNet MapTR VectorNet xff09 计算机视觉算法 基于深度学习的高精地图算法 xff08 HDMapNet VectorMapNe
  • VINS-Mono关键知识点总结——前端详解

    VINS Mono关键知识点总结 前端详解 VINS Mono关键知识点总结 前端详解1 VINS Mono的前端流程概述2 setMask 函数的作用3 rejectWithF 函数的作用4 addPoints 函数和 updataID

随机推荐

  • Px4源码框架结构图

    此篇blog的目的是对px4工程有一个整体认识 xff0c 对各个信号的流向有个了解 xff0c 以及控制算法采用的控制框架 PX4自动驾驶仪软件 可分为三大部分 xff1a 实时操作系统 中间件和飞行控制栈 1 NuttX实时操作系统 提
  • 深蓝学院《从零开始手写VIO》作业五

    深蓝学院 从零开始手写VIO 作业五 1 完成Bundle Adjustment求解器2 完成测试函数3 论文总结 1 完成Bundle Adjustment求解器 完成单目 Bundle Adjustment 求解器 problem cc
  • VIO在走廊弱纹理环境下的优化——VINS-Mono的点线紧耦合优化

    VIO在走廊弱纹理环境下的优化 VINS Mono的点线紧耦合优化 VIO在走廊弱纹理环境下的优化0 前言1 思路概述1 1 Super Pixel SLAM1 2 Edge SLAM1 3 PL SLAM 2 算法实施2 1 Edge S
  • SLAM综述:激光雷达与视觉SLAM(2019.10.12)

    本文基于https arxiv org pdf 1909 05214v2 pdf 进行阐述 xff08 其实差不多就是精简版翻译 xff09 第一节概述 第二节讲述激光SLAM xff1a 激光传感器 xff0c 开源系统 xff0c 深度
  • HAL库串口收发

    1 通讯方式介绍 在微处理器和外部通信模块之间主要有并行通信和串行通信两种 并行通讯传输速率快 xff0c 但是占用引脚较多 xff0c 串行通信与之相反 串行通讯分别有单工 半双工 全双工三种模式 单工 xff1a 只能发送数据或者只能接
  • ros 启动

    绑定usb设备端口号 11条消息 Ubuntu下绑定串口的两种方式ID法和serial法 haley du的博客 CSDN博客 11条消息 Ubuntu usb设备端口号绑定 一抹烟霞的博客 CSDN博客 2 2执行 1 执行相关launc
  • c++中“::“表示含义

    1 表示 域操作符 例 xff1a 声明了一个类A xff0c 类A里声明了一个成员函数void f xff0c 但没有在类的声明里给出f的定义 xff0c 那么在类外定义f时 xff0c 就要写成void A f xff0c 表示这个f
  • ROS自学笔记整合-串口通信篇

    ROS自学笔记整合 串口通信篇 最近也是刚开始接触ROS xff0c 然后买了一本古月大神的 ROS机器人开发实践 自己在捣鼓 本人编程小白 xff0c 只能做代码的搬运工 书本上的仿真基本都看的差不多了 xff0c 也动手做了不少例子 x
  • docker宿主机ssh免密

    若要实现免密登陆 xff0c 意味着无论是宿主机 xff0c 还是容器都要彼此交互公钥 xff1a 容器A发送自身公钥给中心机器 xff0c 统一由中心机器 xff0c 回发全部需要ssh到容器A的公钥信息 xff0c 任何一个新加入的容器
  • redis指定配置文件启动失败

    redis指定配置文件启动失败 redis指定配置文件启动失败 redis server redis conf失败 但是直接执行redis server是可以成功的 之所以没有启动成功 xff0c 且没有报错的原因是 在自己的redis c
  • Ubuntu 查看磁盘空间及目录容量

    Ubuntu 查看磁盘空间及目录容量 http www zhcn org 548 Df命令是linux系统以磁盘分区为单位查看文件系统 xff0c 可以加上参数查看磁盘剩余空间 xff1a df hl 显示格式为 xff1a 文件系统 容量
  • VS(Visual Studio)与VC(Visual C++)版本对应关系

    VS全名是Microsoft Visual Studio xff0c 是很大的一个开发环境 xff0c 包含很多高级语言的开发环境 xff0c VC只是VS其中的一个开发环境 VC版本与VS版本对应关系如下所示 xff1a Visual S
  • docker 状态Removal In Progress,rm提示无法删除

    docker 无法删除场景 docker 进入Removal In Progress状态 xff0c 无法直接删除 1 docker rm f 容器 提示文件无权限操作 2 xxxx 表示上图的文件路径 需要登录到宿主机上 xff0c 执行
  • windows上安装启动pgsql,postgres

    windows上安装启动pgsql postgres 1 在官网下载pgsql2 进入pgsql的安装目录 bin 下面3 windows 启动 pgsql server cmd窗口退出 server关闭4 注册成服务 cmd窗口退出 se
  • django调试问题django.core.exceptions.ImproperlyConfigured

    django项目调试子应用app时提示缺少配置 1 项目的settings文件里面设置的有子app xff0c 依旧提示下面问题 django core exceptions ImproperlyConfigured Requested s
  • Python 数据描述符

    今天看到一篇文档介绍了Python描述符 xff0c 转发学习下 1 默认的属相访问是从对象的字典中 get set 或者 delete 属性 xff1b 例如a x的查找顺序是 a x gt a dict x gt type a dict
  • pycharm中terminal中使用git bash替换cmd(无弹窗)

    pycharm中terminal中使用git bash替换cmd 1 背景 系统 xff1a windows 想要在pycharm上的terminal中使用git bash而不是系统自带的cmd 可以调用基础的Linux命令 比如ls 等
  • linux安装 python3-pip没有安装候选项

    问题 环境 xff1a linux ubuntu span class token number 22 04 span 版本 LTS windows xff1a 使用vmware 执行以下命令报错 span class token func
  • django连接elasticsearch失败Failed to establish a new connection: [Errno 113] No route to host[Errno 111]

    做django商城项目时报错 错误信息 urllib3 exceptions NewConnectionError lt urllib3 connection HTTPConnection object at 0x7fa6b2537390
  • python爬虫数据采集使用的三种匹配方式:正则re,xpath,beautifulsoup4

    一般情况下三种方式都是可以匹配到结果的 xff0c 只是复杂程度不一致 xff0c 根据情况进行选择re xpath bs4 先进行简单的比较 xff1a 一 正则re的使用二 lxml三 bs4 的使用 先进行简单的比较 xff1a 抓取