Python爬虫:抓取多级页面数据

2023-10-30

前面讲解的爬虫案例都是单级页面数据抓取,但有些时候,只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。

在爬虫的过程中,多级页面抓取是经常遇见的。下面以抓取二级页面为例,对每级页面的作用进行说明:

  • 一级页面提供了获取二级页面的访问链接。
  • 二级页面作为详情页用来提取所需数据。

一级页面以<a>标签的形式链接到二级页面,只有在二级页面才可以提取到所需数据。

多级页面分析

下面以电影天堂2020 新片精品为案例进行讲解,将每部影片的名称,以及下载链接抓取下来。首先点击“更多”进入一级页面,如下图所示:


图1:Python爬虫多级页面抓取

1) 寻找url规律

通过简单分析可以得知一级与二级页面均为静态页面,接下来分析 url 规律,通过点击第 1 页,第 2 页 …,其规律如下:

**

第1页 :https://www.dytt8.net/html/gndy/dyzz/list_23_1.html
第2页 :https://www.dytt8.net/html/gndy/dyzz/list_23_2.html
第n页 :https://www.dytt8.net/html/gndy/dyzz/list_23_n.html
2) 确定正则表达式

通过元素审查可知一级页面的元素结构如下:


图2:页面元素分析

其正则表达式如下:

**

 <table width="100%".*?<td width="5%".*?<a href="(.*?)".*?ulink">.*?</table>

点击二级页面进入详情页,通过开发者工具分析想要数据的网页元素,即电影名称,和下载链接,其正则表达式如下:

**

<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>.*?<div><a href="(.*?)">.*?</a>

爬虫增量抓取

爬虫是一种效率很低的程序,非常消耗计算机资源。对于聚焦爬虫程序而言,需要每天对特定的网站进行数据抓取,如果每次都去抓取之前已经抓取过的数据,就会白白消耗了时间和资源。而增量爬虫是指通过监测网站更新的情况,只抓取最新数据的一种方式,这样就大大降低了资源的消耗。

对于本节案例来说,电影天堂网站每天都会更新内容,因此编写一个增量抓取的爬虫程序是非常合适的。

那么要如何判断爬虫程序是否已抓取过二级页面的 url 呢?其实,当您第一次运行爬虫程序时,爬虫会将所有的 url 抓取下来,然后将这些 url 放入数据库中。为了提高数据库的查询效率,您可以为每一个 url 生成专属的“指纹”。当网站更新后,第二次运行爬虫程序时,程序只会对数据库中不存在的指纹进行抓取。

程序代码实现

1) 建库建表

将抓取的数据的存放至 MySQL 数据库,需要先进行建库建表操作。注意,这里需要将 url 指纹单独存放在一张表中,如下所示:

  1. create database movieskydb charset utf8;
  2. use movieskydb;
  3. create table request_finger(
  4. finger char(60)
  5. )charset=utf8;
  6. create table movieinfo(
  7. moviename varchar(300),
  8. downloadaddr varchar(600)
  9. )charset=utf8;
2) url指纹生成

您可以使用 Python 内置模块 md5 来生成加密“指纹”,如下所示。

  1. #导入模块
  2. from hashlib import md5
  3. #待加密的url
  4. url=“https://www.dytt8.net/html/gndy/dyzz/20210226/61131.html”
  5. 生成MD5对象

  6. secret = md5()
  7. 加密url

  8. secret.update(url.encode())
  9. 提取十六进制的加密串

  10. finger = secret.hexdigest()
  11. print(finger)

输出结果:

**

2d5e46ee52756e8ae59c9ba42230b883
3) 程序完整代码
  1. -- coding: utf-8 --

  2. from urllib import request
  3. import re
  4. import time
  5. import random
  6. import pymysql
  7. from hashlib import md5
  8. from ua_info import ua_list
  9. import sys
  10. class MovieSkySpider(object):
  11. def init(self):
  12. self.url = ‘https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html’
  13. self.db = pymysql.connect(
  14. ‘localhost’,‘root’,‘123456’,‘movieskydb’,
  15. charset=‘utf8’
  16. )
  17. self.cursor = self.db.cursor()
  18. 1.请求函数

  19. def get_html(self, url):
  20. headers = {‘User-Agent’: random.choice(ua_list)}
  21. req = request.Request(url=url, headers=headers)
  22. res = request.urlopen(req)
  23. 本网站使用gb2312的编码格式

  24. html = res.read().decode(‘gb2312’, ‘ignore’)
  25. return html
  26. 2.正则解析函数

  27. def re_func(self,re_bds,html):
  28. pattern = re.compile(re_bds,re.S)
  29. r_list = pattern.findall(html)
  30. return r_list
  31. 3.提取数据函数

  32. def parse_html(self,one_url):
  33. 调用请求函数,获取一级页面

  34. one_html = self.get_html(one_url)
  35. re_bds = ‘<table width=“100%”.?<td width=“5%”.?<a href=“(.?)".?ulink”>.*?’
  36. 获取二级页面链接

  37. link_list: [‘/html//html/gndy/dyzz/20210226/61131.html’,‘/html/xxx’,‘’,‘’]

  38. link_list = self.re_func(re_bds,one_html)
  39. for link in link_list:
  40. 判断是否需要爬取此链接

  41. 1.获取指纹

  42. 拼接二级页面url

  43. two_url = ‘https://www.dytt8.net’ + link
  44. s = md5()
  45. #加密url,需要是字节串
  46. s.update(two_url.encode())
  47. 生成指纹,获取十六进制加密字符串,

  48. finger = s.hexdigest()
  49. 2.通过函数判断指纹在数据库中是否存在

  50. if self.is_hold_on(finger):
  51. 抓取二级页面数据

  52. self.save_html(two_url)
  53. time.sleep(random.randint(1,2))
  54. 抓取后,把想用的url专属指纹存入数据库

  55. ins = ‘insert into request_finger values (%s)’
  56. self.cursor.execute(ins,[finger])
  57. self.db.commit()
  58. else:
  59. sys.exit(‘更新完成’)
  60. 4.判断链接是否已经抓取过

  61. def is_hold_on(self,finger):
  62. 查询数据库

  63. sql=‘select finger from request_finger where finger=%s’
  64. execute()函数返回值为受影响的行数(即0或者非0)

  65. r = self.cursor.execute(sql,[finger])
  66. 如果为0表示没有抓取过

  67. if not r:
  68. return True
  69. 5.解析二级页面,获取数据(名称与下载链接)

  70. def save_html(self,two_url):
  71. two_html = self.get_html(two_url)
  72. re_bds = '

    (.*?)

    \
  73. .*?

若要查询数据库存储数据,执行以下命令即可:

  1. mysql> select * from movieinfo\G

输出如下,如下图所示:


图3:MySQL数据库存储数据

在二级页面提取数据时要注意该页面的类型。该网站在二级页面使用了两种类型的网页结构,另外一种页面结构的正则表达式如下所示:

**

<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>.*?<td style="WORD-WRAP.*?>.*?>(.*?)</a> 

若要抓取此类页面的数据,需要更换二级页面正则表达式。

零基础Python学习资源介绍

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫:抓取多级页面数据 的相关文章

随机推荐

  • Element-UI表格嵌入popover出现的问题以及解决方案

    最近几天遇到一个比较棘手的问题 需求是在触发表格某一列的cell 弹窗展示新的数据 不是表格内的数据 而是需要重新向后端请求 我这里使用了popover展示弹窗 代码是删减过的 为了更清楚地记录 有些这里没有用到的代码就删了
  • Qt5中char*和QString的互转问题

    1 char 转换成QString 1 如果char 中没有中文字符 那么转换的时候 非常的简单 char ch abcd QString strzw ch strzw ch 等等 2 如果char 中含有中文字符 那么转换的时候必须注意了
  • springboot打包成war并部署到阿里云tomcat服务器最简洁有用的教程

    一 打包成war 1 配置文件pom xml中的
  • Visual C++ 2008 runtime files are out of data

    今天用 Setup Factory打了一个包 在win7系统上双击安装该包时 弹出如下错误 费了好长时间 最后才知道原因 是我将vcredist x86 exe作为从属文件加入Setup Factory时 Setup Factory对操作系
  • BGA焊盘设计的一般规则

    BGA焊盘设计的一般规则 1 焊盘直径既能影响焊点的可靠性又能影响元件的布线 焊盘直径通常小于焊球直径 为了获得可靠的附着力 一般减少20 25 焊盘越大 两焊盘之间的布线空间越小 如1 27mm间距的BGA封装 采用0 63mm直径焊盘
  • three.js几何体的_UV_、法向属性以及BufferGeometry类介绍

    一 几何体的 UV 以及法向属性 UV属性是一组二维坐标 每个顶点都有一个对应的UV坐标 在三维模型上贴上二维的纹理贴图时 需要将所有顶点映射到纹理上的对应位置 UV属性的取值范围一般是 0 1 表示纹理上的相对位置 通过修改UV属性 可以
  • Mybatis-plus全局配置主键生成策略

    mybatis可以配置全局的主键生成策略 也可以通过bean的属性加注解的方式设置 主键上使用 TableId注解 注解的type属性有6种选值 对应6中主键生成策略 当然还可以在数据库中设置该表字段的生成策略 mybatis plus默认
  • 微电子系统封装期末总结—国科大集成电路学院

    国科大集成电路学院曹立强老师开设的微电子系统封装课程 是集成电路工程专业研究生的学科基础课 通过讲述微电子电路的封装设计 制造 以及与封装技术密切相关的设备和材料基本概念与知识 要求学生掌握包括电子封装设计原理 准则 基本制造原理和工艺流程
  • 史上最通俗易懂的手写人工神经网络——(一)

    1 神经元 思维的基本单元 我们知道一方面计算机以速度飞快而称奇 但是对于事物识别以及复杂的任务却无能为力 另一方面人类没有计算机快 但是可以做很多极其复杂的事情 一只苍蝇有10万个左右的神经元就可以完成飞行 寻找食物 躲避天敌等等很复杂的
  • 数据结构-二叉排序树(图文详细版)

    文章目录 前言 一 二分搜索树的特性 1 中序遍历的序列是递增的序列 2 中序遍历的下一个节点 称后继节点 即比当前节点大的最小节点 3 中序遍历的前一个节点 称前驱节点 即比当前节点小的最大节点 二 添加节点 1 思路 2 代码实现 三
  • 计算方法(五):数值微分与数值积分

    文章目录 数值微分与数值积分 数值微分 利用插值多项式构造数值微分公式 等距结点处的数值微分公式 利用三次样条插值函数构造数值微分公式 构造数值积分公式的基本方法与有关概念 构造数值积分公式的基本方法 数值积分公式的余项 数值积分公式的代数
  • 织梦dedecms模板乱码解决方法

    出现模板乱码这种问题大多数是因此dedecms模板编码问题导致的乱码 解决办法我们可以使用一些相关软件打开 然后设置页面编码即可了 DEdecms有gbk和utf 8两个版本的哦 乱码是因为字符编码不一致造成的 出现的原因有以下几种 一 你
  • 面试题:computed与watch的区别(转载)

    一 computed computed看上去是方法 但是实际上是计算属性 它会根据你所依赖的数据动态显示新的计算结果 计算结果会被缓存 computed的值在getter执行后是会缓存的 只有在它依赖的属性值改变之后 下一次获取comput
  • 关于修改ubuntu20.04分辨率的问题

    默认情况下 setting下的dsiplay是无法修改分辨率的 下面开始设置 第一步 添加分辨率 用于后面的配置文件参数修改 cvt 1920 1080 第二步 查看已经支持的分辨率 xrandr 第三步 修改配置文件 输入 sudo ge
  • 解决Python:'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

    我在读取txt文件中报了一个 gbk codec can t decode byte 0xae in position 199 illegal multibyte sequence 解决方法 加上一个 encoding ISO 8859 1
  • AI指数报告:让我们从18个分立的视角来看AI

    AI指数报告 让我们从18个分立的视角来看AI 最近 斯坦福 人工智能百年 AI100 专家小组 非盈利性项目AI Index 发起了一项AI指数报告 追踪学术界 产业界 开源软件和公共兴趣范畴的18个分立的视角评估人工智能活跃度 盘点计算
  • DVWA stored 初级

    这里name被限制长路了 是10 不影响 在message输入 在name随便输入 弹窗1 过
  • 【数模】拟合算法

    拟合算法的介绍 拟合和插值问题的对比 回顾 数模 插值算法 不同 插值算法 得到的多项式f x 要经过所有样本点 但若样本点太多 则该多项式次数过高 就会造成龙格现象 拟合问题 不用曲线一定经过给定的点 尽管分段可避免龙格现象 但多数情况更
  • python实现验证码识别

    前言 大家在做自动化的过程中 应该遇到过登录 需要输入验证码的场景 一般的话 解决方案就是 需要后台的开发同学提供万能验证码 这样每次都麻烦开发也不是很好 所以 还是自己搞一下把 一 图片识别 验证码识别 选择使用ddddocr这个开源库
  • Python爬虫:抓取多级页面数据

    前面讲解的爬虫案例都是单级页面数据抓取 但有些时候 只抓取一个单级页面是无法完成数据提取的 本节讲解如何使用爬虫抓取多级页面的数据 在爬虫的过程中 多级页面抓取是经常遇见的 下面以抓取二级页面为例 对每级页面的作用进行说明 一级页面提供了获
Powered by Hwhale