Python爬虫：抓取多级页面数据

2023-10-30

前面讲解的爬虫案例都是单级页面数据抓取，但有些时候，只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。

在爬虫的过程中，多级页面抓取是经常遇见的。下面以抓取二级页面为例，对每级页面的作用进行说明：

一级页面提供了获取二级页面的访问链接。
二级页面作为详情页用来提取所需数据。

一级页面以<a>标签的形式链接到二级页面，只有在二级页面才可以提取到所需数据。

多级页面分析

下面以电影天堂2020 新片精品为案例进行讲解，将每部影片的名称，以及下载链接抓取下来。首先点击“更多”进入一级页面，如下图所示：

图1：Python爬虫多级页面抓取

1) 寻找url规律

通过简单分析可以得知一级与二级页面均为静态页面，接下来分析 url 规律，通过点击第 1 页，第 2 页 …，其规律如下：

第1页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_1.html
第2页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_2.html
第n页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_n.html

2) 确定正则表达式

通过元素审查可知一级页面的元素结构如下：

图2：页面元素分析

其正则表达式如下：

 <table width="100%".*?<td width="5%".*?<a href="(.*?)".*?ulink">.*?</table>

点击二级页面进入详情页，通过开发者工具分析想要数据的网页元素，即电影名称，和下载链接，其正则表达式如下：

<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>.*?<div><a href="(.*?)">.*?</a>

爬虫增量抓取

爬虫是一种效率很低的程序，非常消耗计算机资源。对于聚焦爬虫程序而言，需要每天对特定的网站进行数据抓取，如果每次都去抓取之前已经抓取过的数据，就会白白消耗了时间和资源。而增量爬虫是指通过监测网站更新的情况，只抓取最新数据的一种方式，这样就大大降低了资源的消耗。

对于本节案例来说，电影天堂网站每天都会更新内容，因此编写一个增量抓取的爬虫程序是非常合适的。

那么要如何判断爬虫程序是否已抓取过二级页面的 url 呢？其实，当您第一次运行爬虫程序时，爬虫会将所有的 url 抓取下来，然后将这些 url 放入数据库中。为了提高数据库的查询效率，您可以为每一个 url 生成专属的“指纹”。当网站更新后，第二次运行爬虫程序时，程序只会对数据库中不存在的指纹进行抓取。

程序代码实现

1) 建库建表

将抓取的数据的存放至 MySQL 数据库，需要先进行建库建表操作。注意，这里需要将 url 指纹单独存放在一张表中，如下所示：

create database movieskydb charset utf8;
use movieskydb;
create table request_finger(
finger char(60)
)charset=utf8;
create table movieinfo(
moviename varchar(300),
downloadaddr varchar(600)
)charset=utf8;

2) url指纹生成

您可以使用 Python 内置模块 md5 来生成加密“指纹”，如下所示。

#导入模块
from hashlib import md5
#待加密的url
url=“https://www.dytt8.net/html/gndy/dyzz/20210226/61131.html”
生成MD5对象
secret = md5()
加密url
secret.update(url.encode())
提取十六进制的加密串
finger = secret.hexdigest()
print(finger)

输出结果：

2d5e46ee52756e8ae59c9ba42230b883

3) 程序完整代码

-- coding: utf-8 --
from urllib import request
import re
import time
import random
import pymysql
from hashlib import md5
from ua_info import ua_list
import sys
class MovieSkySpider(object):
def init(self):
self.url = ‘https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html’
self.db = pymysql.connect(
‘localhost’,‘root’,‘123456’,‘movieskydb’,
charset=‘utf8’
)
self.cursor = self.db.cursor()
1.请求函数
def get_html(self, url):
headers = {‘User-Agent’: random.choice(ua_list)}
req = request.Request(url=url, headers=headers)
res = request.urlopen(req)
本网站使用gb2312的编码格式
html = res.read().decode(‘gb2312’, ‘ignore’)
return html
2.正则解析函数
def re_func(self,re_bds,html):
pattern = re.compile(re_bds,re.S)
r_list = pattern.findall(html)
return r_list
3.提取数据函数
def parse_html(self,one_url):
调用请求函数，获取一级页面
one_html = self.get_html(one_url)
re_bds = ‘<table width=“100%”.?<td width=“5%”.?<a href=“(.?)".?ulink”>.*?’
获取二级页面链接
link_list: [‘/html//html/gndy/dyzz/20210226/61131.html’,‘/html/xxx’,‘’,‘’]
link_list = self.re_func(re_bds,one_html)
for link in link_list:
判断是否需要爬取此链接
1.获取指纹
拼接二级页面url
two_url = ‘https://www.dytt8.net’ + link
s = md5()
#加密url，需要是字节串
s.update(two_url.encode())
生成指纹，获取十六进制加密字符串，
finger = s.hexdigest()
2.通过函数判断指纹在数据库中是否存在
if self.is_hold_on(finger):
抓取二级页面数据
self.save_html(two_url)
time.sleep(random.randint(1,2))
抓取后，把想用的url专属指纹存入数据库
ins = ‘insert into request_finger values (%s)’
self.cursor.execute(ins,[finger])
self.db.commit()
else:
sys.exit(‘更新完成’)
4.判断链接是否已经抓取过
def is_hold_on(self,finger):
查询数据库
sql=‘select finger from request_finger where finger=%s’
execute()函数返回值为受影响的行数（即0或者非0）
r = self.cursor.execute(sql,[finger])
如果为0表示没有抓取过
if not r:
return True
5.解析二级页面，获取数据（名称与下载链接）
def save_html(self,two_url):
two_html = self.get_html(two_url)
re_bds = '

(.*?)
\
.*?

若要查询数据库存储数据，执行以下命令即可：

mysql> select * from movieinfo\G

输出如下，如下图所示：

图3：MySQL数据库存储数据

在二级页面提取数据时要注意该页面的类型。该网站在二级页面使用了两种类型的网页结构，另外一种页面结构的正则表达式如下所示：

<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>.*?<td style="WORD-WRAP.*?>.*?>(.*?)</a>

若要抓取此类页面的数据，需要更换二级页面正则表达式。

零基础Python学习资源介绍

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

pycharm

IDE

Python爬虫：抓取多级页面数据的相关文章

ssh 远程计算机并使用 pexpect 运行“ls-l”

我想要ssh远程机器并运行ls l using pexpect 我是一名学习Python语言的系统工程师没有编码知识有人可以帮助我吗提前致谢 My code import pexpect child pexpect spawn usr

在 Django 1.6 中结合 DetailView 和 CreateView

我有 2 个独立的模型帖子和评论我使用 DetailView 来显示帖子内容并且我想使用 CreateView 在同一页面上显示评论创建表单最干净的方法是什么唯一想到的是使用自定义视图它既获取对象又处理评论表单但这看起来太脏了

在 gtk.main() 执行时与 gtk.container 交互？

目前在 Python 中使用电池监视器图标进行实验pygtk and egg trayicon创建一个图标来显示电池图标工具提示我似乎能够添加图标和工具提示文本但是当它到达gtk main 阶段我需要一种方法来修改这些以便它可以显示

在python中合并两个json对象

我正在 python 中合并两个 json 我正在做 import json json obj json dumps a 1 2 json obj1 json dumps a 3 4 json obj json obj1 print jso

将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图

有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A

SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp

来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a

Python：当为变量分配新内容时，“旧”内存是否被释放？

如果为变量分配了任何新内容为旧内容分配的内存是否会正确释放例如在以下脚本中在为 a 分配一些新内容后变量 a 作为零数组的内存是否会被释放 import numpy a numpy zeros 1000 a a 1 我想象

安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv

更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok

iter(fp.readline, '') 中的行而不是 fp 中的行：

我读了内置函数iter的例子在内置函数 Python 3 7 0 文档 https docs python org 3 library functions html iter with open mydata txt as fp for l

Pygame 旋转射击

我和几个朋友一直在编写一种有趣的新射击机制为了让它发挥作用我们需要朝玩家面对的方向射击 Sprite 正在使用 Pygame Transform Rotate 进行旋转我们怎样才能找到一个角度然后朝那个方向发射子弹呢这是我们的精灵

如何在 django 中发出 post 请求后获取表单的名称？

ModuleNotFoundError：没有名为“googleapiclient”的模块

如果这是一个愚蠢的问题我深表歉意我在 stackoverflow 上搜索过但没有找到解决办法我正在致力于从 Python 2 7 迁移到 Python 3 8 我收到一个程序的以下错误请帮我 Traceback most rece

NLTK 无法找到 stanford-postagger.jar！设置CLASSPATH环境变量

我正在开发一个项目需要我使用 nltk 和 python 来标记令牌所以我想用这个但遇到了一些问题我浏览了很多其他已经提出的问题和其他论坛但我仍然无法解决这个问题问题是当我尝试执行以下命令时 from nltk tag impo

在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果

为什么我只能在异步函数中使用await关键字？

假设我有这样的代码 async def fetch text gt str return text async def show something something await fetch text print something 这很

使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这

关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的

随机推荐

Element-UI表格嵌入popover出现的问题以及解决方案

最近几天遇到一个比较棘手的问题需求是在触发表格某一列的cell 弹窗展示新的数据不是表格内的数据而是需要重新向后端请求我这里使用了popover展示弹窗代码是删减过的为了更清楚地记录有些这里没有用到的代码就删了

Qt5中char*和QString的互转问题

1 char 转换成QString 1 如果char 中没有中文字符那么转换的时候非常的简单 char ch abcd QString strzw ch strzw ch 等等 2 如果char 中含有中文字符那么转换的时候必须注意了

springboot打包成war并部署到阿里云tomcat服务器最简洁有用的教程

一打包成war 1 配置文件pom xml中的

Visual C++ 2008 runtime files are out of data

今天用 Setup Factory打了一个包在win7系统上双击安装该包时弹出如下错误费了好长时间最后才知道原因是我将vcredist x86 exe作为从属文件加入Setup Factory时 Setup Factory对操作系

BGA焊盘设计的一般规则

BGA焊盘设计的一般规则 1 焊盘直径既能影响焊点的可靠性又能影响元件的布线焊盘直径通常小于焊球直径为了获得可靠的附着力一般减少20 25 焊盘越大两焊盘之间的布线空间越小如1 27mm间距的BGA封装采用0 63mm直径焊盘

three.js几何体的_UV_、法向属性以及BufferGeometry类介绍

一几何体的 UV 以及法向属性 UV属性是一组二维坐标每个顶点都有一个对应的UV坐标在三维模型上贴上二维的纹理贴图时需要将所有顶点映射到纹理上的对应位置 UV属性的取值范围一般是 0 1 表示纹理上的相对位置通过修改UV属性可以

Mybatis-plus全局配置主键生成策略

mybatis可以配置全局的主键生成策略也可以通过bean的属性加注解的方式设置主键上使用 TableId注解注解的type属性有6种选值对应6中主键生成策略当然还可以在数据库中设置该表字段的生成策略 mybatis plus默认

微电子系统封装期末总结—国科大集成电路学院

国科大集成电路学院曹立强老师开设的微电子系统封装课程是集成电路工程专业研究生的学科基础课通过讲述微电子电路的封装设计制造以及与封装技术密切相关的设备和材料基本概念与知识要求学生掌握包括电子封装设计原理准则基本制造原理和工艺流程

史上最通俗易懂的手写人工神经网络——(一)

1 神经元思维的基本单元我们知道一方面计算机以速度飞快而称奇但是对于事物识别以及复杂的任务却无能为力另一方面人类没有计算机快但是可以做很多极其复杂的事情一只苍蝇有10万个左右的神经元就可以完成飞行寻找食物躲避天敌等等很复杂的

数据结构-二叉排序树（图文详细版）

文章目录前言一二分搜索树的特性 1 中序遍历的序列是递增的序列 2 中序遍历的下一个节点称后继节点即比当前节点大的最小节点 3 中序遍历的前一个节点称前驱节点即比当前节点小的最大节点二添加节点 1 思路 2 代码实现三

计算方法（五）：数值微分与数值积分

文章目录数值微分与数值积分数值微分利用插值多项式构造数值微分公式等距结点处的数值微分公式利用三次样条插值函数构造数值微分公式构造数值积分公式的基本方法与有关概念构造数值积分公式的基本方法数值积分公式的余项数值积分公式的代数

织梦dedecms模板乱码解决方法

出现模板乱码这种问题大多数是因此dedecms模板编码问题导致的乱码解决办法我们可以使用一些相关软件打开然后设置页面编码即可了 DEdecms有gbk和utf 8两个版本的哦乱码是因为字符编码不一致造成的出现的原因有以下几种一你

面试题：computed与watch的区别(转载)

一 computed computed看上去是方法但是实际上是计算属性它会根据你所依赖的数据动态显示新的计算结果计算结果会被缓存 computed的值在getter执行后是会缓存的只有在它依赖的属性值改变之后下一次获取comput

关于修改ubuntu20.04分辨率的问题

默认情况下 setting下的dsiplay是无法修改分辨率的下面开始设置第一步添加分辨率用于后面的配置文件参数修改 cvt 1920 1080 第二步查看已经支持的分辨率 xrandr 第三步修改配置文件输入 sudo ge

解决Python:'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

我在读取txt文件中报了一个 gbk codec can t decode byte 0xae in position 199 illegal multibyte sequence 解决方法加上一个 encoding ISO 8859 1

AI指数报告：让我们从18个分立的视角来看AI

AI指数报告让我们从18个分立的视角来看AI 最近斯坦福人工智能百年 AI100 专家小组非盈利性项目AI Index 发起了一项AI指数报告追踪学术界产业界开源软件和公共兴趣范畴的18个分立的视角评估人工智能活跃度盘点计算

DVWA stored 初级

这里name被限制长路了是10 不影响在message输入在name随便输入弹窗1 过

【数模】拟合算法

拟合算法的介绍拟合和插值问题的对比回顾数模插值算法不同插值算法得到的多项式f x 要经过所有样本点但若样本点太多则该多项式次数过高就会造成龙格现象拟合问题不用曲线一定经过给定的点尽管分段可避免龙格现象但多数情况更

python实现验证码识别

前言大家在做自动化的过程中应该遇到过登录需要输入验证码的场景一般的话解决方案就是需要后台的开发同学提供万能验证码这样每次都麻烦开发也不是很好所以还是自己搞一下把一图片识别验证码识别选择使用ddddocr这个开源库

Python爬虫：抓取多级页面数据

前面讲解的爬虫案例都是单级页面数据抓取但有些时候只抓取一个单级页面是无法完成数据提取的本节讲解如何使用爬虫抓取多级页面的数据在爬虫的过程中多级页面抓取是经常遇见的下面以抓取二级页面为例对每级页面的作用进行说明一级页面提供了获

热门标签

Kibana 配置

本科学习

移动端技术

C51单片机实验

wps日期加减算天数

LFI

IOS开发专栏

批处理两种方式

it资讯

样式贴

实践

stdstring

删除字符串空格

高速硬件

Web漏洞利用

qt样式表设置边框

Python爬虫：抓取多级页面数据

多级页面分析

1) 寻找url规律

2) 确定正则表达式

爬虫增量抓取

程序代码实现

1) 建库建表

2) url指纹生成

生成MD5对象

加密url

提取十六进制的加密串

3) 程序完整代码

-- coding: utf-8 --

1.请求函数

本网站使用gb2312的编码格式

2.正则解析函数

3.提取数据函数

调用请求函数，获取一级页面

获取二级页面链接

link_list: [‘/html//html/gndy/dyzz/20210226/61131.html’,‘/html/xxx’,‘’,‘’]

判断是否需要爬取此链接

1.获取指纹

拼接二级页面url

生成指纹，获取十六进制加密字符串，

2.通过函数判断指纹在数据库中是否存在

抓取二级页面数据

抓取后，把想用的url专属指纹存入数据库

4.判断链接是否已经抓取过

查询数据库

execute()函数返回值为受影响的行数（即0或者非0）

如果为0表示没有抓取过

5.解析二级页面，获取数据（名称与下载链接）

(.*?)

零基础Python学习资源介绍

Python爬虫：抓取多级页面数据 的相关文章

随机推荐

热门标签

Python爬虫：抓取多级页面数据的相关文章