爬虫一：用正则表达式爬取图片

2023-11-05

爬虫流程

发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。
获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。
解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifulsoup，etree等，要解析json数据可以使用json模块，二进制数据，可以保存或者进一步的处理。
保存数据保存的方式比较多元，可以存入数据库也可以使用文件的方式进行保存。

正则表达式

正则表达式(regular expression)，又称规则表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一些过滤逻辑。在Python中正则表达式通过re模块来实现。

正则表达式匹配规则

符号	说明
.	用于匹配任意一个字符，如 a.c 可以匹配 abc 、aac 、akc 等
^	用于匹配以...开头的字符，如 ^abc 可以匹配 abcde 、abcc 、abcak 等
$	用于匹配以...结尾的字符，如 abc$ 可以匹配 xxxabc 、123abc 等
*	匹配前一个字符零次或多次，如 abc* 可以匹配 ab 、abc 、abcccc 等
+	匹配前一个字符一次或多次，如 abc+ 可以匹配 abc 、abcc 、abcccc 等
?	匹配前一个字符零次或一次，如 abc? 只能匹配到 ab 和 abc
\	转义字符，比如我想匹配 a.c ，应该写成 a\.c ，否则 . 会被当成匹配字符
\|	表示左右表达式任意匹配一个，如 aaa\|bbb 可以匹配 aaa 也可以匹配 bbb
[ ]	匹配中括号中的任意一个字符，如 a[bc]d 可以匹配 abd 和 acd，也可以写一个范围，如 [0-9] 、[a-z] 等
( )	被括起来的表达式将作为一个分组，如 (abc){2} 可以匹配 abcabc ，a(123\|456)b 可以匹配 a123b 或 a456b
{m}	表示匹配前一个字符m次，如 ab{2}c 可以匹配 abbc
{m,n}	表示匹配前一个字符 m 至 n 次，如 ab{1,2}c 可以匹配 abc 或 abbc
\d	匹配数字，如 a\dc 可以匹配 a1c 、a2c 、a3c 等
\D	匹配非数字，也就是除了数字之外的任意字符或符号，如 a\Dc 可以匹配 abc 、aac 、a.c 等
\s	匹配空白字符，也就是匹配空格、换行符、制表符等等，如 a\sc 可以匹配 'a c' 、a\nc 、a\tc 等
\S	匹配非空白字符，也就是匹配空格、换行符、制表符等之外的其他任意字符或符号，如 a\Sc 表示除了 'a c' 之外都能匹配，abc 、a3c 、a.c 等
\w	匹配大小写字母和数字，也就是匹配 [a-zA-Z0-9] 中的字符，如 a\wc 可以匹配 abc 、aBc 、a2c 等
\W	匹配非大小写字母和数字，也就是匹配大小写字母和数字之外的其他任意字符或符号，如 a\Wc 可以匹配 a.c 、a#c 、a+c 等

实战1：爬取ppt网页一级页面图片

import re,requests
#参数设置
page_num=2#页面数
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}#请求头信息，模拟浏览器进行请求

#开始爬取
for n in range(page_num):
    url='http://www.1ppt.com/beijing/ppt_beijing_{}.html'.format(n+1)
    response=requests.get(url,headers=headers)#发送请求
    if response.status_code==200:
        response.encoding=response.apparent_encoding#字符编码设置为网页本来所属编码
        html=response.text#获取网页代码
        pattern= re.compile(r'img src="(.*?jpg)" alt')#编译正则表达式
        image_url= pattern.findall(html)#解析图片链接
        for i,link in enumerate(image_url):
            print('第{}页第{}张图片下载中......'.format(n+1,i+1))
            resp=requests.get(link,headers=headers)#请求图片链接
            content=resp.content#获取二进制内容
            with open('./图片/{}-{}.jpg'.format(n+1,i+1),'wb') as f:
                f.write(content)#下载图片
    else:
        print('请求失败！')

实战2：爬取ppt网页二级页面图片

import requests,re
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}#请求头，模拟浏览器进行请求
page_num=2

for i in range(page_num):
    url='http://www.1ppt.com/beijing/ppt_beijing_{}.html'.format(i+1)
    print('第{}页爬取中......'.format(i+1))
    response=requests.get(url,headers=headers)#向一级网页发送请求
    if response.status_code==200:    
        response.encoding=response.apparent_encoding#字符编码设置为网页本来所属编码
        html=response.text#获取网页代码
        pattern=re.compile(r'<li> <a href="(.*?)" target="_blank">')#编译正则表达式
        url_sub=pattern.findall(html)#解析二级页面链接
        url_sub=['http://www.1ppt.com'+x for x in url_sub]#拼接成完整链接
        for j,link in enumerate(url_sub):
            print('第{}页第{}个ppt爬取中......'.format(i+1,j+1))
            resp=requests.get(link,headers=headers)#向二级网页发送请求
            if resp.status_code==200: 
                resp.encoding=resp.apparent_encoding#字符编码设置为网页本来所属编码
                html_sub=resp.text#获取网页代码
                pattern=re.compile(r'img src="(.*?)" width="700"')#编译正则表达式
                image_link=pattern.findall(html_sub)#解析图片链接
                for k,li in enumerate(image_link):
                    response_image=requests.get(li,headers=headers)#请求图片链接
                    content=response_image.content#获取图片二进制内容
                    with open('./图片/{}-{}-{}.jpg'.format(i+1,j+1,k+1),'wb') as f:
                        f.write(content)#下载图片   
            else:
                print('第{}页第{}个ppt链接请求失败！'.format(i+1,j+1))
    else:
        print('第{}页一级页面请求失败！'.format(i+1))

如果对你有帮助，请点下赞，予人玫瑰手有余香！

时时仰望天空，理想就会离现实越来越近！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

正则

RE

图片

爬虫一：用正则表达式爬取图片的相关文章

当测试人员遇上CodeReview：揭秘代码审查绝招

引言测试人员的业务流程理解程度直接影响测试用例的准确性和全面性为了提高测试用例编写水平和测试效率有两个关键方面需要注意首先通过仔细阅读需求文档并与产品经理进行充分沟通的方式可以达到这一目标其次通过进行代码审查来提高代码质量
matlab实现离散傅里叶变换及低通滤波

如图传感器无滤波状态下FZ数据为下列导入matlab使用工具箱分析图如下将数据导入matlab代码 clear clc close all load data nofliter Fs 100 采集频率 T 1 Fs 采集时间间隔信号长
c++对象模型探索-王健伟-专题视频课程

c 对象模型探索 120人已学习课程介绍 c 对象模型知识久负盛名在c 界具有很高的美誉度这方面知识的学习更是被诸多颇具开发实力的行业前辈倾力推荐本门课程内容将涉及到很多不被常人所知的 c 对象内部工作原理底层的一些具体实现机制

随机推荐

面试 -为啥react函数式组件无this？

为什么函数式组件的this不指向window 因为这是经过Babel翻译的结果 Babel要将jsx语法翻译成js Babel是严格模式 use strict 下进行的不允许函数里的this指向window 所以这里指向undefined
飞浆AI studio人工智能课程学习（2）-Prompt优化思路

文章目录优化思路上节课的例子问题分析思路解析 Prompt优化技巧 Prompt优化原理十个技巧高效优化Prompt 迭代法 Trick法工具法通用技巧定基础通用技巧做强调需求强调怎么做通用技巧提预设 Trick法
认知迭代：Tomcat性能提升的实战操作，提升60倍以上tomcat性能

经常听到不少人说一句话 tomcat性能差不如去用weblogic websphere jboss 我想说用什么东西得根据实际情况来吧如果给一个小公司的外包开发一个普通的项目给她用Oracle Weblogic 在高速公路上拖拉机
QT定制帮助文档

先给个教程链接 https www cnblogs com Braveliu p 5055387 html
Win8下用DOSBox编写汇编语言

Win8下用DOSBox编写汇编语言 DOSBox 是一个 DOS模拟程序可以很方便的移植到其他的平台因此可以使用它在Win8系统中编写汇编语言下面提供相关下载链接 DOSBox下载 http pan baidu com s 1qWw
简易学生信息管理系统（Python版）

一系统简介实现一个学生信息的管理系统主要功能有添加学生信息删除学生信息修改学生信息查询学生信息显示学生信息退出当前系统二步骤分析显示功能界面用户输入功能序号对不同序号的功能实现具体函数 3 1 定义函数 3 2
[Python人工智能] 十八.Keras搭建卷积神经网络及CNN原理详解

从本专栏开始作者正式研究Python深度学习神经网络及人工智能相关知识前一篇文章详细讲解了Keras实现分类学习以MNIST数字图片为例进行讲解本篇文章详细讲解了卷积神经网络CNN原理并通过Keras编写CNN实现了MNIST分
硬件系统工程师宝典（2）-----硬件电路的概要设计启动

今天我们继续来读这本书硬件系统工程师宝典作者提到产品需求分析之后就进入概要设计阶段在这个阶段 ID Industrial Design 工业设计及结构工程师软件系统开发工程师和硬件系统开发工程师等开始分头工作工业设计工程师负责使
【会议分享】2022年工业电子与仪器仪表国际会议（ICoIEI 2022）

2022年工业电子与仪器仪表国际会议 ICoIEI 2022 重要信息会议网址 www icoiei org 会议时间 2022年10月15 17日召开地点韩国济州岛截稿时间 2022年9月15日录用通知投稿后2周内收录检索
python王者归来 pdf下载_OpenStack开源云王者归来

基本上关于openstack的都买过了这本最后前面一些概念内容还是很有帮助的很好的一本书非常适合初学者赞一个不过原理的东西特少全都是代码真是看得蛋疼 OpenStack开源云王者归来介绍本书按照入门剖析扩展的讲授方式
【Python】查看Python & PyTorch & Torchvision版本

1 查看Python版本方法一终端中输入 python V 方法二进入Python环境 python 输入 import sys print sys version print sys version info 2 查看PyTorch
服务器开启虚拟机就死机,解决ESXi服务器上磁盘锁导致虚拟机卡死的问题

解决ESXi服务器上磁盘锁导致虚拟机卡死的问题解决ESXi ESX服务器上磁盘锁导致虚拟机假死卡死的问题当虚拟机被卡死或假死时在文件夹里面只有如下内容信息 1 vswp 2 flat vmdk 3 delta vmdk 4 vmx
人工智能、机器学习、自然语言处理、深度学习等有啥本质的区别？

大众媒体赋予这些术语的含义通常与机器学习科学家和工程师的理解有所出入因此当我们使用这些术语时给出准确的定义很重要其关系韦恩图如图1 2所示图1 2 自然语言处理人工智能机器学习和深度学习等术语的关系韦恩图 1 人工智能人工智
LeetCode题目笔记——1807. 替换字符串中的括号内容

文章目录题目描述题目难度中等方法一使用字典代码 Python 代码 C 总结题目描述给你一个字符串 s 它包含一些括号对每个括号中包含一个非空的键比方说字符串 name is age yearsold 中有两个
u盘显示需要格式化才能用怎么办？小技能了解下！

u盘显示需要格式化才能用怎么办 u盘是常用的一款数据存储设备但不少网友在使用u盘的过程中都遇到过这样的一个问题就是u盘无法打开且提示需要将其格式化有网友使用u盘的时候操作不当直接拔插u盘导致u盘损坏需要格式化才能继续使用但是里面
winform 登录跳转页面

登录成功后跳转改两个地方就可以解决而第一个上面的判断是登录成功与否跳转需要的就是一句当前页改变DialogResult this DialogResult DialogResult OK 第二个在Program cs里面 st
矩形覆盖（java）

一问题描述我们可以用2 1的小矩形横着或者竖着去覆盖更大的矩形请问用n个2 1的小矩形无重叠地覆盖一个2 n的大矩形总共有多少种方法二算法分析解题思路归纳法列举出n 1 2 3 4 5 总结规律分析可知 f n 可以按照
java.lang.ClassNotFoundException：（新建的servlet无法找到class文件）

1 首先确定project gt Build Automatically是否勾选上 2 然后再进行测试能不能进行编译如果还是不能则进行手动编译 3 进入clean对话框选择Clean projects selected below
一个按键控制8个led灯_51单片机实现4个按键控制8个LED灯四种状态

电路原理图元件清单程序 C语言 include
爬虫一：用正则表达式爬取图片

爬虫流程发起请求通过使用HTTP库向目标站点发起请求即发送一个Request 请求可以包含额外的headers等信息并等待服务器响应获取响应内容如果服务器能正常响应则会得到一个Response Response的内容就是所要获取