Python爬虫详解

2023-11-08

初识爬虫

爬虫的概念

什么是爬虫

爬虫：通过编写程序，模拟浏览器上网，并抓取有价值的数据的过程

反爬虫：门户网站通过制定相应的策略或技术手段，来阻止爬虫程序对其网站数据的爬取

反反爬：爬虫程序可以采用一些技术手段，来绕过或破坏门户网站的反爬机制，从而爬取到有用的数据

爬虫与反爬虫就是一对矛与盾

爬虫合法性探究

爬虫可能带来的风险？

爬虫干扰了被访问网站的正常运营
爬虫抓取了受到法律保护的特定类型的数据或信息

如何合理地使用爬虫？

对爬虫程序进行优化，避免干扰网站的正常运行
不要爬取涉及商业机密等敏感信息

爬虫的君子协议

通常，网站的robots.txt文件中声明了那些数据可以被爬取，那些数据不可以被爬取（非强制性）

20230113122447

爬虫的分类

在不同的使用场景下，爬虫的分类有

通用爬虫：抓取一整张页面的数据（很可能包含大量无用信息）
聚焦爬虫：抓取页面中特定的局部内容，必须建立在通用爬虫的基础之上
增量爬虫：只会爬取网站中最新更新的数据

网络请求与响应

http协议

http(s)协议是服务器和客户端进行数据交互的一种形式，服务器和客户端都需要遵守该协议才能进行数据交互

https协议是http协议的升级版，服务器与客户端的数据交互是通过证书加密的，攻击者很难获得有价值的信息

常用的请求头信息

Request Header	描述
User-Agent	请求载体的身份标识
Connection	请求完毕后，保持连接还是断开连接

常用的响应头信息

Response Header	描述
Content-Type	服务器响应数据的类型

requests模块

requests是python中的一个基于网络请求的模块，用来模拟浏览器发送请求。

requests模块的安装与使用

pip install requests

import requests

url = 'http://www.baidu.com'
resp = requests.get(url)    #发起一个get请求，并获得响应数据
page_content = resp.text
print(page_content)

属性	描述
resp.text	以字符串形式返回，通常是页面的html源代码
resp.content	以二进制形式返回，比如一张图片、一个音频
resp.json()	返回一个字典对象（当响应数据是json类型时使用）

基于requests的简易网页采集器（使用到了UA伪装）

import requests

# 1. 准备数据
# url = 'https://www.sogou.com/web?query=猫羽雫'
url = 'https://www.sogou.com/web'
word = input('Enter a word:')
params = {  #请求参数，拼接在url后
    'query': word
}
headers = { #请求头，伪装成浏览器
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

# 2. 发起请求
resp = requests.get(url,params,headers=headers)
resp.encoding = resp.apparent_encoding
page_content = resp.text
print(page_content)

# 3. 持久化存储
file_name = word + '.html'
with open(file_name,'w',encoding='utf-8') as fp:
    fp.write(page_content)
print(file_name,'保存成功！')

数据解析

数据解析是在得到整个网页源代码后，对其中的有用信息进行提取的过程。属于聚焦爬虫

数据解析的一般步骤

检查网页源代码发现，有价值的数据一般存放在标签中，或者标签的属性中。所以数据解析的一般步骤是：1.获取网页源代码 2.标签定位 3.解析数据

F12检查元素中的数据不一定在页面源代码中，也有可能是通过ajax动态刷新的数据，这是我们在数据解析时需要注意的。数据解析要以页面源代码为准！

Python中数据解析的三种方式

1.正则表达式（通用） 2.BeautifulSoup4（python独有） 3.xpath（推荐，通用性最强）

使用正则表达式

建议先把要提取的那部分源码单独复制，对照着去写正则表达式（F12太乱了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫