python正则表达式爬取【豆瓣电影top250】(新手向)

2023-10-30

最近在学崔大的《网络爬虫开发与实战》,学到正则表达式那块儿,便迎来了自己的第一个实战项目。话不多说,正式进入正文。

本次爬虫工具使用的是pycharm,已经提前安装好了所有包(安装方式:file-Settings-Project Interpreter-“+”-搜索想要安装的包

首先导入本次爬虫所需要的三个库:requests,re,json。requests的作用是为了爬取网页的html内容,re是为了引入正则表达式,json是为了爬完后将文件保存至本地。

在这里插入图片描述
导入以后,首先用requests.get方法得到html,get方法需要两个参数,url和headers,所以我们需要先定义好这两个变量。

headers的查找方法:任意网页,鼠标右键点击,选择检查,找到Network,单击第一个文件,就能看到headers了。

在这里插入图片描述
红框中的User-Agent就是我们要找的目标了。不过注意,headers要求的是字典形式,所以还要把找到的内容修改一下,User-Agent

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python正则表达式爬取【豆瓣电影top250】(新手向) 的相关文章

随机推荐