最近在学崔大的《网络爬虫开发与实战》,学到正则表达式那块儿,便迎来了自己的第一个实战项目。话不多说,正式进入正文。
本次爬虫工具使用的是pycharm,已经提前安装好了所有包(安装方式:file-Settings-Project Interpreter-“+”-搜索想要安装的包)
首先导入本次爬虫所需要的三个库:requests,re,json。requests的作用是为了爬取网页的html内容,re是为了引入正则表达式,json是为了爬完后将文件保存至本地。
导入以后,首先用requests.get方法得到html,get方法需要两个参数,url和headers,所以我们需要先定义好这两个变量。
headers的查找方法:任意网页,鼠标右键点击,选择检查,找到Network,单击第一个文件,就能看到headers了。
红框中的User-Agent就是我们要找的目标了。不过注意,headers要求的是字典形式,所以还要把找到的内容修改一下,User-Agent