我的第一个python爬虫

2023-11-08

文章目录

前言
一、python爬虫是什么？
二、豆瓣电影TOP250排行榜信息爬取
总结

前言

今天想跟大家分享下我完成第一个python爬虫项目的过程，同时记录自己的“第一次”。我的第一个爬虫项目是在B站上学习的，讲的特别细。课程链接发在这啦，想走进Python的小伙伴可以点进去开始学习！

Python爬虫+数据可视化

其实，在自己没有了解过爬虫的时候，对于爬虫是没什么感觉的，但是在听课的过程中，慢慢的了解爬虫后，愈发的对其感到了兴趣。
感觉爬虫是一个好奇妙的东西，对于没有了解过爬虫的小伙伴，看完我这次分享后，希望对你有所感触哦。

当然，话不多说，大家一起跟我走进python爬虫的奇妙世界吧

一、python爬虫是什么？

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

二、豆瓣电影TOP250排行榜信息爬取

1.发送请求

本次爬虫我们是需要得到豆瓣电影前250的电影排行信息
在爬取豆瓣网页时，我们第一步做的便是向网页发起请求

当然，发起请求会使用到request库，我们可以在设置中进行库的下载
具体流程如下：

图片中，点击设置找到python解释器，点击添加，下载所需要的库

首先给大家介绍下我们需要用到的一些库，可以提前进行下载

本次爬虫所需要的库主要是request：请求网页，BeautifulSoup，urllib：获取数据，re ：正则提取数据， xlwt，sqlite3: 保存数据

在这里插入图片描述
随后，便是对网页发送请求，并且获取网页数据啦~

在这里插入图片描述
代码先上，嘿嘿
我们通过request对网页进行请求，获取其数据，不过我们在访问网页时要对请求头做一个处理。我们可以在豆瓣网页上按F12键，找到源码中的请求头复制，放入代码中。模拟豆瓣网页对浏览器发起请求，也叫作用户代理。

当然我们在获取网页信息时可能也会存在一些乱码或者异常等，不过我们本次爬虫不涉及太复杂的内容啦。

通过上述操作我们便获取了网页的所有内容，接下来我们需要的便是获取我们想要的内容啦

2.获取数据

获取数据我们将会用到re库，本次爬虫项目使用的是正则提取，当然并不要求爬虫一定要用正则提取，用其他的也是可以的，在此就不进行过多讲述。

在这里插入图片描述
本次我们要爬取的内容是电影详情链接，图片链接，影片中文名，影片外国名，评分，评价数，概况，相关信息。

正则表达式是一个难学的家伙，鉴于自己也没学明白，就不多跟大家介绍啦，免得误导大家，哈哈哈。所以直接看代码吧。

3.解析数据

在这里插入图片描述
这里就到了解析数据了，我截取了部分代码进行演示。一样就是通过正则表达式进行提取我们需要的数据。

补充说明：
在这里插入图片描述
当然在我们获取数据和解析数据函数中会有两个循环，第一个循环是对我们获取网页内容的循环，本来URL访问的只是一个网页，因为我们需要的是250的影片的内容，所以需要访问10次网页。
第二个循环是对获取数据的分析，同样的道理，我们对一个电影进行了解析，运用循环对所有电影内容进行提取。

4.保存数据

得到了我们需要的数据后，肯定是需要进行保存处理的。本次爬取讲到了两种储存方法
（1）.储存在Excel表中
在这里插入图片描述
储存在Excel表中是相对简单的一种方式，我们首先便是需要调用xlwt库
然后创造对象，创造表，在写入数据，最后保存就可以了。
最后的到的结果就是一个Excel表，具体内容如下图：

这就是第一种我们将数据储存在Excel表中的方式，只需要利用上述的几个流程即可

（2）.储存在数据库中

在这里插入图片描述
储存在数据库里的话要用到sqlite3 上述代码是具体的方法
不过本次就不过多介绍此方法了，相对复杂
需要先连接数据库，用pycharm作为工具的小伙伴需要用专业版才能进行数据库保存。社区版是不支持的。
其次我们建表以及插是运用的sql语句，需要对数据库先进行学习哦
所以我们在这就不过多讲啦

总结

这是自己学习的第一个爬虫，当然是最简单的爬虫。
但也是自己写的一个个100多行代码的程序
可能是觉得来之不易吧，所以想要把它记录一下
同样，我还会继续学下去，学习更多的爬虫项目
也会在接下来继续分享我的学习之旅
希望看到这篇文章的小可爱们能够动动你们的小手，留下保贵的赞哦！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python