如今爬虫越来越多,一些网站网站加强反爬措施,其中最为常见的就是限制IP,对于爬虫爱好者来说,能有一个属于自己的IP代理池,在爬虫的道路上会减少很多麻烦
环境参数
工具 |
详情 |
服务器 |
Ubuntu |
编辑器 |
Pycharm |
第三方库 |
requests、bs4、redis |
搭建背景
之前用Scrapy写了个抓取新闻网站的项目,今天突然发现有一个网站的内容爬不下来了,通过查看日志发现是IP被封,于是就有了这篇文章。
思路
一般出售IP代理的都会提供一些免费代理,既然是免费的就不要浪费,我们只要把免费的代理爬下了,及时维护和更新就可以把免费的变成我们自己的代理池
编写爬虫
搜索免费代理会有很多结果,一般情况大部分都可以使用,这里以其中一家代理为例,打开代理网站以后,首先通过浏览器查看代码,然后分析代码开始编写爬虫
网站源代码
<!--其中一条数据-->
...
<tr class="success">
<td class="ip"><div style="display:inline-block;"></div>
<span style="display:inline-block;">59</span><span style="display:inline-block;">.1</span><div style="display:inline-block;"></div><p style="display:none;">0</p><span>0</span><span style="display:inline-block;"></span><span style="display:inline-block;">8.</span><div style="display:inline-block;">12</div><span style="display:inline-block;">5</span><p style="display:none;"></p><span></span><p style="display:none;"></p><span></span><div style="display:inline-block;"