Python爬虫实战——搭建自己的IP代理池

2023-11-12

如今爬虫越来越多，一些网站网站加强反爬措施，其中最为常见的就是限制IP，对于爬虫爱好者来说，能有一个属于自己的IP代理池，在爬虫的道路上会减少很多麻烦

爬虫实战——搭建自己的IP代理池

环境参数

工具	详情
服务器	Ubuntu
编辑器	Pycharm
第三方库	requests、bs4、redis

搭建背景

之前用Scrapy写了个抓取新闻网站的项目，今天突然发现有一个网站的内容爬不下来了，通过查看日志发现是IP被封，于是就有了这篇文章。

思路

一般出售IP代理的都会提供一些免费代理，既然是免费的就不要浪费，我们只要把免费的代理爬下了，及时维护和更新就可以把免费的变成我们自己的代理池

编写爬虫

搜索免费代理会有很多结果，一般情况大部分都可以使用，这里以其中一家代理为例，打开代理网站以后，首先通过浏览器查看代码，然后分析代码开始编写爬虫

网站源代码

<!--其中一条数据-->
...
<tr class="success">
	<td class="ip"><div style="display:inline-block;"></div>
	<span style="display:inline-block;">59</span><span style="display:inline-block;">.1</span><div style="display:inline-block;"></div><p style="display:none;">0</p><span>0</span><span style="display:inline-block;"></span><span style="display:inline-block;">8.</span><div style="display:inline-block;">12</div><span style="display:inline-block;">5</span><p style="display:none;"></p><span></span><p style="display:none;"></p><span></span><div style="display:inline-block;"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Python爬虫实战——搭建自己的IP代理池的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

各省简称拼音缩写_全国所有城市拼音及缩写

LUOHE LH 洛阳 LUOYANG LY 潞西 LUXI LX 泸州 LUZHOU LZ 吕梁 LVLIANG LL 旅顺 LVSHUN LS 马鞍山 MAANSHAN MAS 茂名 MAOMING MM 梅河口 MEIHEKOU MH
vue el-button获取按钮的值_那些Vue开发遇到的坑---响应式系统

Vue是目前使用较为广泛的前端框架之一相比React Vue更容易学习上手毕竟在React中万物皆JavaScript 这让一些习惯于编写HTML JavaScript的程序员不太乐于接受相比之下 Vue的模板语法它不香么当然 Vu
html5进阶
synchronized和ReentrantLock区别简介说明

在多线程开发中需要锁定指定代码块使其在同一时间只能由一个线程运行我们日常开发中常用的同步锁有 synchronized和ReentrantLock 那么他们两者之间到底有什么不同之处呢下文笔者讲述synchronized和Reent
es 更新延迟

es在更新之后并不是立即可见可查询的会有1s的延迟可以通过设置refresh interval参数来修改刷新的间隔但是在实际应用中 1s的延迟已经算是很久了在java high level client中为index inse
MiniUI 的知识积累

1 默认选中树的根节点 var tree mini get tree 1 tree selectNode tree getRootNode children 0 2 表格修改列头名称 div class mini fit div class
novel Ai （stable-diffusion-webui）安装

关于novel ai的本地化安装环境英伟达显卡 win11 可以连接github并下载内容安装 python 3 10 6及以上安装并添加到path 安装cuDNN和CUDAToolKit 先更新主机的显卡驱动检查系统的显卡驱动版
Java如何进行内存分配

Java 虚拟机 JVM 负责管理 Java 应用程序的内存在 Java 中内存被划分为不同的区域每个区域都有不同的用途 Java 中有两种主要的内存区域堆和栈功能 1 堆堆是存储所有对象实例的内存区域所有对象实例都存储在堆中
React之中的styled-components

在react之中使用css不像vue之中那么方便 react官方也没有很统一的用法下面是有关于styled component的使用 1 安装库 yarn add styled components 2 基本使用在其中styled di
深度学习中的epoch，batchsize，iteration都是什么？

转载 https www jianshu com p e5076a56946c 一切的一切要从机器学习中的梯度下降法说起首先让我们来回顾一下这个常见的不能再常见的算法梯度下降法是机器学习中经典的优化算法之一用于寻求一个曲线的最小值
wxWidgets with quick-x

前言 OSX下 Qt5 所生成应用包的大小有七八十兆大小单独一个 debug 版本的可执行程序都有 15 7MB 再加上 QtCore QtGui QtOpenGL 等 framework 包大小分分钟上来曾经发布过的 Qt5 2 qu
微信公众号实现“一键关注”功能

背景之前用的一键关注要么通过图文要么通过二维码这样甚是麻烦而且引导不到位而看到朋友圈打广告的一些公众号可以直接关注于是一直研究这个功能今天终于实现了分享给所有朋友希望能帮助到所有朋友这个引导关注的页面包含了公众号的log
密码学之哈希算法

1 哈希算法哈希算法是将任意长度的二进制值映射为较短的固定长度的二进制值这个小的二进制值称为哈希值哈希值是一段数据唯一且极其紧凑的数值表示形式如果散列一段明文而且哪怕只更改该段落的一个字母随后的哈希都将产生不同的值要找到散列为同
滑动关机BAT脚本

滑动关机脚本 1 脚本功能增加一个一键关机的功能点击这个按钮即可滑动关闭电脑非常酷炫好用 2 脚本内容 slidetoshutdown 3 使用方式新建slideDown bat文件编辑把上面的脚本内容粘贴进去然后双击执行s
MySQL（十三）：分区表（ Partitioning Table）

文章目录 1 MySQL 分区简介 1 1 什么是分区表 1 2 分区表优点 1 3 分区表缺点 2 MySQL 分区类型 2 1 范围分区 RANGE 2 1 1 基于时间间隔的分区方案 2 1 1 1 按 RANGE 对表进行分区 2
Maven项目版本定义

Maven使用占位符实现一处定义项目版本使用 revision 定义整个项目的版本方便修改父pom
Java实现杨辉三角

代码实现 package day01 public class yanghui public static void main String args 声明二维数组并初始化 int yanghui new int 10 给二维数组赋值 fo
jsp 新能源汽车论坛网Myeclipse开发mysql数据库web结构java编程计算机网页项目

一源码特点 JSP 新能源汽车论坛网是一套完善的java web信息管理系统对理解JSP java编程开发语言有帮助系统具有完整的源代码和数据库系统主要采用B S模式开发开发环境为 TOMCAT7 0 Myeclipse8 5开发
《如何为Android Studio安装HAXM》

注意当你在Android studio直接下载sdk和HAXM一些安卓环境依赖的文件时会出现haxm文件已经下载但未安装导致启动avd模拟器不成功如下图 emulator64 x86 avd 32 QVGA ADP2 API 25
Python爬虫实战——搭建自己的IP代理池

如今爬虫越来越多一些网站网站加强反爬措施其中最为常见的就是限制IP 对于爬虫爱好者来说能有一个属于自己的IP代理池在爬虫的道路上会减少很多麻烦环境参数工具详情服务器 Ubuntu 编辑器 Pycharm 第三方库 reque

Python爬虫实战——搭建自己的IP代理池

Python爬虫实战——搭建自己的IP代理池 的相关文章

随机推荐

热门标签

Python爬虫实战——搭建自己的IP代理池的相关文章