利用python获取IP资源池的方法

2023-05-16

在使用爬虫的时候，经常会遇到IP被禁止的情况，所以一般都需要一个资源池来提高降低风险

以下代码中，基于python3.7，数据库用的是POSTGRESQL11，为了效率使用了队列，程序结构如下：

bin/proxy_pools.py

log/proxy_pools.log

IP来源于github，网址：https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

import requests,re,random,psycopg2,logging,threading,time
from fake_useragent import UserAgent
from os import path
from queue import Queue

class Proxy_pools:
    
    #程序路径初始化
    program_path = path.dirname(path.dirname(path.abspath(__file__)))
    
    #网址链接初始化
    PROXY_URL = "https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list"
    CHECK_URL1 = "https://www.baidu.com"
    CHECK_URL2 = "https://httpbin.org/ip"
    #数据库模块初始化
    INSERT_ACTIVE = "INSERT INTO spider_ip_pools_active(TYPE, URL, STATUS) VALUES('{0}', '{1}', '{2}');"
    SELECT_ACTIVE = "select 1 from spider_ip_pools_active where TYPE='{0}' and URL='{1}';" 
    conn = psycopg2.connect(host="127.0.0.1", user="root", password="000000", dbname="mysite", port=9527)
    cur = conn.cursor()
    #日志模块初始化
    logfile = program_path + '/log/proxy_pools.log'
    logger = logging.getLogger(__name__)
    logger.setLevel(level = logging.INFO)
    handler = logging.FileHandler(logfile)
    formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(process)d - %(message)s')
    handler.setFormatter(formatter)
    handler.setLevel(logging.INFO)
    logger.addHandler(handler)

    def getHeaders(self):
        ua = UserAgent()
        headers = {'User-Agent': ua.random}
        return headers

    def getexistsproxy(self, type, url):
        self.cur.execute(self.SELECT_ACTIVE.format(type, url))
        proxy_exists = self.cur.fetchone()
        if not proxy_exists:
            return 0
        else:
            return 1
            

    def getProxies(self):
        id = 1
        proxys_dict = {}
        headers = self.getHeaders()
        proxy = {'https':'https://182.253.67.42:8080', 'http': 'http://122.152.4.65:3128'}
        try:
            htmls = requests.get(self.PROXY_URL, headers=headers, timeout=20).text
        except:
            self.logger.warning("获取最新的proxys代理池失败")
            raise
        htmls = htmls.split('\n')[:-1]
        for html in htmls:
            try:
                proxy_dict_t = eval(html)    #验证是否可以转化为字典
            except:
                pass
            else:
                proxy_exists = self.getexistsproxy(proxy_dict_t['type'],proxy_dict_t['type'] + "://" + str(proxy_dict_t['host']) + ":" + str(proxy_dict_t['port']))
                if proxy_exists == 0:
                    proxys_dict[id] = eval(html)
                    id += 1
        self.logger.info("获取最新的proxys代理池成功, 一共获取{0}条数据".format(len(proxys_dict)))
        return proxys_dict

    def insertProxies(self, proxys_checked):
        for id in proxys_checked:
            type = proxys_checked[id][0]
            url = proxys_checked[id][1]
            status = proxys_checked[id][2]
            try:
                self.logger.info("执行sql: " + self.INSERT_ACTIVE.format(type, url, status))
                self.cur.execute(self.INSERT_ACTIVE.format(type, url, status))
            except psycopg2.errors.UniqueViolation:
                self.conn.rollback()
                self.logger.info("插入proxy失败, 失败原因: 主键冲突")
            except psycopg2.errors.InFailedSqlTransaction:
                self.conn.rollback()
                self.logger.info("插入proxy失败, 失败原因: 提交异常") 
            except:
                self.conn.rollback()
                self.logger.info("插入proxy失败, 失败原因: 未知异常")
                raise
            else:
                self.logger.info("插入proxy成功")
            finally:
                self.conn.commit()
        return None
   
    def checkUrl(self, headers, status, id, type, host, port):
        if type == 'http':
            url = "http://" + str(host) + ":" + str(port)
            proxy = {type:url}
        elif type == 'https':
            url = "https://" + str(host) + ":" + str(port)
            proxy = {type:url}
        self.logger.info("生成proxy代理成功" + ",id=" + str(id) + ",type=" + type + ",url=" + url + "...准备测试")

        try:
            res = requests.get(self.CHECK_URL1, headers=headers,timeout=10)
        except:
            self.logger.info("测试proxy代理失败" + ",id=" + str(id) + ",type=" + type + ",url=" + url + "...无法使用")
        else:
            status = 'US10'
            if res.status_code == 200 and '<!--STATUS OK-->' in res.text:
                self.logger.info("测试proxy代理成功" + ",id=" + str(id) + ",type=" + type + ",url=" + url + "...可以使用")
                proxy = (type, url, status)
                return proxy
            else:
                self.logger.info("测试proxy代理失败" + ",id=" + str(id) + ",type=" + type + ",url=" + url + "...无法使用")
                
    def main(self):
        proxys_checked = {}
        #获取proxy代理池, 及相关数据
        self.logger.info("开始获取最新的proxys代理池")
        proxys_unchecked = self.getProxies()
        status = 'US99'                             #状态默认不通过
        headers = self.getHeaders()                 #头标识
        #创建多线程队列
        self.logger.info("开始创建校验proxy可用性线程队列")
        proxys_threads = []             #线程
        que = Queue()                   #队列
        for id in proxys_unchecked:
            type = proxys_unchecked[id]['type']
            host = proxys_unchecked[id]['host']
            port = proxys_unchecked[id]['port']
            proxys_threads.append(threading.Thread(target=lambda que, headers, status, id, type, host, port: que.put(self.checkUrl(headers, status, id, type, host, port)), args=(que, headers, status, id, type, host, port)))
            self.logger.info("插入" + "[type:" + type + ";host:" + host + ";port:" + str(port) +"]校验proxy可用性队列成功")
        self.logger.info("创建校验proxy可用性线程队列成功")
        self.logger.info("准备启动校验proxy可用性线程")
        for proxys_thread in proxys_threads:
            proxys_thread.setDaemon(True)
            proxys_thread.start()
        self.logger.info("开始守候校验proxy可用性线程...")
        for proxys_thread in proxys_threads:
            proxys_thread.join(timeout=12)
        self.logger.info("准备获取校验proxy可用性队列结束...")
        id = 1
        while not que.empty():
            result = que.get()
            if result:
                proxys_checked[id] = result
                id += 1
        self.logger.info("获取校验proxy可用性队列结果成功...")
        self.logger.info("准备将proxys插入数据库...")
        self.insertProxies(proxys_checked)
        self.logger.info("proxys插入数据库结束...")
        self.logger.info("获取最新的proxys代理池进程结束")

if __name__ == "__main__":
    a = Proxy_pools()
    a.main()

写的一般般，其实还有很多地方可以优化一下，不过既然程序可以跑起来，就懒得搞了，如果你看了之后有更好的想法，请分享给我，谢谢~~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

资源池的方法

利用python获取IP资源池的方法的相关文章

Python 字符串到 SQL IN 参数的列表

我在 python 中有这个查询 ssim group S1200 S1300 query select WIPMessageCnt from waferdata where recipename in s and equipment an
Python 中的随机优化

我正在尝试结合cvxopt http cvxopt org 优化求解器和PyMC https github com pymc devs pymc 采样器解决凸问题随机优化问题作为参考安装这两个软件包pip很简单 pip instal
在 Tensorflow 2.0 中的 tf.function input_signature 中使用字典

我正在使用 Tensorflow 2 0 并面临以下情况 tf function def my fn items do stuff return 如果 items 是张量的字典例如 item1 tf zeros 1 1 item2 tf
使用 NumPy 数组执行分组平均值和标准差

我有一组数据 X Y 我的自变量值 X 不是唯一的因此有多个重复值我想输出一个新数组其中包含 X unique 它是 X 的唯一值的列表 Y mean 与 X unique 对应的所有 Y 值的平均值 Y std X unique对应
Python 3.8 的点子

如何安装适用于 Python 3 8 的 Pip 我将 3 8 设置为我的默认 Python 版本 sudo apt install python3 8 pip gives 无法找到包 python3 8 pip 和跑步 python3 8
所有模型的 SQLAlchemy 事件 after_create

我正在开发一个项目需要对创建的每个模型进行通用定制迄今为止我完成大部分工作的方式是通过模型继承这是我的代码块可以为您提供更好的想法 app core dba mixins class AuditExtension MapperExt
什么时候会在 dict 上使用键值对作为 dict.update 方法？

我注意到你可以做两件事来更新字典并且它们似乎有相同的结果 a a update foo 1 a a update foo 1 两者都会产生如下所示的字典结果 foo 1 是否有任何理由更喜欢使用字典或键值对作为更新方法它们在功能上是否
为什么比较匹配的字符串比比较不匹配的字符串更快？ [复制]

这个问题在这里已经有答案了这里有两个测量值 timeit timeit toto 1234 number 100000000 1 8320042459999968 timeit timeit toto toto number 100000
Pandas 随机样本删除

我知道DataFrame sample 但是我怎样才能做到这一点并从数据集中删除样本呢注意据我所知这与替换采样无关例如这里是精华我想要实现的目标这实际上不起作用 len df 1000 df subset df sample 30
使用 pandas 插值将每月值转换为每日值

我有 1000 列的 12 个平均每月值我想使用 pandas 将数据转换为每日数据我尝试过使用插但我得到了从 31 01 1991 到 31 12 1991 的每日值这并不涵盖全年一月份的值没有得到我用了日期范围用于我的数据框的
在散景中隐藏轴

如何在散景图中隐藏 x 轴和 y 轴我已经根据此进行了检查和尝试 p1 figure visible None p1 select type Axis visible 0 xaxis Axis plot p1 visible 0 和喜欢h
您可以使用 Openpyxl 将全名拆分为名字和姓氏吗？

我有一个 Excel 文件我一直在尝试使用 openpyxl 将列全名拆分为两个单独的名字和姓氏列例如我有 from openpyxl import Workbook load workbook wb load workboo p
将 PyQt5 QPixmap 转换为 numpy ndarray

我有像素图 pixmap self screen grabWindow 0 self x self y self width self height 我想将其转换为 OpenCV 格式我尝试将其转换为numpy ndarray如上所述he
如何在 Flask-SQLAlchemy 中通过 id 删除记录

I have users我的 MySql 数据库中的表这张表有id name and age fields 我怎样才能删除一些记录id 现在我使用以下代码 user User query get id db session delete
将画布的鼠标坐标转换为地理坐标

我正在尝试使用 Python Tkinter 创建包含意大利所有城市的地图Canvas 我在网上找到了一张意大利地图的图片其中突出显示了一些城市并将其插入到我的Canvas 之后我使用一个函数来确定 2 个突出显示的城市的画布坐标 i
python执行列表和函数列表[重复]

这个问题在这里已经有答案了我正在将 Python 2 7 与 Autodesk Maya 结合使用这是我的问题的一个例子 import maya cmds as m def a passedString print this passe
如何使用高复制数据存储

好的我已经看过了video http www google com events io 2011 sessions more 9s please under the covers of the high replication datas
使用 python 提取 MP3 URL 的 ID3 标签并进行部分下载

我需要提取远程 mp3 文件的 ID3 标签和元数据我写了几行可以获取本地文件的ID3标签 from mutagen mp3 import MP3 import urllib2 audio MP3 Whistle mp3 songtitl
在 Pandas 中按索引分组

如何使用 groupby by 索引 1 2 3 它们的顺序相同并获得属于每个索引范围的列分数的总和基本上我有这个 index score 1 2 2 2 3 2 1 3 2 3 3 3 我想要的是 index score sum 1
AttributeError：“MainRouter”对象没有属性“_disabled_count”

我正在创建一个 kivy 应用程序其中我使用了显示此错误的路由器 AttributeError MainRouter 对象没有属性 disabled count 有什么解决办法吗我也得到了这个但使用 super 修复了它使用以下命令

随机推荐

Ubuntu 升级cmake 版本

PS 在编译一些包时需要更高的版本 xff0c 需要升级 cmake 千万别执行下面的命令 xff0c 这样会把之前用 cmake 编译好的包都给卸载掉 xff0c 包括ros sudo apt get autoremove cmake 比
视觉slam十四讲（ch6） Ubuntu18.04安装 g2o库报错error: FixedArray ... has no member named ‘fill’

ps 再学习14讲第二版的时候 xff0c 运行g2o 报错 error FixedArray aka class ceres internal FixedArray lt double 6 gt has no member named f
无人驾驶学习笔记-NDT 配准

目录 1 NDT 的算法处理流程 2 NDT 公式推导 3 NDT 实例 3 1 常规NDT的位姿估计 3 2 front end node 1 ROS常规初始化 2 初始化操作 xff1a 读取传感器数据获取lidar to imu变换
KD 树原理以及在三维激光点云中的应用

目录 1 介绍 2 原理 2 1 数据结构 2 2 构建KD树 2 3 实例 3 程序示例 4 参考链接 1 介绍 kd tree简称k维树 xff0c 是一种空间划分的数据结构常被用于高维空间中的搜索 xff0c 比如范围搜索和最近邻搜
slam 基础知识整理之- 最小二乘问题的引出与求解方法

目录 1 最小二乘引出 2 线性最小二乘及求解方法 3 非线性最小二乘编辑 3 1 求解思路 3 2 常用四种方法 3 3 四种方法总结 4 参考链接在SLAM的过程中 xff0c 我们可以构建机器人状态过程通过对其概率的计算 x
无人驾驶学习笔记 - LOAM 算法论文核心关键点总结

目录 1 框架 2 特征点提取 3 点云去畸变 4 帧间匹配特征关联与损失函数计算 a 线特征 b 面特征 5 运动估计 6 建图 7 姿态融合 8 LOAM 优劣势 9 参考连接 1 框架 loam框架核心是两部分 xff0c 高频率的
动态窗口法的理解和一些细节

机器人局部路径规划动态窗口法动态窗口法 xff08 Dynamic Window Approach xff0c DWA xff09 是一类经典的机器人局部路径规划算法它的过程主要分为两部分 xff1a 速度空间 v
无人驾驶学习笔记 - A-LOAM 算法代码解析总结

目录 1 概述 2 scanRegistration cpp 2 1 代码注释 2 1 1 主函数 2 1 2 removeClosedPointCloud xff08 雷达周边过近点移除 xff09 2 1 3 laserCloudHan
无人驾驶学习笔记-LeGO-LOAM 算法源码学习总结

目录 1 概述 2 lego loam的贡献 3 系统框图 4 ros graph中的节点关系表 5 lego loam 的文件系统架构 6 各部分方法原理及代码注释 6 1 点云投影与目标分割 1 总结概述 2 代码注释 2 1 copy
Boost 中 signal2 用法

boost 函数与回调 xff08 三 xff09 signals2
树莓派学习笔记

文章目录树莓派基础入门笔记无显示屏使用方式基础教程5 树莓派文件传输配置编译环境使用U盘直接传输使用vnc传输文件FTP文件传输协议Python配置编译环境C C 43 43 配置编译环境Linux常用终端命令nano和vi编辑器的使用
22.IO与显示器

README 1 本文内容总结自 B站操作系统哈工大李治军老师 xff0c 内容非常棒 xff0c 墙裂推荐 xff1b 2 显示器是输入型外设 xff1b 3 本章主要内容是讲显示器是如何被驱动的 xff1b 或操作系统是如何让用户
BGP协议基础配置—学习

BGP重要概念 IGP是运行在AS内部的路由协议 xff0c 主要有RIP OSPF及IS IS xff0c 着重于发现和计算路由 EGP是运行在AS之间的路由协议 xff0c 通常是BGP xff0c 它是实现路由控制和选择最好的路由协议
STM32 Not a genuine ST Device! Abort connection 错误解决方案

STM32 Not a genuine ST Device Abort connection 错误解决方案网上解决方案晶振设置不匹配导致Connect setting to with Pre reset降低MAX Clock 我自己的解决
VMware的.vmdk文件只赠不减的处理方法

VMware虚拟机的虚拟磁盘的大小会随着使用时间不断变大 xff0c 而且只赠不减即使在虚拟系统中删除了磁盘中的文件 xff0c 虚拟磁盘的大小仍然不会变小释放空闲磁盘的方法如下 xff1a VMWare Tools中的 Shrink功
使用码云（Gitee）进行代码管理，以及VsCode关联Git

一安装git Git的下载安装与配置 git 简明指南二注册码云 1 xff09 注册码云账号 xff1a 码云官网 2 xff09 绑定邮箱 xff1a 右上角头像设置邮箱管理三本地项目与码云关联 1 本地项目上传至码云
删掉带页眉的空白页结果把所有页眉都删掉解决办法

点击视图大纲会发现在之前的操作中有两个分节符 xff0c 把上面那个删掉即可参考链接https zhidao baidu com question 105591450 html 小问题也蛮耗时的
ROS之多个订阅数据同步

做传感器数据融合时 xff0c 常常会需要用到多个数据 xff0c 即需要同时订阅多个话题那么 xff0c 如何同步这些传感器数据的时间辍 xff0c 并将它们放入一个回调函数中进行处理呢 xff1f 参考文档 xff1a http wi
C++中使用strtok函数分割字符串String

C 43 43 中使用strtok函数分割字符串String string str getline cin str vector lt string gt vec char p 61 strtok char str c str 34 34
利用python获取IP资源池的方法

在使用爬虫的时候 xff0c 经常会遇到IP被禁止的情况 xff0c 所以一般都需要一个资源池来提高降低风险以下代码中 xff0c 基于python3 7 xff0c 数据库用的是POSTGRESQL11 xff0c 为了效率使用了队列

利用python获取IP资源池的方法

利用python获取IP资源池的方法 的相关文章

随机推荐

热门标签

利用python获取IP资源池的方法的相关文章