快速构建一个免费的IP代理池

2023-11-18

文章使用的代理ip链接为:

云代理: http://www.ip3366.net/?stype=1&page=1

get方式请求进去,要设置好请求头,cookie

self.faker = Faker(locale='zh_CN')
        self.headers = {
            'User-Agent': self.faker.chrome(),
            'Cookie':'Hm_lvt_c4dd741ab3585e047d56cf99ebbbe102=1667027823,1668068804; Hm_lpvt_c4dd741ab3585e047d56cf99ebbbe102=1668068825',
            'Host':'www.ip3366.net',
        }

这里的UA我是使用faker伪造的,当然这也没什么,只是为了让浏览器知道你是一个用户

请求成功后,用xpath来获取ip地址和端口号

将获取到的IP地址和端口号放到列表中

num = int(input('输入爬取页数: '))
        self.ip_list = []
        for page in range(num):
            print(f"==============================正在爬取第{page+1}页==============================")
            self.url = f'http://www.ip3366.net/?stype=1&page={page+1}'
            reqs = requests.get(self.url, headers=self.header)
            reqs.encoding = 'gb2312'
            selecotors = Selector(reqs.text)
            tr_lists = selecotors.xpath('//div[@id="container"]/div[@id="list"]/table[@class="table table-bordered table-striped"]/tbody/tr')
            item = {}
            for tr_list in tr_lists:
                item['ip_dz'] = tr_list.xpath('./td[1]/text()').get()
                item['prots'] = tr_list.xpath('./td[2]/text()').get()
                # item['type_s'] = tr_list.xpath('./td[4]/text()').get()
                self.proxys = {
                    'http': item['ip_dz']+ ':'+item['prots'],
                    'https': item['ip_dz']+ ':'+item['prots']
                }
                print(self.proxys)
                self.ip_list.append(self.proxys)

进行IP验证,设置超时时间为6,超过为不可用,找到可用IP

        can_ip = []
        cant_ip = []
        for ip in self.ip_list:
            try:
                req = requests.get(url='http://httpbin.org/ip', headers=self.headers, proxies=ip, timeout=6)
                # print(req.json())
                req_json = req.json()
                req_ip = req_json.get('origin')
                print('这是origin: ',req_ip)
                http_ip_prot = ip.get('http')
                http_ip = re.search(r'(.*?):(\d+)', http_ip_prot, re.S).group(1)
                print('这是http_ip: ', http_ip)
                try:
                    if req.status_code == 200 and http_ip==req_ip:
                        can_ip.append(ip)
                        print(ip, '可用')
                        print(req.json())
                    else:
                        cant_ip.append(ip)
                        print(ip, '不可用')
                except:
                    cant_ip.append(ip)
                    print(ip, '不可用')
            except:
                cant_ip.append(ip)
                print(ip, '不可用')

将可用IP保存为csv文件

        with open('IP_use.csv', 'w', encoding='utf-8', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(can_ip)

这里展示全部代码:

import requests
# import time
from faker import Faker
from parsel import Selector
import csv
import re




class IPDL():
    def __init__(self):
        self.faker = Faker(locale='zh_CN')
        self.header = {
            'User-Agent': self.faker.chrome(),
            'Cookie':'Hm_lvt_c4dd741ab3585e047d56cf99ebbbe102=1674180209; Hm_lpvt_c4dd741ab3585e047d56cf99ebbbe102=1674184681',
            'Host':'www.ip3366.net',
        }


    def get_html(self):
        num = int(input('输入爬取页数: '))
        self.ip_list = []
        for page in range(num):
            print(f"==============================正在爬取第{page+1}页==============================")
            self.url = f'http://www.ip3366.net/?stype=1&page={page+1}'
            reqs = requests.get(self.url, headers=self.header)
            reqs.encoding = 'gb2312'
            selecotors = Selector(reqs.text)
            tr_lists = selecotors.xpath('//div[@id="container"]/div[@id="list"]/table[@class="table table-bordered table-striped"]/tbody/tr')
            item = {}
            for tr_list in tr_lists:
                item['ip_dz'] = tr_list.xpath('./td[1]/text()').get()
                item['prots'] = tr_list.xpath('./td[2]/text()').get()
                # item['type_s'] = tr_list.xpath('./td[4]/text()').get()
                self.proxys = {
                    'http': item['ip_dz']+ ':'+item['prots'],
                    'https': item['ip_dz']+ ':'+item['prots']
                }
                print(self.proxys)
                self.ip_list.append(self.proxys)

    def train_ip(self):
        """检测ip的函数"""
        self.headers = {
            'User-Agent': self.faker.chrome(),
        }
        can_ip = []
        cant_ip = []
        for ip in self.ip_list:
            try:
                req = requests.get(url='http://httpbin.org/ip', headers=self.headers, proxies=ip, timeout=6)
                # print(req.json())
                req_json = req.json()
                req_ip = req_json.get('origin')
                print('这是origin: ',req_ip)
                http_ip_prot = ip.get('http')
                http_ip = re.search(r'(.*?):(\d+)', http_ip_prot, re.S).group(1)
                print('这是http_ip: ', http_ip)
                try:
                    if req.status_code == 200 and http_ip==req_ip:
                        can_ip.append(ip)
                        print(ip, '可用')
                        print(req.json())
                    else:
                        cant_ip.append(ip)
                        print(ip, '不可用')
                except:
                    cant_ip.append(ip)
                    print(ip, '不可用')
            except:
                cant_ip.append(ip)
                print(ip, '不可用')


        with open('IP_use.csv', 'w', encoding='utf-8', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(can_ip)


        print('可用ip共:',len(can_ip))
        print('不可用ip共:',len(cant_ip))


    def mains(self):
        self.get_html()
        # self.save()
        self.train_ip()

if __name__ == '__main__':
    IPDL().mains()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

http

python

快速构建一个免费的IP代理池的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
如何从 Retrofit2 获取字符串响应？

我正在做 android 正在寻找一种方法来执行超级基本的 http GET POST 请求我不断收到错误 java lang IllegalArgumentException Unable to create converter for
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

vscode配置快捷键注释模板

文章目录前言一打开配置项 1 首选项编辑配置 2 新建代码片段 3 配置注释文件名二新建代码注释模板三注释使用前言本篇文章可以在vscode中配置快捷键显示代码的信息注释如作者描述创建时间等一打开配置项 1 首选
SD卡中FAT32文件格式快速入门（图文详细介绍）

说明 MBR Master Boot Record 主引导记录 DBR DOS Boot Record 引导扇区 FAT File Allocation Table 文件分配表硬件本文SD卡为Kingston 4GB FAT32格式簇
【Python】 Pandas数据导入与导出

数据读取 import pandas as pd data pd read csv data csv 读取数据文件 print data 数据索引与查看 x data loc x 读取表头为 x 的那一列的数据 print x y data
如何自学现代计算机科学(转）

简介这里收集了很多学习资源都是关于一些适合本科生学习的计算机科学话题 Topics 这里仅仅只提供话题列表而不会提供诸如知识点剖析练习题等内容如果你对某一个话题特别感兴趣想深入研究一下但又买不起文中提到的书籍实体书那
使用docker搭建FastDFS文件系统

使用docker搭建FastDFS文件系统 1 拉取fastdfs镜像 docker search fastdfs 这里要选择 delron fastdfs 镜像 docker pull delron fastdfs 2 启动容器 2 1
车祸相关公开数据集（免费下载）

Vehicle Collisions 纽约市机动车与人相撞背景描述这是 2021 年在纽约发生的人与机动车碰撞事故的数据仅过滤掉超过 1 000 美元的受伤或死亡案件总结了事件的日期和时间受伤的位置以及警方对事件的描述数据说明
Dubbo源码分析-Spring与Dubbo整合原理与源码分析（二）

Spring与Dubbo整合的整体流程基于apache dubbo 2 7 15 因为dubbo有较多的兼容以前的代码比如 DubboReference 以前就有两个版本 Reference 和 com alibaba dubbo con
list 分组_学习笔记系列_10_数据聚合与分组操作

开篇导包一数据聚合 df groupby 详解 DataFrame 参数 by 用作分组的条件对象 mapping function label or list of labels axis 轴方向 0 or index 1 or co
Golang笔记：UDP基础使用与广播

文章目录目的基础说明作为服务器使用作为客户端使用广播总结目的 UDP是比较基础常用的网络通讯方式这篇文章将介绍Go语言中UDP基础使用的一些内容本文中使用 Packet Sender 工具进行测试其官网地址如下 http
大数据常见错误解决方案（转载）

1 用 bin spark shell启动spark时遇到异常 java net BindException Can t assign requested address Service sparkDriver failed after 1
java代理

静态代理 import java util logging Level import java util logging Logger 定义接口代理类和被代理类都要实现这个接口 interface IHello public void h
KALI中Arping的使用方法（2023）

一介绍 ARP协议是 Address Resolution Protocol 地址解析协议的缩写在同一以太网中通过地址解析协议源主机可以通过目的主机的IP地址获得目的主机的MAC地址 arping程序就是完成上述过程的程序 arp
【YOLOv5-6.x】解决加入CA注意力机制不显示FLOPs的问题

1 问题描述问题源自之前写的一篇博客魔改YOLOv5 6 x 中加入ACON激活函数 CBAM和CA注意力机制加权双向特征金字塔BiFPN 尝试在YOLOv5的backbone中加入Coordinate Attention 虽然加入
程序员应了解的那些事（5）C++迭代器之iterator_traits/iterator_category

lt 1 gt traits 所谓traits 可以理解为萃取机作用就是你丢给他什么东西他会给你拿出你想要的特性迭代器的特性 iterator traits lt gt lt 2 gt 迭代器的属性迭代器是沟通算法和容器的桥梁一
小程序获取链接中的参数

onLoad function options if options null options undefined options sharetype null options sharetype gt 0 console log opti
【Android入门到项目实战-- 7.3】—— 如何调用手机摄像头和相册

目录一调用摄像头拍照二打开相册选择照片学完本篇文章可以收获如何调用手机的摄像头和打开手机相册选择图片功能一调用摄像头拍照先新建一个CameraAlbumTest项目修改activity main xml 代码如下按钮打开
零基础学习hadoop到上手工作线路指导（不断更新）

本帖最后由 pig2 于 2014 2 23 10 22 编辑零基础学习hadoop 没有想象的那么困难也没有想象的那么容易在刚接触云计算曾经想过培训但是培训机构的选择就让我很纠结所以索性就自己学习了整个过程整理一下给大家参
python处理excel数据

文章目录前言一用到的模块是什么二 execl表格的样式三模块的使用 1 引入模块 2 读取excel表数据 3 将写入excel表四代码分析 1 代码逻辑 2 选出有用的股票号并与回报率关联 3 将全部数据按照所需要的股票号
safari无法打开网页是什么原因？mac上的Safari浏览器打不开网页怎么办？

只要是MacOS系统的都会附带一个Safari浏览器完美兼容Mac PC 及 iPod touch iPhone iPad 功能和性能自然是不错的但是也会出现如safari浏览器无法打开网页的情况那么safari无法打开网页是什么原因
快速构建一个免费的IP代理池

文章使用的代理ip链接为云代理 http www ip3366 net stype 1 page 1 验证IP网站为 http http httpbin org ip get方式请求进去要设置好请求头 cookie self faker

快速构建一个免费的IP代理池

快速构建一个免费的IP代理池 的相关文章

随机推荐

热门标签

快速构建一个免费的IP代理池的相关文章