爬取IP（快代理）

2023-05-16

python - 爬IP

分析网页
获取IP
储存IP
全部代码

分析网页

这次分析的是快代理，就是这个
在这里插入图片描述
想要获取这上面的IP需要分析网页结构
打开开发者工具进行分析

发现所有IP组数据在tr节点中，每个具体数据在td节点中
代码实现时，从这个节点中获取信息，有很多方法

如果需要多页爬取，需要分析网址规律
在这里插入图片描述

在这里插入图片描述
从以上图片可得知，每页网址前部分相同，都是这个https://www.kuaidaili.com/free/inha/
后面是页数

获取IP

所以可以这样进行获取

import requests
from bs4 import BeautifulSoup
# 目标网址
url = 'https://www.kuaidaili.com/free/inha/' + '1'
# 伪造头信息
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
# 发送请求
r = requests.get(url,headers=header)
# 创建BeautifulSoup对象
soup = BeautifulSoup(r.text,'lxml')
# 使用find_all方法进行获取
ip = soup.find_all('td',{'data-title':'IP'}) # 获取IP的节点数据
port = soup.find_all('td',{'data-title':'PORT'}) # 获取端口的节点数据

用到了BeautifulSoup这个库文件，使用到了find_all方法

储存IP

接下来储存抓取的IP

# 建一个列表 用来装IP和端口
proxies = []
for ip,port in zip(ip,port):
    ip = ip.get_text() # 获取IP文本
    port = port.get_text() # 获取端口文本
    proxy = ip + ':' + port # IP和端口拼接
    proxies.append(proxy)  # 将拼接后的IP加端口添加到列表中

# 打开文件，文件结束后，自动关闭文件
with open('data.txt', 'w+') as f:
    for i in proxies:
    	proxy = {
        'http':i,
        'https':i
    	}
    	print(proxy)
        f.write(i + '\n') # 写入文件

在这里我用的是txt格式存储，还可以用其他方式存储，比如json，数据库，等等

全部代码

import requests
from bs4 import BeautifulSoup

url = 'https://www.kuaidaili.com/free/inha/' + '1'
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
r = requests.get(url,headers=header)
soup = BeautifulSoup(r.text,'lxml')
ip = soup.find_all('td',{'data-title':'IP'})
port = soup.find_all('td',{'data-title':'PORT'})
proxies = []
for ip,port in zip(ip,port):
    ip = ip.get_text()
    port = port.get_text()
    proxy = ip + ':' + port
    proxies.append(proxy)

for i in proxies:
    proxy = {
        'http':i,
        'https':i
    }
    print(proxy)

with open('data.txt', 'w+') as f:
    for i in proxies:
        f.write(i + '\n')
print(proxies)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬取IP（快代理）的相关文章

win10时间同步一直失败的解决办法

安装了win10和Linux双系统后 xff0c 有时切换回win10系统会出现时间错乱的情况右键右下角的时间打开调整日期时间后 xff0c 点击立即同步 xff0c 可能会显示时间同步失败这是因为默认的同步时间服务器连接不上 xff
win10更新后任务栏卡死的原因和解决办法

文章目录现象 xff1a 原因 xff1a 第一步 xff1a 断网并关闭资讯和兴趣第二步 xff1a 卸载更新第三步 xff1a 关闭win10自动更新第四步 xff1a 永久关闭资讯和兴趣现象 xff1a win10 更新后 xff
30 秒速成好莱坞黑客 -- 在 Linux 终端中伪造好莱坞黑客屏幕

这是一个假好莱坞黑客的视频 xff1a 视频效果 xff1a https www douyin com video 7053016921830116623 简介 xff1a 这个小工具将 Linux 终端变成好莱坞风格的实时黑客场景该工具
linux/mm/memory.c/try_to_share()

try to share checks the page at address 34 address 34 in the task 34 p 34 to see if it exists and if it is clean If so s
通过 Telnet 在 Linux 终端中观看ASCII 星球大战

打开终端并使用以下命令安装 telnet xff1a span class token function sudo span span class token function apt span span class token funct
追逐鼠标光标的好奇小猫咪

Oneko 是一个有趣的命令 xff0c 它将常规光标变成鼠标 xff0c 并创建一只好奇的小猫 xff0c 一旦移动光标 xff0c 小猫就会追逐它它不仅限于终端当猫追逐光标时 xff0c 还可以继续工作使用以下命令安装 Oneko
Linux 中的旧扣簧键盘（Bucklespring 键盘）声音

Ubuntu 可以使用 Snap 轻松安装它运行以下命令 xff1a span class token function sudo span snap span class token function install span buck
PDF已加密，可以打开但是不能编辑不允许打印的解决办法

文章目录文档打开口令和许可口令解除加密方法一 FreeMyPdf xff1a http freemypdf com http freemypdf com 方法二绿色小软件 xff1a PDF Password Remover 文档打开口
如何在 Ubuntu 和其他 Linux 发行版中查看 MAC 地址

文章目录使用命令行查找MAC地址获取蓝牙的MAC地址使用 GUI 获取 MAC 地址在学习网络或对其进行故障排除时 xff0c 需要知道 MAC 地址一台计算机可以有多个 MAC 地址因为MAC地址是联网的核心部分 xff0c 每
卸载流氓透明APP，帮老人清理手机弹窗广告

症状 xff1a 只要解锁手机 xff0c 就时不时弹出广告视频 xff0c 声音还开到最大 xff0c 无法关闭尤其是 xff0c 每点开一个app xff0c 都会弹出广告视频 xff0c 接打电话也不例外 xff0c 导致无法正常通
无法翻译此网页的解决办法 - GoogleTranslateIpCheck

2022年9月末 xff0c 网页翻译工具谷歌翻译停止了中国区服务 GitHub 地址 xff1a https github com Ponderfly GoogleTranslateIpCheck 我用的是win10系统 xff0c 所以
树莓派4B（aarch64，arm64）bullseye安装Qt5、GStreamer

简介本文描述树莓派 4B Raspberry Pi OS xff08 64位 xff09 完成启动后 xff0c 进行的第一个编译安装任务 xff1a Qt5 43 GStreamer xff0c 同时也是OpenCV编译安装前的准备工作
51单片机：蜂鸣器

小白向单片机笔记二 xff1a 蜂鸣器前言一蜂鸣器原理二蜂鸣器原理图1 蜂鸣器代码2 代码解释1 为什么蜂鸣器响 xff0c 和LED6闪烁中有两个delay 函数 xff1f 2 为什么BEEP 61 1是关闭LED6 而i 61
多目标跟踪算法中之图匹配——匈牙利算法和KM算法详解

目录一匈牙利算法1 算法背景及思想2 最大匹配3 最优匹配完美匹配4 增广路径5 代码实现6 匈牙利算法总结6 1 深度优先6 2 广度优先二 KM算法思想及局限性代码示例1 定义KM方法类2 定义权重数值 xff0c 执行主函数
linux/mm/memory.c/int share_page(unsigned long address)

share page tries to find a process that could share a page with the current one Address is the address of the wanted pag
sumo教程 Hello World

sumo教程 Hello World 注意事项确保安装的sumo版本至少为1 4 0 以便能够使用本教程中显示的所有功能要求 sumo gui和netedit的版本大于等于1 4 0 介绍这个教程服务于第一次使用sumo的人员我们准
教程——OSMWebWizard

教程 OSMWebWizard 有关事宜 osm web wizard提供一种最简单的方式开始sumo 基于一种openstreetmap的摘抄你可以配置随机流量需求和可视化一种场景在sumo gui 这个教程可以指导你一步步从选择地图类
sumo-绕圈行驶

绕圈行驶在本教程中 xff0c 我们将使用 netedit 构建一个简单的圆形网络 xff0c 并使用重路由器使车辆绕圈行驶所有定义文件都可以在 lt SUMO HOME gt docs tutorial circles 目录中找到本
教程——sumolympics

SUMOlympics 本教程针对不同的交通模式设置了比赛 xff08 集体 100 米冲刺 xff09 您将学习如何在 netedit 中创建特殊车道和 xff08 非常简单的 xff09 红绿灯 xff0c 使用不同的车辆类别来定义车辆
sumo 教程——高速公路

本教程涵盖了在多车道高速公路上创建异构流以及修改和保存视图设置的非常基本的元素修建高速公路编辑几何点打开 netedit 创建一个虚构的高速公路我们一开始就保持这个非常简单 xff0c 并考虑一个没有入口或出口的路段按e进入边创建

随机推荐

sumo教程——Manhattan

介绍本教程介绍了如何在 SUMO 中构建曼哈顿移动模型在这个模型中 xff0c 固定数量的车辆在曼哈顿电网网络上随机行驶所有文件也可以在 lt SUMO HOME gt docs tutorial manhattan 目录中找到创建
基于51单片机的双通道DHT11温湿度显示器（LCD1602）

基于STC89C51单片机的双通道DHT11实时温湿度显示系统 xff08 LCD1602 xff09 前言题目要求实现的功能思路介绍代码部分注意事项驱动部分LCD1602驱动按键驱动主要模块初始化DHT11驱动中断服务程序显示函数主函
【21-7-25笔记】SR(Segment Routing)详解

第一卷第一章简介 1 11 SRv6 SRv6 将SR框架应用到IPv6数据平面 SRv6对IPv6的价值至关重要 xff0c 将极大地影响未来的IP基础设施部署 xff0c 无论是在数据中心 xff0c 大规模汇聚网络 xff0c 还
javascript编写学生，查询学校学生

lt DOCTYPE html gt lt head gt lt head gt lt style gt table width 400px height 400px border 1px solid red div float left
A-Frame基础用法

简介 x1f170 Frame 是一个用来构建虚拟现实 xff08 VR xff09 应用的网页开发框架由WebVR的发起人Mozilla VR 团队所开发 xff0c 是当下用来开发WebVR内容主流技术方案 WebVR是一个完全开源的
双色球小程序(关于对数组的使用)

span class token keyword package span 双色球 span class token punctuation span span class token keyword import span java sp
IDEA: 遇到问题Error during artifact deployment. See server log for details，解决

目录一 jar 包有有些没能识别 xff0c tomcat没有配置好 xff01 二这个一般代码错了 xff1a 三使用更低一点版本的Tomcat 在学习JavaWeb的时候 xff0c 遇到一个著名的报错 xff1a Error d
VNC死机的处理方法

目录 1 打开MobaXterm并登录 2 连续输入以下命令 xff1a 1 打开MobaXterm并登录 2 连续输入以下命令 xff1a conda deactivate 回车 vncserver kill 3 回车 vncserver
js异步操作

一异步操作概述单线程模型单线程模型指的是 xff0c JavaScript 只在一个线程上运行也就是说 xff0c JavaScript 同时只能执行一个任务 xff0c 其他任务都必须在后面排队等待程序里面所有的任务 xff0c
【写sql时遇到的bug：org.xml.sax.SAXParseException； lineNumber: 1； columnNumber】

报错 xff1a org xml sax SAXParseException lineNumber 1 columnNumbe 修改后的代码片段在使用 64 Select 注解编写sql的时候 xff0c 原先写的 gt 61 和 lt
@Scheduled 定时任务不执行

一排查代码中添加的定时任务步骤是否正确启动类上加 64 EnableScheduling 注解定时任务类上加 64 Component定时方法上加 64 Scheduled span class token annotation pun
（09）Linux命令【mkdir命令】

09 Linux命令 mkdir命令 1 1 目录 1 目录 2 Linux系统介绍 3 Linux 应用领域 4 Linux命令 mkdir命令 5 结语 1 2 Linux系统介绍 Linux 全称GNU Linux 是一种免费使用和自
银河麒麟高级服务器操作系统V10上基于Docker、x11vnc-desktop打造基于容器的在线IDEA arm64开发环境方案

前言在线IDE目前表现比较好的有云效 xff0c 其功能主要还是以Web方式提供在线vscode集成开发环境 xff0c 启动编辑环境初步推断为内部启动一个专用语言的虚拟机或者容器 xff0c clone源码优点是客户端只需要一个浏览器
FreeRTOS--中断管理

异常是指任何打断处理器正常执行 xff0c 并且迫使处理器进入一个由有特权的特殊指令执行的事件内部事件 xff08 像处理器指令运行产生的事件 xff09 引起的异常称为同步异常异步异常主要是指由于外部异常源产生的异常 xff0c 是
Centos8无法联网问题解决！

大家好我是菜鸟阿贵 xff0c 今天装了一个centos8发现不能联网 xff0c 甚至在终端都不能ping通 xff0c 在网上找了半天 xff0c 好多博主都是无脑复制别人的 xff0c 自己估计都没有研究过 xff0c 什么修改配置啊
linux/fs/namei.c/permission()

permission is used to check for read write execute permissions on a file I don 39 t know if we should look at just the e
三相无刷直流电机的控制设计（一）基本硬件电路设计

文章目录前言一三相无刷电机简要介绍 1 1电机原理 2 2使用电机二硬件设计 1 驱动芯片选择 2 电路设计 2 1电机桥电路 2 2光耦隔离电路 2 2霍尔采集电路总结前言三相无刷直流电机的控制从零开始本系列文章抓药基
numpy.maximum()函数和numpy.minimum()函数的使用

参考链接 numpy maximum 参考链接 numpy minimum 这两个函数的功能大体分别是在两个多维数组中逐元素求最大值和最小值实验1 numpy maximum 函数 Python span class token numb
ImageDraw.rectangle(xy, fill=None, outline=None, width=1)使用举例

参考链接 ImageDraw rectangle xy fill 61 None outline 61 None width 61 1 ImageDraw rectangle 函数使用说明在指定的图片上绘制矩形通过xy可以指定矩形的位置
爬取IP（快代理）

python 爬IP 分析网页获取IP储存IP全部代码分析网页这次分析的是快代理 xff0c 就是这个想要获取这上面的IP需要分析网页结构打开开发者工具进行分析发现所有IP组数据在tr节点中 xff0c 每个具体数据在td节点中