爬取IP(快代理)

2023-05-16

python - 爬IP

  • 分析网页
  • 获取IP
  • 储存IP
  • 全部代码

分析网页

这次分析的是快代理,就是这个
在这里插入图片描述
想要获取这上面的IP需要分析网页结构
打开开发者工具进行分析
在这里插入图片描述
发现所有IP组数据在tr节点中,每个具体数据在td节点中
代码实现时,从这个节点中获取信息,有很多方法

如果需要多页爬取,需要分析网址规律
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
从以上图片可得知,每页 网址前部分相同,都是这个https://www.kuaidaili.com/free/inha/
后面是页数

获取IP

所以可以这样进行获取

import requests
from bs4 import BeautifulSoup
# 目标网址
url = 'https://www.kuaidaili.com/free/inha/' + '1'
# 伪造头信息
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
# 发送请求
r = requests.get(url,headers=header)
# 创建BeautifulSoup对象
soup = BeautifulSoup(r.text,'lxml')
# 使用find_all方法进行获取
ip = soup.find_all('td',{'data-title':'IP'}) # 获取IP的节点数据
port = soup.find_all('td',{'data-title':'PORT'}) # 获取端口的节点数据

用到了BeautifulSoup这个库文件,使用到了find_all方法

储存IP

接下来储存抓取的IP

# 建一个列表 用来装IP和端口
proxies = []
for ip,port in zip(ip,port):
    ip = ip.get_text() # 获取IP文本
    port = port.get_text() # 获取端口文本
    proxy = ip + ':' + port # IP和端口拼接
    proxies.append(proxy)  # 将拼接后的IP加端口添加到列表中

# 打开文件,文件结束后,自动关闭文件
with open('data.txt', 'w+') as f:
    for i in proxies:
    	proxy = {
        'http':i,
        'https':i
    	}
    	print(proxy)
        f.write(i + '\n') # 写入文件

在这里我用的是txt格式存储,还可以用其他方式存储,比如json,数据库,等等


全部代码

import requests
from bs4 import BeautifulSoup

url = 'https://www.kuaidaili.com/free/inha/' + '1'
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
r = requests.get(url,headers=header)
soup = BeautifulSoup(r.text,'lxml')
ip = soup.find_all('td',{'data-title':'IP'})
port = soup.find_all('td',{'data-title':'PORT'})
proxies = []
for ip,port in zip(ip,port):
    ip = ip.get_text()
    port = port.get_text()
    proxy = ip + ':' + port
    proxies.append(proxy)

for i in proxies:
    proxy = {
        'http':i,
        'https':i
    }
    print(proxy)

with open('data.txt', 'w+') as f:
    for i in proxies:
        f.write(i + '\n')
print(proxies)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬取IP(快代理) 的相关文章

  • win10时间同步一直失败的解决办法

    安装了win10和Linux双系统后 xff0c 有时切换回win10系统会出现时间错乱的情况 右键右下角的时间打开调整日期 时间后 xff0c 点击立即同步 xff0c 可能会显示时间同步失败 这是因为默认的同步时间服务器连接不上 xff
  • win10更新后任务栏卡死 的原因和解决办法

    文章目录 现象 xff1a 原因 xff1a 第一步 xff1a 断网并关闭资讯和兴趣第二步 xff1a 卸载更新第三步 xff1a 关闭win10自动更新第四步 xff1a 永久关闭资讯和兴趣 现象 xff1a win10 更新后 xff
  • 30 秒速成好莱坞黑客 -- 在 Linux 终端中伪造好莱坞黑客屏幕

    这是一个假好莱坞黑客的视频 xff1a 视频效果 xff1a https www douyin com video 7053016921830116623 简介 xff1a 这个小工具将 Linux 终端变成好莱坞风格的实时黑客场景 该工具
  • linux/mm/memory.c/try_to_share()

    try to share checks the page at address 34 address 34 in the task 34 p 34 to see if it exists and if it is clean If so s
  • 通过 Telnet 在 Linux 终端中观看ASCII 星球大战

    打开终端并使用以下命令安装 telnet xff1a span class token function sudo span span class token function apt span span class token funct
  • 追逐鼠标光标的好奇小猫咪

    Oneko 是一个有趣的命令 xff0c 它将常规光标变成鼠标 xff0c 并创建一只好奇的小猫 xff0c 一旦移动光标 xff0c 小猫就会追逐它 它不仅限于终端 当猫追逐光标时 xff0c 还可以继续工作 使用以下命令安装 Oneko
  • Linux 中的旧扣簧键盘(Bucklespring 键盘)声音

    Ubuntu 可以使用 Snap 轻松安装它 运行以下命令 xff1a span class token function sudo span snap span class token function install span buck
  • PDF已加密,可以打开但是不能编辑不允许打印的解决办法

    文章目录 文档打开口令和许可口令解除加密方法一 FreeMyPdf xff1a http freemypdf com http freemypdf com 方法二 绿色小软件 xff1a PDF Password Remover 文档打开口
  • 如何在 Ubuntu 和其他 Linux 发行版中查看 MAC 地址

    文章目录 使用命令行查找MAC地址获取蓝牙的MAC地址 使用 GUI 获取 MAC 地址 在学习网络或对其进行故障排除时 xff0c 需要知道 MAC 地址 一台计算机可以有多个 MAC 地址 因为MAC地址是联网的核心部分 xff0c 每
  • 卸载流氓透明APP,帮老人清理手机弹窗广告

    症状 xff1a 只要解锁手机 xff0c 就时不时弹出广告视频 xff0c 声音还开到最大 xff0c 无法关闭 尤其是 xff0c 每点开一个app xff0c 都会弹出广告视频 xff0c 接打电话也不例外 xff0c 导致无法正常通
  • 无法翻译此网页的解决办法 - GoogleTranslateIpCheck

    2022年9月末 xff0c 网页翻译工具谷歌翻译停止了中国区服务 GitHub 地址 xff1a https github com Ponderfly GoogleTranslateIpCheck 我用的是win10系统 xff0c 所以
  • 树莓派4B(aarch64,arm64)bullseye安装Qt5、GStreamer

    简介 本文描述树莓派 4B Raspberry Pi OS xff08 64位 xff09 完成启动后 xff0c 进行的第一个编译安装任务 xff1a Qt5 43 GStreamer xff0c 同时也是OpenCV编译安装前的准备工作
  • 51单片机:蜂鸣器

    小白向单片机笔记二 xff1a 蜂鸣器 前言一 蜂鸣器原理二 蜂鸣器原理图1 蜂鸣器代码2 代码解释1 为什么蜂鸣器响 xff0c 和LED6闪烁中有两个delay 函数 xff1f 2 为什么BEEP 61 1是关闭LED6 而i 61
  • 多目标跟踪算法中之图匹配——匈牙利算法和KM算法详解

    目录 一 匈牙利算法1 算法背景及思想2 最大匹配3 最优匹配 完美匹配4 增广路径5 代码实现6 匈牙利算法总结6 1 深度优先6 2 广度优先 二 KM算法思想及局限性代码示例1 定义KM方法类2 定义权重数值 xff0c 执行主函数
  • linux/mm/memory.c/int share_page(unsigned long address)

    share page tries to find a process that could share a page with the current one Address is the address of the wanted pag
  • sumo教程 Hello World

    sumo教程 Hello World 注意事项 确保安装的sumo版本至少为1 4 0 以便能够使用本教程中显示的所有功能 要求 sumo gui和netedit的版本大于等于1 4 0 介绍 这个教程服务于第一次使用sumo的人员 我们准
  • 教程——OSMWebWizard

    教程 OSMWebWizard 有关事宜 osm web wizard提供一种最简单的方式开始sumo 基于一种openstreetmap的摘抄 你可以配置随机流量需求和可视化一种场景在sumo gui 这个教程可以指导你一步步从选择地图类
  • sumo-绕圈行驶

    绕圈行驶 在本教程中 xff0c 我们将使用 netedit 构建一个简单的圆形网络 xff0c 并使用重路由器使车辆绕圈行驶 所有定义文件都可以在 lt SUMO HOME gt docs tutorial circles 目录中找到 本
  • 教程——sumolympics

    SUMOlympics 本教程针对不同的交通模式设置了比赛 xff08 集体 100 米冲刺 xff09 您将学习如何在 netedit 中创建特殊车道和 xff08 非常简单的 xff09 红绿灯 xff0c 使用不同的车辆类别来定义车辆
  • sumo 教程——高速公路

    本教程涵盖了在多车道高速公路上创建异构流以及修改和保存视图设置的非常基本的元素 修建高速公路 编辑几何点 打开 netedit 创建一个虚构的高速公路 我们一开始就保持这个非常简单 xff0c 并考虑一个没有入口或出口的路段 按e进入边创建

随机推荐

  • sumo教程——Manhattan

    介绍 本教程介绍了如何在 SUMO 中构建曼哈顿移动模型 在这个模型中 xff0c 固定数量的车辆在曼哈顿电网网络上随机行驶 所有文件也可以在 lt SUMO HOME gt docs tutorial manhattan 目录中找到 创建
  • 基于51单片机的双通道DHT11温湿度显示器(LCD1602)

    基于STC89C51单片机的双通道DHT11实时温湿度显示系统 xff08 LCD1602 xff09 前言题目要求实现的功能思路介绍 代码部分注意事项驱动部分LCD1602驱动按键驱动 主要模块初始化DHT11驱动中断服务程序显示函数主函
  • 【21-7-25笔记】SR(Segment Routing)详解

    第一卷 第一章 简介 1 11 SRv6 SRv6 将SR框架应用到IPv6数据平面 SRv6对IPv6的价值至关重要 xff0c 将极大地影响未来的IP基础设施部署 xff0c 无论是在数据中心 xff0c 大规模汇聚网络 xff0c 还
  • javascript编写学生,查询学校学生

    lt DOCTYPE html gt lt head gt lt head gt lt style gt table width 400px height 400px border 1px solid red div float left
  • A-Frame基础用法

    简介 x1f170 Frame 是一个用来构建虚拟现实 xff08 VR xff09 应用的网页开发框架 由WebVR的发起人Mozilla VR 团队所开发 xff0c 是当下用来开发WebVR内容主流技术方案 WebVR是一个完全开源的
  • 双色球小程序(关于对数组的使用)

    span class token keyword package span 双色球 span class token punctuation span span class token keyword import span java sp
  • IDEA: 遇到问题Error during artifact deployment. See server log for details,解决

    目录 一 jar 包有有些没能识别 xff0c tomcat没有配置好 xff01 二 这个一般代码错了 xff1a 三 使用更低一点版本的Tomcat 在学习JavaWeb的时候 xff0c 遇到一个著名的报错 xff1a Error d
  • VNC死机的处理方法

    目录 1 打开MobaXterm并登录 2 连续输入以下命令 xff1a 1 打开MobaXterm并登录 2 连续输入以下命令 xff1a conda deactivate 回车 vncserver kill 3 回车 vncserver
  • js异步操作

    一 异步操作概述 单线程模型 单线程模型指的是 xff0c JavaScript 只在一个线程上运行 也就是说 xff0c JavaScript 同时只能执行一个任务 xff0c 其他任务都必须在后面排队等待 程序里面所有的任务 xff0c
  • 【写sql时遇到的bug:org.xml.sax.SAXParseException; lineNumber: 1; columnNumber】

    报错 xff1a org xml sax SAXParseException lineNumber 1 columnNumbe 修改后的代码片段 在使用 64 Select 注解编写sql的时候 xff0c 原先写的 gt 61 和 lt
  • @Scheduled 定时任务不执行

    一 排查代码中添加的定时任务步骤是否正确 启动类上加 64 EnableScheduling 注解定时任务类上加 64 Component定时方法上加 64 Scheduled span class token annotation pun
  • (09)Linux命令【mkdir命令】

    09 Linux命令 mkdir命令 1 1 目录 1 目录 2 Linux系统介绍 3 Linux 应用领域 4 Linux命令 mkdir命令 5 结语 1 2 Linux系统介绍 Linux 全称GNU Linux 是一种免费使用和自
  • 银河麒麟高级服务器操作系统V10上基于Docker、x11vnc-desktop打造基于容器的在线IDEA arm64开发环境方案

    前言 在线IDE目前表现比较好的有云效 xff0c 其功能主要还是以Web方式提供在线vscode集成开发环境 xff0c 启动编辑环境初步推断为内部启动一个专用语言的虚拟机或者容器 xff0c clone源码 优点是客户端只需要一个浏览器
  • FreeRTOS--中断管理

    异常是指任何打断处理器正常执行 xff0c 并且迫使处理器进入一个由有特权的特殊指令执 行的事件 内部事件 xff08 像处理器指令运行产生的事件 xff09 引起的异常称为同步异常 异步异常主要是指由于外部异常源产生的异常 xff0c 是
  • Centos8无法联网问题解决!

    大家好我是菜鸟阿贵 xff0c 今天装了一个centos8发现不能联网 xff0c 甚至在终端都不能ping通 xff0c 在网上找了半天 xff0c 好多博主都是无脑复制别人的 xff0c 自己估计都没有研究过 xff0c 什么修改配置啊
  • linux/fs/namei.c/permission()

    permission is used to check for read write execute permissions on a file I don 39 t know if we should look at just the e
  • 三相无刷直流电机的控制设计(一)基本硬件电路设计

    文章目录 前言 一 三相无刷电机简要介绍 1 1电机原理 2 2使用电机 二 硬件设计 1 驱动芯片选择 2 电路设计 2 1电机桥电路 2 2光耦隔离电路 2 2霍尔采集电路 总结 前言 三相无刷直流电机的控制 从零开始 本系列文章抓药基
  • numpy.maximum()函数和numpy.minimum()函数的使用

    参考链接 numpy maximum 参考链接 numpy minimum 这两个函数的功能大体分别是在两个多维数组中逐元素求最大值和最小值 实验1 numpy maximum 函数 Python span class token numb
  • ImageDraw.rectangle(xy, fill=None, outline=None, width=1)使用举例

    参考链接 ImageDraw rectangle xy fill 61 None outline 61 None width 61 1 ImageDraw rectangle 函数使用说明 在指定的图片上绘制矩形 通过xy可以指定矩形的位置
  • 爬取IP(快代理)

    python 爬IP 分析网页获取IP储存IP全部代码 分析网页 这次分析的是快代理 xff0c 就是这个 想要获取这上面的IP需要分析网页结构 打开开发者工具进行分析 发现所有IP组数据在tr节点中 xff0c 每个具体数据在td节点中