安全测试工具，自动发现网站所有URL！

2023-12-05

作为一个安全测试人员来说，首先要拿到网站所有url，然后根据拿到的url进行渗透测试进行漏洞挖掘。本文给大家介绍的是如何拿到一个网站所有的url。

深度爬取层级控制

现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。
如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受
可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛
分享他们的经验，还会分享很多直播讲座和技术沙龙
可以免费学习！划重点！开源的！！！
qq群号：110685036【暗号：csdn999】

整体架构图

相信大家对深度控制和架构已经有基本了解，剩下的代码大家直接来看。非常易懂，不妨来试试。（下一次来给大家说一下代理池的创建，让你的Spider不被封）、

from lxml import html
import requests
import re
import pymysql

from search_ip import search_ip
###############代理###########

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").content

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

def html_prase(url):
    r = requests.get(url).content
    return html.fromstring(r)



def url_is_correct():
    '''
    使用requests.get方法判断url是否正确,并返回url
    :return:
    '''
    url = "https://www.wuage.com" #网站入口
    requests.get(url)
    return url

url = url_is_correct()   #将验证为正确的url地址赋值给url

def url_protocol(url):
    '''
    获取输入的url地址的协议，是http、https等
    '''
    print('该站使用的协议是：' + re.findall(r'.*(?=://)',url)[0])
    return re.findall(r'.*(?=://)',url)[0]

urlprotocol = url_protocol(url)

def same_url(url):
    '''
    处理输入的url，判断是否为同一站点做准备，爬取的时候不能爬到其它站
    '''
    #将完整的url中的http://删除
    url = url.replace(urlprotocol + '://','')

    if re.findall(r'^www',url) == []:
        sameurl = 'www.' + url
        if sameurl.find('/') != -1:
            sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
        else:
            sameurl = sameurl + '/'
            sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
    else:
        if url.find('/') != -1:
            sameurl = re.findall(r'(?<=www.).*?(?=/)', url)[0]
        else:
            sameurl = url + '/'
            sameurl = re.findall(r'(?<=www.).*?(?=/)', sameurl)[0]
    #print('同站域名地址：' + sameurl)
    return sameurl

domain_url = url



'''
处理url的类，对已访问过的和未访问过的进行记录，待后续使用
'''
class linkQuence:
    def __init__(self):
        self.visited = []    #已访问过的url初始化列表
        self.unvisited = []  #未访问过的url初始化列表

    def getVisitedUrl(self):  #获取已访问过的url
        return self.visited
    def getUnvisitedUrl(self):  #获取未访问过的url
        return self.unvisited
    def addVisitedUrl(self,url):  #添加已访问过的url
        return self.visited.append(url)
    def addUnvisitedUrl(self,url):   #添加未访问过的url
        if url != '' and url not in self.visited and url not in self.unvisited:
            return self.unvisited.insert(0,url)

    def removeVisited(self,url):
        return self.visited.remove(url)
    def popUnvisitedUrl(self):    #从未访问过的url中取出一个url
        try:                      #pop动作会报错终止操作，所以需要使用try进行异常处理
            return self.unvisited.pop()
        except:
            return None
    def unvisitedUrlEmpty(self):   #判断未访问过列表是不是为空
        return len(self.unvisited)


class Spider():
    '''
    爬取程序
    '''
    def __init__(self,url):
        self.linkQuence = linkQuence()   #引入linkQuence类
        self.linkQuence.addUnvisitedUrl(url)   #并将需要爬取的url添加进linkQuence对列中
        self.current_deepth = 1    #设置爬取的深度

    def getPageLinks(self,url):
        '''
        获取页面中的所有链接
        '''
        sel = html_prase(url)
        pageLinks = sel.xpath('//a/@href')
        return pageLinks
    def processUrl(self,url):
        '''
        处理相对路径为正确的完整url
        '''
        true_url = []
        for l in self.getPageLinks(url):
            if re.findall(r'//',l):
                if re.findall('https://',l) or re.findall('http://',l):
                    true_url.append(l)
                elif not re.findall('@',l):
                    #true_url.append(urlprotocol + '://' + domain_url + l)
                    true_url.append(urlprotocol+':' + l)
        # for l in true_url:
        #     print(l)
        return true_url

    def sameTargetUrl(self,url):
        '''
        判断是否为同一站点链接，防止爬出站外。
        '''
        same_target_url = []
        for l in self.processUrl(url):
            if re.findall(domain_url,l):
                same_target_url.append(l)
        #print(self.same_target_url)
        return same_target_url

    def unrepectUrl(self,url):
        '''
        删除重复url，排除指定域名
        '''
        unrepect_url = []
        expect_domain = ['s.wuage.com','static.wuage.com',
                         'shop.wuage.com','img.wuage.com','medici.wuage.com',
                         'buyer.wuage.com','item.wuage.com']
        for l in self.sameTargetUrl(url):
            if l not in unrepect_url and l.split('//')[1].split('/')[0] not in expect_domain:
                unrepect_url.append(l)

        return unrepect_url

    def crawler(self,crawl_deepth=1):
        '''
        依据深度进行爬取层级控制
        '''
        #while self.current_deepth <= crawl_deepth:
        while self.current_deepth <= crawl_deepth:
            visitedUrl = self.linkQuence.popUnvisitedUrl()
            if visitedUrl is None or visitedUrl == '':
                continue
            self.getPageLinks(visitedUrl)
            links = self.unrepectUrl(visitedUrl)
            self.linkQuence.addVisitedUrl(visitedUrl)
            for link in links:
                sel_link = html_prase(link)
                print(link)
                self.linkQuence.addUnvisitedUrl(link)
            self.current_deepth += 1

        return self.linkQuence.visited


if __name__ == '__main__':
    spider = Spider(url)
    spider.crawler(3)

作者：彭于晏，互联网公司运维技术负责人，拥有10年的互联网开发和运维经验。一直致力于运维工具的开发和运维专家服务的推进，赋能开发，提高效能。

最后感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的，虽然不是什么很值钱的东西，如果你用得到的话可以直接拿走！

软件测试面试文档

我们学习必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有字节大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自动化测试

技术分享

软件测试

职场和发展

压力测试

安全测试工具，自动发现网站所有URL！的相关文章

软件测试|Python数据可视化神器——pyecharts教程（九）

使用pyecharts绘制K线图进阶版简介 K线图 Kandlestick Chart 又称蜡烛图是一种用于可视化金融市场价格走势和交易数据的图表类型它是股票外汇期货等金融市场中最常用的技术分析工具之一可以提供关于价格变动趋势
软件测试|如何使用selenium处理iframe富文本输入框

简介在网页开发中富文本框是常见的元素用于输入富文本内容如富文本编辑器或邮件编辑器如果我们要使用Python和Selenium进行自动化测试或操作这种富文本框可能会遇到一些挑战本文将详细介绍如何使用Python和Selenium
盲猜你不懂H5架构和原生架构的区别

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
跨平台UI自动化框架：Airtest，游戏开发和应用测试的利器

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
测开和测试平台是否有存在的必要？

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
Jmeter 性能-阶梯负载最终请求数

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
摸爬滚打多年的打工人，总结了三条职场真理，绝不假大空！

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
开眼了，自动化测试还能这样用？

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自
新手也能看懂的【前端自动化测试入门】！

前言最近在网上搜索前端自动化测试相关的文档但是发现网上的文章都是偏使用没有把一些基础概念说清楚导致后续一口气遇到一些 karma Jasmine jest Mocha Chai BDD 等词汇的时候很容易一头雾水这次一方面整理一下
HarmonyOS 基于eTS高效开发HarmonyOS课程类应用

随着HarmonyOS 3 0 Beta版的发布 API Version 8新增了大批JS eTS API接口相信很多开发者已经迫不及待想体验基于eTS的HamronyOS应用开发本期Codelab 我们将基于API Version 8
月薪2W的软件测试工程师，到底是做什么的？

在生活中我们常常会遇到以下几种窘迫时刻准备骑共享单车出行却发现扫码开锁半天车子都没有反应手机导航打车却发现地图定位偏差很大司机总是跑错地方买个水却遭遇自动售货机吐币或者不找零钱好不容易休息打个游戏却一直出现卡顿闪退
Python常用的自动化小脚本！

一 list转json string转json 可以使用Python内置的 json 模块将列表 List 和字符串 String 转换成JSON格式 List转JSON假设我们有一个列表 List my list apple banana
做好这几件事，30岁的你也能转行鸿蒙（HarmonyOS）？

当你年过30 不管你愿不愿意承认你的精力都在走下坡路 25岁熬一个通宵能写出来的代码 30岁有可能需要一整天当然你也可以选择不拼精力和体力当自身的一线经验积累到一定程度后就会选择慢慢过渡到管理者的角色通过经验分享及任务分配来参与项
Android Navigation的四大要点你都知道吗？

在JetPack中有一个组件是Navigation 顾名思义它是一个页面导航组件相对于其他的第三方导航不同的是它是专门为Fragment的页面管理所设计的它对于单个Activity的App来说非常有用因为以一个Activity为架构
最新整理Java面试八股文，大厂必备神器

在此我采访了数十名大厂的面试官和上百的的面试者总结出了这一套Java面试八股文这套八股文已经帮助了上百人拿到自己心仪的offer 我们先来看看这套八股文 Java基础面试八股文操作系统中 heap 和 stack 的区别什么是基于
软件测试/测试开发/全日制/测试管理丨Android WebView 技术原理

Android WebView是一个内置的组件允许在Android应用中嵌套显示Web内容 Android WebView的技术原理涉及到使用WebKit引擎来渲染Web内容并提供一系列API和回调函数使得开发人员可以控制和定制Web
15：00面试，15：06就出来了，问的问题有点变态。。。

从小厂出来没想到在另一家公司又寄了到这家公司开始上班加班是每天必不可少的看在钱给的比较多的份上就不太计较了没想到9月一纸通知所有人不准加班加班费不仅没有了薪资还要降40 这下搞的饭都吃不起了还在有个朋友内推我去了一家互联
一文让你快速写出高效的软件测试用例

前言编写测试用例的目的就是确保测试过程全面高效有据可查但要编写出高效的测试用例需要搞清楚什么是测试用例以及如何编写出高效的测试用例接下来将从以下几个部分来进行展开 1 什么是测试用例 2 如何编写测试用例 3 软件测试学习资源分
Airtest自动化测试工具

一开始知道Airtest大概是在年初的时候当时看了一下官方的文档大概是类似Sikuli的一个工具主要用来做游戏自动化的通过截图的方式用来解决游戏自动化测试的难题最近移动端测试的同事尝试用它的poco库来做自动化看样子还不错
如何应对Android面试官-＞玩转 ViewPager 懒加载

前言 ViewPager 缓存页面与预加载机制通常我们 ViewPager 在使用的是一般都是结合 Fragment 一起使用我们先来搭一个简单的使用界面最终搭建出来的效果如下简单的 ViewPager Fragment 的实现比

随机推荐

风光储并网协同运行模型研究（Simulink仿真实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Simulink仿真实现
微软 Power Platform 零基础 Power Pages 网页搭建实际案例实践（三）

微软 Power Platform 零基础 Power Pages 网页搭建教程之案例实践学习三结合Power Apps和Power Automate Power Pages 实际案例学习微软 Power Platform 零基础 P
来自GitHub的系列渗透测试工具

来自GitHub的系列渗透测试工具渗透测试 Kali GNU Linux发行版专为数字取证和渗透测试而设计 https www kali org ArchStrike 为安全专业人士和爱好者提供Arch GNU Linux存储库 htt
【四旋翼飞行器】【模拟悬链机器人的动态】设计和控制由两个四旋翼飞行器推动的缆绳研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
二叉树的根到叶子几点之和

输入 root 1 2 3 输出 25 解释从根到叶子节点路径 1 gt 2 代表数字 12 从根到叶子节点路径 1 gt 3 代表数字 13 因此数字总和 12 13 25 输入 root 1 0 1 0 1 0 1 输出 22 解释
React 笔记 jsx

严格约定 React 组件必须以大写字母开头而 HTML 标签则必须是小写字母 React JSX JSX 是由 React 推广的 JavaScript 语法扩展用于表达组件的特殊语法的 js 函数要求标签必须闭合返回的组件必
判断是否是已知的CMS或者框架

判断是否是已知的CMS或者框架搜索通用漏洞打开kali进行搜索有没有通用的漏洞搜索disscuz漏洞 searchsploit diss 收集更多信息 Google baidu已知的漏洞验证查找常用的POC 判断是否为已知的CMS收
马斯克没继续的工作，我帮他继续下去

还记得当初自己为什么选择计算机埃隆马斯克的第一份工作是在加拿大开始的 17岁时他来到加拿大但他的寻亲不遇为了生存他不得不打各种零工包括在农场中种蔬菜和打扫粮仓以及在木材厂锅炉房烧锅炉后来他在加拿大读大学时开始在彼得银行
【Shell部署脚本】更换源

bin bash 异常捕捉 set e 判断权限 id u gt 0 echo Error 无法操作权限不够 exit 1 备份文件 cp etc apt sources list etc apt sources list bak 阿里源
保护你的数据：深入了解安全测试！

安全测试是一种非功能性测试与功能测试不同功能测试关注的是软件的功能是否正常工作软件做什么非功能测试关注的是应用程序是否被正确设计和配置安全测试的主要目标识别资产需要保护的东西如软件应用程序和计算基础设施识别威胁和漏洞可能
Unity万向节死锁解决方案(2023/12/4)

1 万向节死锁无法解决这是因为它的特性就是如此就像玻璃杯就是玻璃这不可否认别钻牛角尖昂 2 大多数情况下欧拉角足够用例如 CF 摄像机不可能绕z轴旋转 x轴旋转也不会超过九十度因为那样人物的腰子会被扭断塔防游戏保卫萝卜吃鸡
编译报错问题汇总

1 error undefined reference to dlsym solution target link libraries target lpthread ldl https www cnblogs com midnightca
termius 好用吗？

termius 好用吗我现在接触过的 1 xshell 第一次接触shell 需要付费 2 mobaxterm 感觉还行需要付费 3 termius 没用过需要付费 4 MobaXterm 支持SSH跳板 Termius是一款跨平台的
unity3d 自定义的图片无法放入source image中

须将图片的texture type改为 sprite
Google Guava 数学工具使用详解

文章目录数学数值运算取整范围值比较其他数学在 Guava 中数学 Math 模块提供了一些常用的数学运算功能包括数值运算取整范围值比较等下面详细介绍一些 Guava 数学运算的使用方法和示例数值运算 In
【传输线开路和短路故障】带有集总元件的非对称传输线扩频时域反射测量（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章讲解
【单载波调制方案】正交时序多路复用调制：分析和低复杂度接收机设计（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文献下载
网络安全工程师必用的6个渗透工具，专业工具渗透工作更好做

网络安全工程师必用的6个渗透工具专业工具渗透工作更好做渗透测试是通过模拟恶意黑客的攻击方法来评估计算机网络系统安全的一种评估方法同时网络所有者根据渗透人员提供的渗透测试报告可以清晰知晓系统中存在的安全隐患和问题在这些过程中除了
【用于OCT体积的散斑噪声降低】光学相干层析成像自适应复合散斑降噪滤波器研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章
安全测试工具，自动发现网站所有URL！

作为一个安全测试人员来说首先要拿到网站所有url 然后根据拿到的url进行渗透测试进行漏洞挖掘本文给大家介绍的是如何拿到一个网站所有的url 深度爬取层级控制现在我也找了很多测试的朋友做了一个分享技术的交流群共享了很多我们收集的技

安全测试工具，自动发现网站所有URL！

软件测试面试文档

安全测试工具，自动发现网站所有URL！ 的相关文章

随机推荐

热门标签

安全测试工具，自动发现网站所有URL！的相关文章