爬虫逆向——某建筑市场监管平台的滑块验证码分析

2023-11-13

目录

网址链接:

正文:

一、思路分析

二、图片处理

三、完整代码


网址链接:

aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw=

(bs64解密可见)

正文:

注:分步的代码为示例代码,文章最后会给出图像处理部分的完整代码

一、思路分析

1、首先看验证码样式,可以看到是个滑块验证,包含一张带缺口的背景大图和一张用于拖动的小图,这类图片处理起来就比较简单。

2、再看图形验证码接口,请求没什么特别需要注意的参数

重点看一下响应预览,返回数据是一个列表,观察可知0、1元素分别是小图和大图的bs64编码,2、3元素用处下面会用到

 3、画错一次验证码看看请求结果

 4、在请求载荷中有moveX,verifyid。verifyid结合第二步,可知是请求图形验证码接口返回参数中的元素2;moveX应该就是拖动小图进行平移的距离。其他参数除了翻页pageIndex和列表大小pageSize外固定不变。

 5、看图片可知,正确的的moveX应该是背景大图缺口的左侧边缘背景大图左侧边缘的距离,只需要计算出这个长度即可

二、图片处理

大致分为4步:

原图:

 

1、二值化处理:缺口处填充空白,其他部分填充黑色。其中先对图片进行高斯模糊处理,然后做了灰度处理,最后进行二值化处理。高斯模糊等图像处理相关的看这里:python-opencv 图像处理(滤波,噪点,模糊)

以下是相关示例代码:

# 读取图片
image = cv2.imread(img1)

# 高斯模糊
GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
GAUSSIAN_BLUR_SIGMA_X = 0
image = cv2.GaussianBlur(image, GAUSSIAN_BLUR_KERNEL_SIZE, GAUSSIAN_BLUR_SIGMA_X)

# 二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像,必须先将图像转为灰度图
ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)

# 另存为
cv2.imwrite(img2, binary)

下面是处理后的图片:

2、边缘检测: 

名词解释为图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的那些像素集合。
        图像中两个灰度不同的相邻区域的交界处,必然存在灰度的快速过渡或称为跳变,它们与图像中各区域边缘的位置相对应,边缘蕴含了丰富的内在信息,如方向、阶跃性质、形状等,沿边缘走向的像素变化平缓,而垂直于边缘方向的像素变化剧烈。

绘制上图空白处的边缘后结果如下:

3、 绘制外接矩形:

为方便计算距离,这里需要绘制出上图的最小外接矩形,结果如下:

4、 计算外接矩形到图像左侧的距离:

实际上在绘制外接矩形时会得到矩形的边界坐标,其中最小的(x,y)为矩形的左上角坐标;最大的(x,y)为矩形的右下角坐标。即最小的坐标x就是验证码接口中的 moveX参数。

运行结果如下:

 

最后将得到的距离作为moveX参数去请求校验接口即可。 

三、完整代码

为便于观察,将每一步的图片都进行了保存

import cv2
from PIL import Image
from loguru import logger

class OcrImg():
    def __init__(self):
        # 验证码原图
        self.img1 = './b1.png'

        # 二值化后的图片
        self.img2 = './b2.png'

        # 边缘检测后的图片
        self.img3 = './b3.png'

        # 绘制边缘矩形后的图片
        self.img4 = './b4.png'

        self.GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
        self.GAUSSIAN_BLUR_SIGMA_X = 0
        self.CANNY_THRESHOLD1 = 200
        self.CANNY_THRESHOLD2 = 450

    def main(self, input_img_file='./b1.png'):
        self.img1 = input_img_file
        self.threshold_By_OTSU()

        self.detectEdge()

        x1 = self.get_contours()
        logger.info('缺口距左侧边缘 {} 个像素'.format(x1))
        return x1

    # 图片预处理
    def threshold_By_OTSU(self):
        # 读取图片
        image = cv2.imread(self.img1)
        # 高斯模糊
        image = cv2.GaussianBlur(image, self.GAUSSIAN_BLUR_KERNEL_SIZE, self.GAUSSIAN_BLUR_SIGMA_X)

        # 二值化
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像,必须先将图像转为灰度图
        ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)
        cv2.imwrite(self.img2, binary)

    # 求图像img中(x,y)处像素的卷积c
    def convolute(self, img, x, y):
        juanjihe = [1, 1, 1, 1, -8, 1, 1, 1, 1]
        L = []
        xl = [x - 1, x, x + 1]
        yl = [y - 1, y, y + 1]
        for j in yl:
            for i in xl:
                gray = img.getpixel((i, j))  # 取出灰度值
                L.append(gray)
        c = 0
        for i, j in zip(juanjihe, L):
            c = c + i * j
        return c

    # 边缘检测
    def detectEdge(self):
        img1 = Image.open(self.img2)  
        img1 = img1.convert('L')  
        w, h = img1.size
        img2 = Image.new('L', (w, h), 'white')  
        for x in range(1, w - 1):
            for y in range(1, h - 1):
                c = self.convolute(img1, x, y) 
                if c > 0:
                    s = 0
                else:
                    s = 255
                img2.putpixel((x, y), s) 
        img2.save(self.img3)

    # 绘制外接矩形
    def get_contours(self):
        image = cv2.imread(self.img3)
        # 图像转灰度图
        img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        # 图像转二值图
        ret, thresh = cv2.threshold(img, 2, 255, cv2.THRESH_BINARY_INV)
        contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
        x1 = []
        y1 = []
        x2 = []
        y2 = []
        for c in contours:
            # 找到边界坐标
            x, y, w, h = cv2.boundingRect(c)
            if x != 0 and y != 0 and w != image.shape[1] and h != image.shape[0]:
                cv2.rectangle(image, (x, y), (x + w, y + h), (215, 42, 32), 2)
                x1.append(x)
                y1.append(y)
                x2.append(x + w)
                y2.append(y + h)
        x11 = min(x1)
        y11 = min(y1)
        x22 = max(x2)
        y22 = max(y2)
        print(x11, y11, x22, y22)
        cv2.imwrite(self.img4, image)
        cv2.waitKey(0)

        return x11

if __name__ == '__main__':
    ocr = OcrImg()
    # 传入图片位置
    ocr.main('./a.png')

注:本篇博客只对验证码图片进行了技术分析,不做任何数据抓取存储等操作。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫逆向——某建筑市场监管平台的滑块验证码分析 的相关文章

随机推荐

  • QT中QLoggingCategory类的作用

    使用前须知 include category 美 k t ri 种类 类别 使用举例 QLoggingCategory setFilterRules QStringLiteral qt modbus true 作用总结 控制打印输出类别和区
  • html5 first child,childfirst

    在html里 firstchild 有什么作用 表示对第一个字对象的引用 如 DIV的子对象 alert document getElementById abc firstChild tagname 返回SPAN alert documen
  • vcruntime140_1.dll丢失的详细解决办法

    今天准备打开CAD跟ps时候 当打开我自己的ps软件后 弹出了一个对话框 内容是 由于找不到vcruntime140 1 dll 无法继续执行代码 重新安装程序可能会解决此问题 我很纳闷 前几天还好好着呢 于是我上网上查了一下 成功解决了问
  • signature=0e936ad5c99bd8d603e71fa74e787bee,JavaScript 的 BASE64 算法 实现 完美解决中文乱码...

    收藏的Base64编码 解码 在一个外国网站看到的 不过对中文不支持 自己加入了escape 对中文也支持了 先用escape 对中文进行编码 然后再进行base64编码 解码时 再加入 对中文进行解码 p gt W3C DTD HTML
  • URL 链接中 #、?、连接符& 分别有什么作用?

    在一个 URL 中可以包含很多的内容 其中不仅仅是包含 26 个英文字母 10 个罗马数字 中文汉字 还可以拥有井号 问号 连接符 等三种最常见的符号 那么这些符号在网站中都有哪些作用呢 文章目录 一 井号 二 问号 三 连接 一 井号 井
  • Qt:十六进制字符串和十六进制互转

    Qt 十六进制字符串和十六进制互转 前言 一 字符串转换十六进制 1 封装函数 2 函数调用示例 二 16进制转换字符串 前言 网上查了不少方式 踩了不少坑 最终这个方式是我目前使用感觉较好的一种 具体出处已经没印象了 这里放出完整代码供大
  • Spring(二)IOC容器的初始化流程

    文章目录 一 Spring 核心容器类 1 1 BeanFactory 1 2 ApplicationContext 1 3 BeanDefinition 二 IOC容器的初始化 2 1 基于Xml的IOC容器的初始化 2 1 1 寻找入口
  • 15个顶级Java多线程面试题及答案

    1 现在有T1 T2 T3三个线程 你怎样保证T2在T1执行完后执行 T3在T2执行完后执行 这个线程问题通常会在第一轮或电话面试阶段被问到 目的是检测你对 join 方法是否熟悉 这个多线程问题比较简单 可以用join方法实现 2 在Ja
  • LLM在放射科学中应用潜力

    本论文在全球范围内评估了 31 个大型语言模型 LLM 在解读放射科报告并从放射学发现中推导出诊断信息 impression 任务上的表现 这是目前已知的对全球 LLM 用于放射科学自然语言处理 NLP 进行的最全面评估之一 该研究通过在这
  • 8款常见的自动化测试开源框架

    在如今开源的时代 我们就不要再闭门造车了 热烈的拥抱开源吧 本文针对性能测试 Web UI 测试 API 测试 数据库测试 接口测试 单元测试等方面 为大家整理了github或码云上优秀的自动化测试开源项目 希望能给大家带来一点帮助 一 性
  • 运维体系的构建

    文章目录 一 前言 二 基础 2 1 项目摸底 2 2 做一个好辅助 2 3 学习业务 2 4 标准与流程 2 5 维护 三 进阶 3 1 系统 服务优化 3 2 工作流程优化 3 3 规矩 3 4 运维管理平台 一 前言 运维的基础工作通
  • php lazy loading,React丨用户体验丨hook版 lazy loading

    我们都知道随着单页应用 bundle 的体积不断增大 会造成首次加载时间过长 白屏时间过长 过程中会加载了我们首页没有必要看到的一些 页面 组件 js文件 所以我们需要对 bundle 文件进行拆分来进行按需加载 懒加载 这里需要用到 we
  • Xilinx FIFO Generator 需要注意RST复位

    Xilinx FIFO Generator 需要注意RST复位 系列文章推荐 Xilinx FIFO Generator 需要注意RST复位 Xilinx FIFO Generator 需要注意Actual Depth Xilinx FIF
  • cvCloneImage()内存泄漏解决方法, cvCloneImage()和cvCopy()的区别

    转自 http blog csdn net stellar0 article details 8741759 cvCloneImage 每次使用时编译器会分配新的内存空间 不会覆盖以前的内容 所以如果在循环中使用内存会迅速减小 每次用完都需
  • Python 计算机视觉(六)—— OpenCV 进行图像量化与采样

    对于信号的采样可以参考我之前的文章 数字信号处理 2 1 采样 对于信号的量化可以参考 数字信号处理 2 4 ADC 中的有限字长效应 在本篇文章中绘图使用到了 matplotlib 库 需要了解学习可以参考我之前写的用来总结这个绘图库的文
  • 一文看懂Spark中reduceByKey 和 groupByKey 的区别

    目录 一 先看结论 二 举例 画图说明 1 实现的功能分别是什么 1 groupByKey 实现 WordCount 2 reduceByKey 实现 WordCount 2 画图解析两种实现方式的区别 1 groupByKey 实现 Wo
  • C++深拷贝与浅拷贝以及写时复制

    深拷贝和浅拷贝的优缺点 看了深拷贝 浅拷贝优缺点 我们知道浅拷贝效率高 但涉及到指针引用等会涉及到指针的多次释放导致悬挂指针 深拷贝 不会造成指针悬挂的问题 但会浪费空间以及效率较低的问题 下面看下用到浅拷贝的情况 include
  • TCP通信发送和接收数据(Socket、ServerSocket)、TCP通信案例

    目录 TCP TCP发送接收数据 发送数据 Socket 接收数据 ServerSocket TCP通信案例1 TCP接收数据后给出反馈案例2 TCP接收数据后给出反馈案例3 TCP接收数据后给出反馈案例4 TCP 概述 TCP通信协议是一
  • C++实现——三子棋游戏

    题目描述 两个人玩三子棋游戏 即在3 3的矩阵上下棋 一个人画叉一个人画圈 谁先出现成行或成列或成对角线三个相同的棋子就算谁赢 编写算法实现 判断给定棋局的状态 用1代表先手 2代表后手 出现的六种状态为 1won 2won x 代表棋局错
  • 爬虫逆向——某建筑市场监管平台的滑块验证码分析

    目录 网址链接 正文 一 思路分析 二 图片处理 三 完整代码 网址链接 aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw bs64解密可见 正文 注 分步的代码为示例代