逆向工程Python爬虫——国税局发票查验平台

2023-11-05

前言

这是一篇含金量很高的干货文章,笔者将手把手带领各位一步一步地实现爬取国家税务总局全国增值税发票查验平台(以下简称“查验平台”)。这个想法诞生在19年初,当时在做一款通过扫描二维码就可以查验发票的小程序。
IMG0431.PNG
当时由于笔者学艺尚浅,没办法模拟请求爬取查验平台,所以最终采用的技术方案是通过web自动化测试工具selenium控制浏览器去模拟查验步骤,即使这样,开发过程也是困难重重,不过最后笔者和伙伴们成功实现了整套流程,最后开发出的产品口袋发票夺得了包括2019微信小程序开发大赛赛区三等奖在内的多个奖项。
但是产品是无法真正上线的,因为通过selenium爬虫的方式实在是太消耗性能了,测试结果表明:百度云4核8G的服务器职能同时服务10人以内。
笔者一直不甘心,暗自下定决心:一定要实现模拟请求爬取。
那么闲话少说,我们开始吧。

查一张发票

第一步肯定是分析查验平台整体的逻辑,所以我们首先来真实地查验一张发票。
这里笔者使用的是Chrome 76.0.3809.132,是本文发布时的最新版本。
image.png

  • 这里我找到了一张发票,首先输入发票号码
    image.png
    我发现:当我的光标移动到发票号码输入框时发票代码右侧出现了一个对勾,这说明在发票代码失焦的时候会检测发票代码正确性,然后给用户一个反馈。
    这是我在京东买书的发票,是在北京开具的,这里可以了解一下发票号码的含义:百度百科
  • 接下来我们继续输入发票号码
    image.png
    有趣的事情出现了,发票号码失焦之后下面突然出现了验证码,这里我们得出结论:验证码请求的时机是在发票号码失焦之后
  • 继续输入开票日期和校验码后六位
    image.png
    此时查验按钮还不可点击
  • 输入验证码
    image.png
    此时我们了解到税务总局的验证码含有中文和英文,并且需要根据颜色指示输入,让我们多刷新几次验证码。
    image.png
    image.png
    image.png
    image.png
    我刷新了n次之后发现:验证码提示只有4种情况:输入全部、黄色、红色、蓝色
    查验按钮在所有信息填写完之后出现
  • 最后点击查验即可得到发票的真伪和详细信息

查看获取验证码的请求

  • 我将网页刷新然后F12打开Chrome的调试工具,点击Network然后将列表清空。
    image.png
  • 接下来我们重复刚才查验发票的操作,直到失焦发票号码输入框,然后观察验证码是怎么来的。
    image.png
    此时我们发现了验证码的请求,看一下详细信息。
    image.png
    这是一个jQuery发起的请求,笔者对jQuery了解的不深,不过我们继续看请求参数:
参数名 含义
callback 固定值
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

逆向工程Python爬虫——国税局发票查验平台 的相关文章

随机推荐

  • 你还好吗

    最近突发奇想 假如某一天 我不在 这一行干了 那我又该去找什么样的工作 又该何去何从 活了二十几年 也没培养出什么兴趣爱好 也没什么特长优点 迷茫的人生 迷茫的我 我想听听你们的意见
  • openGauss学习笔记-09 openGauss 简单数据管理-创建数据库

    文章目录 openGauss学习笔记 09 openGauss 简单数据管理 创建数据库 9 1 语法格式 9 2 参数说明 9 3 示例 openGauss学习笔记 09 openGauss 简单数据管理 创建数据库 数据库安装完成后 默
  • 【爬虫进阶】猿人学任务六之回溯(难度3.0)

    目录 前言 分析 扣代码 Js改写 代码过程 结果 前言 本文讲解猿人学web题目第6题 内容难点如下 颜文字 JSUnFuck 分析 打开题目网站 F12 点击XHR 找出数据接口 看到请求参数这里 m是加密的 q是两个时间戳 全局搜索加
  • FindBugs错误修改指南

    1 EC UNRELATED TYPES Bug Call to equals comparing different types Pattern id EC UNRELATED TYPES type EC category CORRECT
  • 圆盘找数

    任务 三 圆盘找数 一 目的与要求 1 目的 使学生掌握数组的概念 阅读 编写和调试数组的要领 通过本实训可加深对于数组 最大值 最小值的理解和加强数组处理 分类求值 最大 小 值得求法等比较技术编程能力的训练 2 要求 1 根据问题域设计
  • VBA中的Application.Calculation,公式的计算方式

    VBA经典应用69例 10178981 是我推出的第九套教程 教程是专门针对初级 中级学员在学习VBA过程中可能遇到的案例展开 这套教程案例众多 紧贴 实战 并做 战术总结 以便大家能很好的应用 教程的目的是要求大家在实际工作中要利用好VB
  • 目标检测论文解读复现之六:基于YOLOv5的遥感图像舰船的检测方法

    目标检测论文解读复现 文章目录 目标检测论文解读复现 前言 一 摘要 二 网络模型及核心创新点 三 应用数据集 四 实验效果 五 实验结论 六 投稿期刊介绍 前言 此前出了目标改进算法专栏 但是对于应用于什么场景 需要什么改进方法对应与自己
  • 【实战】Python爬虫之代理使用详解

    在Python爬虫中 代理的使用非常常见 代理的主要作用是隐藏客户端的真实IP地址 从而实现更高的网络访问速度和更好的访问隐私保护 下面我们将通过Python爬虫的实例 带你详细了解Python爬虫中代理的使用方法 目录 1 代理原理和作用
  • 随机生成小球(万家灯火的感觉)

    事发年前 新冠之前 拿到一张psd 全部静态 老板说想让他动起来 在我们这种老板吃死技术的小公司只能自己想办法 你想要ui no我们只有美工哈哈哈 独立自强的我瞬间想到transition enter leave cubic bezier之
  • 利用Python进行心脏病患者特征分析

    今天要跟大家说到的一个数据集分析 是关于心脏病的 心脏病作为全球第一大杀手 是我们不得不提前防御的疾病 今天我们利用Python从一份心脏病数据集中找出一些规律 看下哪些特征对于确诊心脏病影响比较大 从而提醒我们注意平时的生活规律 数据集介
  • 解决报错error resource androidattrdialogCornerRadius not found

    解决报错error resource android attr dialogCornerRadius not found 1 问题描述 运行Android Studio程序 产生报错error resource android attr d
  • 计算机大三学生怎么找实习工作?学了计算机很迷茫怎么办?

    学了计算机很迷茫怎么办呢 很多计算机大三学生找不到实习工作 也不知道从哪找实习工作 甚至常常怀疑自己的学习有没有意义 今日就由小编为大家简要介绍下吧 学了计算机很迷茫怎么办 学了计算机很迷茫怎么办呢 经常有很多学生发生这样的感慨 事实上绝大
  • sklearn中的fit_transform和transform以及什么时候使用

    在使用sklearn对数据进行预处理的时候很有可能会遇到fit transform和transform 网上不少资料写的模棱两可 在这里我回答几个核心问题 也许看完我写的这篇文章 一些疑惑就会豁然开朗 为什么在训练集进行fit而不在测试集f
  • c++的并归排序怎么写

    答 C 的并归排序的写法如下 1 如果数组只有一个元素 则返回该元素 2 否则 将数组分成两半 3 使用递归 对每一半进行并归排序 4 将排序后的两个子数组合并 5 返回排序后的结果
  • C语言回调函数一个简单的例子

    回调函数通俗的解释 普通函数 你所写的函数调用系统函数 你只管调用 不管实现 回调函数 系统调用你所写的函数 你只管实现 不管调用 以下是使用 语言实现回调函数的一个例子 代码 include
  • Microsoft Excel 无法插入新的单元格,因为这会将非空单元格推送到工作表的末尾...的问题解决

    这个问题的出现应该是最后一行或一列有数据 按以下步骤操作 1 选中文字表格最后一列空白列 随后按ctrl shift 向右 选中整列 点击右键删除 2 选中文字表格最后一行空白列 随后按ctrl shift 向右 选中整行 点击右键删除
  • Springboot 集成 Groovy Script 完整示例

    Springboot 集成 Groovy Script 完整示例 使用Spring Boot集成Groovy Script来实现动态规则解析和执行的Demo 以下是实现步骤 1 创建Spring Boot项目 首先 创建一个Spring B
  • 测试代码(测试函数、测试类)

    测试函数 def get name first last full name first last return full name title from name import get name print Enter q at any
  • Using a Single Business Pattern with the RUP -part3

    Using IBM Patterns for e business during inceptionKey goals of the RUP inception phase are A vision that establishes the
  • 逆向工程Python爬虫——国税局发票查验平台

    前言 这是一篇含金量很高的干货文章 笔者将手把手带领各位一步一步地实现爬取国家税务总局全国增值税发票查验平台 以下简称 查验平台 这个想法诞生在19年初 当时在做一款通过扫描二维码就可以查验发票的小程序 当时由于笔者学艺尚浅 没办法模拟请求