抓取得物数据出现验证码的解析思路

2023-11-16

原创来自本人的公众号:阿嚏个技术

公众号文章地址:得物采集数据出现geetest验证码的解析方式

本文仅提供反爬技术的分析思路,勿做商业用途,如有侵权,请联系删除。

之前写过一篇爬得物数据的文章《毒(得物)APP历史购买数据抓取》,阅读数还是挺不错的,不过那篇文章其实有些误导,当时是通过在手机上模拟用户的点击和滑屏操作,然后获取相关页面,再对内容进行识别来获取所需数据,那种方式一是效率不高,2天还没解析完一个商品的历史数据;二是数据误差大,因为模拟滑屏操作有定位和延时加载的问题,会导致很多重复数据。有些网友也指出了其中的问题,有网友也说api的效率高,的确研究了其API后做的采集方式很快,一个商品的数据基本就是分分钟的事情。

不过......

得物也是在不断进化的,很快接口的方式发生了变化,甚至有些接口已经失效。相信前一段时间跑API的朋友,会发现接口会经常返回401(请求直接被拒绝),485(请求需要验证码)的错。例如:

{"code":485,"data":{"challenge":"202c8c44a1226df446e1207519df6180","gt":"2acebf85e53151975f4a82b8a812ff02","newCaptcha":true,"resultCode":485,"serverStatus":1},"msg":"请校验验证码","status":485}

出现验证码的情况,手机APP人工操作也是会出现的,为了防爬得物还是牺牲了一些用户体验。

那么下面就是针对这种情况进行分析,给大家提供下思路,供大家参考。

先上图,下面是通过charles抓取得物小程序的图:

从蓝色标识的地方开始,向下的红箭头表示接口执行的顺序。

蓝色的地方表示收到了485状态的返回(图中下部的红框可以看到),然后调用了geetest的滑块验证功能,手工把滑块滑到正确的位置后,小程序向dewu的安全反爬接口发了2个请求,请求返回成功后又可以继续浏览相关界面。这就是这个验证码处理的过程,在上图中用黄色框分别标识了3个步骤。

 那么解题思路来了,在我们碰到接口返回485的时候,我们是不是处理好geetest的验证即可?对的,我验证过了。

    # 发起搜索商品请求
    json_data = search_by_keywords_load_more_data('GV7903', 0, 1, 1)
    resp = json.loads(json_data)
    print(resp)
    # 需要进行验证
    if resp['code'] == 485:
        # 通过geetest进行验证码处理
        validate, new_chanllge = get_geetest_slide(resp['data']['gt'], resp['data']['challenge'])
        # 获取geetest处理结果
        if validate:
            # 将geetest的结果去反爬接口验证
            val = check_validate(validate, new_chanllge)
            # 验证成功进行第二次商品搜索
            if val:
                json_data = search_by_keywords_load_more_data('GV79', 0, 1, 1)
                print('second request:', json_data)

执行的结果如下,second request的请求就返回了正常的数据。

 至于geetest如何实现处理,不在本文讨论之中,有兴趣的朋友自行在网上搜索下。

有兴趣的朋友可以搜微信公众号:阿嚏个技术,主要对自己的技术和产品做个记录。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抓取得物数据出现验证码的解析思路 的相关文章

  • selenium对浏览器操作、鼠标操作等总结

    1 控制浏览器 Selenium 主要提供的是操作页面上各种元素的方法 但它也提供了操作浏览器本身的方法 比如浏览器的大小以及浏览器后退 前进按钮等 1 1 控制浏览器窗口大小 在不同的浏览器大小下访问测试站点 对测试页面截图并保存 然后观
  • 代理IP的高匿名,匿名和透明的区别

    如果从隐藏使用代理用户的级别上划分 代理可以分为三种 即高度匿名代理 普通匿名代理和透明代理 1 高度匿名代理不改变客户机的请求 这样在服务器看来就像有个真正的客户浏览器在访问它 这时客户的真实IP是隐藏的 服务器端不会认为我们使用了代理
  • python爬虫爬取使用Ajax请求的网站数据解析——以梅老板微博为例(m.weibo.cn)

    文章目录 前言 什么是Ajax Ajax基本原理 发送请求 解析内容 渲染网页 Ajax分析方法 查看请求 过滤请求 Ajax结果提取 1 分析请求 since id解析 2 分析响应 3 爬取微博数据 后记 前言 前面学习了使用正则表达式
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对python使用urlretrieve或urlopen下载百度 搜狗 googto 谷歌镜像 等图片时 出现 无法打开图片或已损坏 的问题 作者对它进行简单的探讨 同时 作者将进一步帮你巩固selenium自动化操作和urlli
  • 用Python分析2000款避孕套,得出这些有趣的结论

    前言 本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 如有问题请及时联系我们以作处理 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入 一 分析目标
  • python调用js文件

    python调用js文件生成参数 JS逆向 安装exejs与nodejs 调用js生成参数 JS逆向 我就随便找了一个网站https cloud kingdee com passport auth login 随手输入一个账号密码 抓包后发
  • Python爬虫实战之电影爬取过程

    俗话说 兴趣所在 方能大展拳脚 so结合兴趣的学习才能事半功倍 更加努力专心 apparently本次任务是在视频网站爬取一些好看的小电影 地址不放 狗头保命 只记录过程 实现功能 从网站上爬取采用m3u8分段方式的视频文件 对加密的 ts
  • 零基础学Python

    作者主页 编程指南针 作者简介 Java领域优质创作者 CSDN博客专家 CSDN内容合伙人 掘金特邀作者 阿里云博客专家 51CTO特邀作者 多年架构师设计经验 腾讯课堂常驻讲师 主要内容 Java项目 Python项目 前端项目 人工智
  • Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序

    Python实现输入电影名字自动生成豆瓣评论词云图 带GUI界面 小程序 一 项目背景 电影逐渐成为人们生活的不可或缺的一部分 而了解一部电影的可以通过电影评分与大众推荐度 但以上的方式都太过于片面 了解一部电影的方法是通过已经观看完电影的
  • 某乎搜索接口x-zse-96参数逆向学习分析,网站:aHR0cHM6Ly93d3cuemhpaHUuY29tLw==

    目标参数 x zse 96 参数分析 全局搜索x zse 96 只有两个地方出行 打上断点后刷新网页 从图中断点地方可以看到 搞清楚u f s 的由来就解决了x zse 96 可以看到s参数是由以下几部分组成 1 101 3 2 0 固定版
  • 利用几行python代码爬取全国疫情数据,全方位地图分析疫情地区分布

    爬取全国疫情数据 所用的网页连接 https api inews qq com newsqa v1 automation foreign country ranklist 可视化用到的模块 gt 戳这里下载 也可以看最后 或私信我 如果没有
  • Python爬虫实战,requests模块,Python实现IMDB电影top数据可视化

    前言 利用Python爬取IMDB电影 废话不多说 让我们愉快地开始吧 开发工具 Python版本 3 6 4 相关模块 requests模块 random模块 bs4模块 以及一些Python自带的模块 环境搭建 安装Python并添加到
  • Mysql数据库的环境搭建【详细】

    作者简介 大学机械本科 野生程序猿 学过C语言 玩过前端 还鼓捣过嵌入式 设计也会一点点 不过如今痴迷于网络爬虫 因此现深耕Python 数据库 seienium JS逆向 安卓逆向等等 目前为全职爬虫工程师 学习的过程喜欢记录 目前已经写
  • 跳过selenium检测爬取淘宝直通车

    最近 有对阿里商家端进行一些数据爬取 这次爬取的是直通车人群溢价数据 发现对selenium的检测相当厉害 然而我的回答是 你强任你强 清风拂山岗 咱人工登录怕过谁 什么cokies user agent selenium检测 token
  • python是真刑啊!爬虫这样用,离好日子越铐越近了~

    一个程序员写了个爬虫程序 整个公司200多人被端了 不可能吧 刚从朋友听到这个消息的时候 我有点不太相信 做为一名程序员来讲 谁还没有写过几段爬虫呢 只因写爬虫程序就被端有点夸张了吧 朋友说 消息很确认并且已经进入审判阶段了 01 对消息进
  • 初学Python到月入过万最快的兼职途径(纯干货)

    1 兼职薪资 附行哥工资单 2 兼职门槛 附学习知识清单 3 兼职途径 附入职考核过程 4 行哥的兼职感受 答应行友的第一篇赚钱干货推文来啦 行哥第一个在读书期间通过兼职赚到的10w 收入 这也是初学Python小白最快达到月入过万的途径
  • 6个Python童年小游戏,开始敲起来,玩吧!

    你的童年 我的童年好像都一样 谁的童年又没玩过游戏呢 这些小游戏应该只有玩过才会懂吧 虽然程序员敲代码多年 但童心还是一直都在的 今天就分享一些私藏的童年游戏 十几行代码就能进入使用Python开发的小游戏快乐玩耍 1 五子棋 童年游戏不可
  • 英雄联盟英雄信息【python爬虫】

    文章目录 下面开始正式教学 思路分析 开始工作 这里要注意一下 实现 以下是全部代码 相信大家都知道撸啊撸这个游戏了吧 小时候偷偷跑去网吧和朋友们开黑的日子 那是我们逝去的青春 学了爬虫课后终于按捺不住了 决定自己手动编写爬虫程序 就把自己
  • python爬虫概述及简单实践

    文章目录 一 先了解用户获取网络数据的方式 二 简单了解网页源代码的组成 1 web基本的编程语言 2 使用浏览器查看网页源代码 三 爬虫概述 1 认识爬虫 2 python爬虫 3 爬虫分类 4 爬虫应用 5 爬虫是一把双刃剑 6 pyt
  • Python获取去哪儿旅游数据并作可视化攻略

    嗨喽 大家好呀 这里是爱看美女的茜茜呐 开发环境 版 本 python 3 8 编辑器 pycharm 第三方库 requests gt gt gt pip install requests parsel gt gt gt pip inst

随机推荐

  • 详解java类的生命周期

    引言 最近有位细心的朋友在阅读笔者的文章时 对java类的生命周期问题有一些疑惑 笔者打开百度搜了一下相关的问题 看到网上的资料很少有把这个问题讲明白的 主要是因为目前国内java方面的教材大多只是告诉你 怎样做 但至于 为什么这样做 却不
  • Java如何比较两个日期的先后顺序

    在 Java 中 你可以使用 java util Date 或 java time LocalDate 类来比较两个日期的先后顺序 以下是使用 java util Date 类比较两个日期的先后顺序的示例代码 java import jav
  • 面对kafka频发的rebalance,该如何处理?

    Kafka 是我们最常用的消息队列 它那几万 甚至几十万的处理速度让我们为之欣喜若狂 但是随着使用场景的增加 我们遇到的问题也越来越多 其中一个经常遇到的问题就是 rebalance 重平衡 问题 但是要想了解 rebalance 那就得先
  • java+内存分配及变量存储位置的区别

    Java内存分配与管理是Java的核心技术之一 之前我们曾介绍过Java的内存管理与内存泄露以及Java垃圾回收方面的知识 今天我们再次深入Java核心 详细介绍一下Java在内存分配方面的知识 一般Java在内存分配时会涉及到以下区域 寄
  • Mysql常用的三种数据库引擎比较

    点击上方蓝字 快速关注 ISAM ISAM是一个定义明确且历经时间考验的数据表格管理方法 它在设计之时就考虑到数据库被查询的次数要远大于更新的次数 因此 ISAM执行读取操作的速度很快 而且不占用大量的内存和存储资源 ISAM的两个主要不足
  • ReplicaSet和ReplicationController区别

    ReplicaSet是新一代的ReplicationController ReplicaSet的pod标签选择器的表达能力更强 例如ReplicaSet能同时匹配两种标签 env dev和env pro ReplicationControl
  • ajax请求二进制数据

    var url var xhr new XMLHttpRequest xhr open GET url true 也可以使用POST方式 根据接口 xhr responseType blob 返回类型blob 定义请求完成的处理函数 请求前
  • 使用不同的渲染

    11
  • ubuntu更新源报错--软件包管理器apt在验证密钥时使用了旧的方式

    目录 一 解决报错一 二 解决报错二 一 解决报错一 1 报错原信息 Key is stored in Legacy trusted gpg keyring etc apt trusted gpg see the DEPRECATION S
  • 如何编辑加密的PDF

    在不知道密码的情况下如何编辑打印pdf呢 1使用WPS打开加密的pdf 2点击打印 神奇的事情 明明没有打印权限 选择打印为PDF 3获得一个新的有权限的PDF
  • vue3项目(六)---detail

    1 详情页 页面准备和路由配置 点击新鲜好物里的商品后 会跳转到详情页 并且会携带参数过去 1 先准备静态页面 在views下新建一个Detail组件 2 配置路由 src router index js import Detail fro
  • Python入门学习(三)核心语法(1)

    3 1Python序列详解 索引和引片 3 1Python序列详解 索引和引片 3 1 1 索引 list1 1 2 3 4 元素值 1 2 3 4 正索引 0 1 2 3 负索引 4 3 2 1 print list的第一个元素是 lis
  • 第一章_RabbitMQ简介

    MQ是什么 MQ Message Quene 翻译为 消息队列 通过典型的 生产者和消费者模型 生产者不断向消息队列中生产消息 消费者不断的从队列中获取消息 因为消息的生产和消费都是异步的 而且只关心消息的发送和接收 没有业务逻辑的侵入 轻
  • 出现找不到msvcp140.dll无法继续执行代码要怎么解决?

    出现找不到msvcp140 dll无法继续执行代码要怎么解决 当你尝试在Windows系统上运行某些程序或游戏时 可能会遇到 找不到msvcp140 dll无法继续执行代码 的错误提示 这个错误通常表示你的系统缺少了msvcp140 dll
  • centos7密码破解

    centos7密码破解 首先准备一台centos7系统 密码知道不知道都可以 1 先打开centos 然后进入选择系统的那一栏 然后点击任意键停住 按住e进入单用户模式 已经进入单用户模式 2 在Linux16最后面加上 目录rd brea
  • python操作Neo4j进行同名实体合并

    python操作Neo4j进行同名实体合并 使用python操作neo4j 3 5 4版本 时 防止已有节点重复创建 使用NodeMatcher函数 from py2neo import Graph Node Relationship No
  • 华为OD机试-计算网络信号

    华为OD机试 计算网络信号 网络信号经过传递会逐层衰减 且遇到阻隔物无法直接穿透 在此情况下需要计算某个位置的网络信号值 注意 网络信号可以绕过阻隔物 array m n 的二维数组代表网格地图 array i j 0代表i行j列是空旷位置
  • LeNet5的深入解析

    论文 Gradient based learning applied to document recognition 参考 http blog csdn net strint article details 44163869 LeNet5
  • Docker 使用国内镜像仓库

    Docker 使用国内镜像仓库 1 问题描述 2 总结 1 问题描述 由于某些原因 导致Docker镜像在国内下载速度特别慢 所以为了沉浸式开发 最好切换为国内源 这里以163 的镜像仓库举例 首先修改 etc docker daemon
  • 抓取得物数据出现验证码的解析思路

    原创来自本人的公众号 阿嚏个技术 公众号文章地址 得物采集数据出现geetest验证码的解析方式 本文仅提供反爬技术的分析思路 勿做商业用途 如有侵权 请联系删除 之前写过一篇爬得物数据的文章 毒 得物 APP历史购买数据抓取 阅读数还是挺