js爬虫反扒

2023-10-27

3、js动态网页抓取方式（重点）

许多时候爬虫取到的页面仅仅是一个静态的页面，即网页的源代码，就像在浏览器上的“查看网页源代码”一样。

一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的，下面两种方案，可用来python爬取js执行后输出的信息。

① 用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页。

import dryscrape

使用dryscrape库动态抓取页面

def get_url_dynamic(url):
session_req=dryscrape.Session()
session_req.visit(url) #请求页面
response=session_req.body() #网页的文本
#print(response)
return response
get_text_line(get_url_dynamic(url)) #将输出一条文本
这里对于其余包含js的网页也是适用的，虽然可以满足抓取动态页面的要求，但缺点还是很明显的：慢！

但想想也合理，python调用 webkit请求页面，而且等页面加载完，载入js文件，让js执行，将执行后的页面返回，慢一点情理之中。

除外还有很多库可以调用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它写个浏览器），pyjamas等等，也可以实现相同的功能。

② selenium web测试框架

selenium是一个web测试框架，允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

使用 selenium webdriver 可行，但会实时打开浏览器窗口。

def get_url_dynamic2(url):
driver=webdriver.Firefox() #调用本地的火狐浏览器，Chrom 甚至 Ie 也可以的
driver.get(url) #请求页面，会打开一个浏览器窗口
html_text=driver.page_source
driver.quit()
#print html_text
return html_text
get_text_line(get_url_dynamic2(url)) #将输出一条文本
不失为一条临时的解决方案，与selenium类似的框架还有一个windmill，感觉稍复杂一些，这里就暂且不赘述了。

4、解析js（重点）

我们爬虫每次只有一个请求，但是实际上很多请求又js连带发送，所以我们需要利用爬虫解析js去实现这些请求的发送。

网页中的参数来源主要有以下四种：

固定值, 写死在html中的参数
用户给的参数
服务器(通过ajax)返回的参数, 比如时间戳, token等
js生成的参数
这里主要介绍一下解析js，破解加密方法或者生成参数值方法，python代码模拟实现这个方法, 从而得到我们需要的请求参数。

以微博登录为例：

当我们点击登录的时候都会发送一个login请求

登录表单中的参数并不一定都是我们需要的，可以通过对比多次请求中的参数，再加上一些经验和猜想，过滤掉固定参数或服务器自带参数和用户输入的参数。

这是剩下的就是js生成的数值或加密数值；

最终得到的值：

图片 picture id:

pcid: yf-d0efa944bb243bddcf11906cda5a46dee9b8

用户名:

su: cXdlcnRxd3Jl
nonce: 2SSH2A # 未知

密码:

sp: e121946ac9273faf9c63bc0fdc5d1f84e563a4064af16f635000e49cbb2976d73734b0a8c65a6537e2e728cd123e6a34a7723c940dd2aea902fb9e7c6196e3a15ec52607fd02d5e5a28e18254105358e897996f0b9057afe2d24b491bb12ba29db3265aef533c1b57905bf02c0cee0c546f4294b0cf73a553aa1f7faf9f835e5
prelt: 148 # 未知
请求参数中的用户名和密码都是经过加密处理的，如果需要模拟登录，就需要找到这个加密的方法，利用它来为我们的数据进行加密。

1）找到所需的js

要找到加密方法，首先我们需要先找到登录所需的js代码，可以使用以下3种方式：

① 找事件；在页面检查目标元素，在开发工具的子窗口里选中Events Listeners，找到click事件，点击定位到js代码。

② 找请求；在Network中点击列表界面的对应Initiator跳转至对应js界面；

③ 通过搜索参数名进行定位；

2）登录的js代码

3）在这个submit的方法上打断点，然后输入用户名密码，先不点登录，回到dev tool点击这个按钮启用调试。

4）然后再去点登录按钮, 这时候就可以开始调试；

5）逐步执行代码的同时观察我们输入的参数, 发生变化的地方即为加密方法, 如下

6）上图中的加密方式是base64, 我们可以使用代码来试一下

import base64

a = “aaaaaaaaaaaa” # 输入的用户名
print(base64.b64encode(a.encode())) # 得到的加密结果:b’YWFhYWFhYWFhYWFh’

如果用户名包含@等特殊符号, 需要先用parse.quote()进行转义

得到的加密结果与网页上js的执行结果一致；

5、爬虫中遇到的js反爬技术（重点）

1）JS写cookie

requests请求得到的网页是一对JS，跟浏览器打开看到的网页源码完全不一样，这种情况，往往是浏览器运行这段JS生成一个（或多个）cookie再带着这个cookie做二次请求。

在浏览器（chrome、Firefox都可以）里可以看到这一过程，首先把Chrome浏览器保存的该网站的cookie删除，按F12到Network窗口，把“preserve log”选中（Firefox是“Persist logs”），刷新网页，这样我们就可以看到历史的Network请求记录。

第一次打开“index.html”页面时返回的是521，内容是一段JS代码；

第二次请求这个页面就得到了正常的HTML，查看两次请求的cookies，可以发现第二次请求时带上了一个cookie，而这个cookie并不是第一次请求时服务器发过来的，其实它就是JS生成的。

解决思路：研究那段JS，找到它生成cookie的算法，爬虫就可以解决这个问题。
2）JS加密ajax请求参数

抓某个网页里面的数据，发现网页源代码里面没有我们要的数据，麻烦之处在于数据往往是ajax请求得到的。

按F12打开Network窗口，刷新网页看看加载这个网页都下载了哪些URL，我们要的数据就在某个URL请求的结果里面。

这类URL在Chrome的Network里面的类型大多是XHR，通过观察它们的“Response”就可以发现我们要的数据。

我们可以把这个URL拷贝到地址栏，把那个参数随便改个字母，访问一下看看是不是能得到正确的结果，由此来验证它是否是很重要的加密参数。

解决思路：对于这样的加密参数，可以尝试通过debug JS来找到对应的JS加密算法，其中关键的是在Chrome里面设置“XHR/fetch Breakpoints”。

3）JS反调试（反debug）

前面我们都用到了Chrome 的F12去查看网页加载的过程，或者是调试JS的运行过程。

不过这种方法用多了，网站就加了反调试的策略，只有我们打开F12，就会暂停在一个“debugger”代码行，无论怎样都跳不出去。

不管我们点击多少次继续运行，它一直在这个“debugger”这里，每次都会多出一个VMxx的标签，观察“Call Stack”发现它好像陷入了一个函数的递归调用。

这个“debugger”让我们无法调试JS，但是关掉F12窗口，网页就正常加载了。

解决思路：“反-反调试”，通过“Call Stack”找到把我们带入死循环的函数，重新定义它。
JS的运行应该停止在设置的断点处，此时该函数尚未运行，我们在Console里面重新定义它，继续运行就可以跳过该陷阱。

4）JS发送鼠标点击事件

有些网站它的反爬都不是上面的方式，你从浏览器可以打开正常的页面，而在requests里面却被要求输入验证码或重定向其它网页。

可以试着从“Network”看看，比如下面这个Network流里面的信息：

认真看看后会发现，每点击页面的的链接，它都会做一个“cl.gif”的请求，它看上去是下载一个gif图片，然而并不是。

它请求时发送的参数非常多，而且这些参数都是当前页面的信息。比如包含了被点击的链接等等。

先来顺一下它的逻辑：

JS会响应链接被点击的事件，在打开链接前，先访问cl.gif，把当前的信息发送给服务器，然后再打开被点击的链接。服务器收到被点击链接的请求，会看看之前是不是已经通过cl.gif把对应信息发过来，如果发过来了就认为是合法的浏览器访问，给出正常的网页内容。

因为requests没有鼠标事件响应就没有访问cl.gif的过程就直接访问链接，服务器就拒绝服务。

逻辑绕明白了就好办了！

解决思路：在访问链接前先访问一下cl.gif即可，关键是要研究cl.gif后的参数，把这些参数都带上问题就不大了，这样就可以绕过这个反爬策略。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

js爬虫反扒的相关文章

即使使用 return 语句，带有 forEach 的函数也返回未定义

我只是创建一个函数来检查对象数组中某些内容的值但由于某种原因它不断返回undefined 这是为什么 Demo http jsfiddle net cNYwz 1 http jsfiddle net cNYwz 1 var data Ke
QFileDialog 作为 TableView 的编辑器：如何获取结果？

我正在使用一个QFileDialog作为某些专栏的编辑QTableView 这基本上有效对一些焦点问题取模请参阅here https stackoverflow com questions 22854242 qfiledialog as
单击或悬停在菜单区域之外时关闭反应按钮下拉菜单

在我的反应应用程序中其中一个组件正在创建一个按钮下拉菜单如下所示 div class dropdown div
使用 jQuery 从字符中获取文本

我想在出现特定字符后从字符串中获取文本比方说文本文本文本 abc 我想得到 abc jquery 中这是如何完成的这对某些人来说可能是微不足道的但我对 jQuery 没有什么经验你可以这样做 var text texttextte
按共同日期对数组数据进行排序

我有一个包含许多行和 3 列的 csv 文件日期代表和销售额我想使用 Python 生成一个新数组该数组按日期对数据进行分组并且对于给定日期按销售额对代表进行排序例如我的输入数据如下所示 salesData 201703 B
使用 Click 在 python 中创建命令行应用程序

我正在使用 Python 创建一个命令行应用程序Click http click pocoo org 接受名称作为输入的库但如果未输入名称则返回默认值这是我到目前为止的代码 hello py import click click ve
如何使用Python从Excel复制图表并将其作为图表粘贴到powerpoint（而不是图像）中

我有一个excel文件它根据可用数据生成图表图表名称是thisChart 我想复制thisChart从 excel 文件到 ppt 文件现在我知道有两种方法可以做到这一点即VBA和python 使用win32com client V
如何使用 Anaconda Python 执行 .py 文件？

我刚刚在我的 Windows 计算机上下载并安装了 Anaconda 但是我在使用命令提示符执行 py 文件时遇到问题如何让我的计算机了解 python exe 应用程序位于 Anaconda 文件夹中以便它可以执行我的 py 文件
动态 getter 和 setter - 一种可能性

我正在尝试解决最近出现的一个问题假设我们想要并且知道如何在 javascript 中使用动态 getter 和 setter 就像 php 中的那样 get set 但由于 javascript 没有包罗万象的属性我们唯一能做的就是提供
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
树莓派上的 /dev/mem 访问被拒绝

我正在使用我的 Raspberry Pi 并且正在编写一个 cgi python 脚本该脚本创建一个网页来控制我的 gpio 输出引脚当我尝试将 RPi GPIO 作为 GPIO 导入时我的脚本崩溃了这是我收到的错误 File co
kombu.exceptions.EncodeError：用户不可 JSON 序列化

我有 django 1 11 5 应用程序和 celery 4 1 0 我一直收到 kombu exceptions EncodeError
Python，socket.error：[Errno 10049]

在开发一个简单的聊天客户端的基础上遇到以下错误 socket error Errno 10049 The requested address is not valid in its context 代码是 from socket impo
我们可以限制 luigi 任务的吞吐量吗？

我们有一个 Luigi 任务它向第三方服务请求一条信息我们对该 API 调用每分钟可以执行的调用请求数量受到限制有没有办法在每个任务的基础上指定调度程序每单位时间必须运行多少个此类任务我们在任务中实施了自己的速率限制我们的 API
使 ArrayField 的 base_field 对于 Django 中的表来说是唯一的

Goal 下面应该提出一个ValidationError gt gt gt m1 MyModel names name1 gt gt gt m2 MyModel names name1 name2 gt gt gt m1 save gt g
iframe 内 Web 元素的 QuerySelector

编辑新标题我正在寻找的是 iframe 内元素的 document querySelector 我已经用谷歌搜索了很多答案最后我被难住了我正在尝试在 iframe 内查询我正在构建要在 Selenium 中使用的字符串选择器通常
添加鼠标事件到svg ，检测网格悬停

我有一个有点复杂的问题我正在尝试通过 svg 渲染网格然后将事件侦听器添加到网格中目前我正在通过渲染网格
在 django 视图中执行阻塞请求

在我的 django 应用程序的一个视图中我需要执行相对较长的网络 IO 操作问题是其他请求必须等待该请求完成即使它们与该请求无关我做了一些研究并偶然发现了 Celery 但据我了解它用于执行独立于请求的后台任务所以我不能使用任
如何使用 google.oauth2 python 库？

我试图对谷歌机器学习项目的安全预测端点进行简单的休息调用但它找不到 google oauth2 模块这是我的代码 import urllib2 from google oauth2 import service account Cons
在ActivePython-2.6中安装pyCurl？

我过去曾使用过 pyCurl 并让它与我的系统默认 python 安装一起使用但是我有一个项目需要 python 更具可移植性并且我正在使用 ActivePython 2 6 到目前为止我安装任何其他模块都没有问题但安装 pyCu

随机推荐

k线图中趋势线的画法精讲

曾经有技术分析师大师把技术分析概括为一句话那就是一把直尺走天下这是画线分析方法的直观和有效的高度概括在众多的画线方法中趋势线用以衡量贵金属的价格趋势通过趋势线的方向可以明确地看出价格变动的方向一上升趋势线的画法在上升趋势中
Ubuntu下pycharm的安装和卸载

pycahrm安装首先要去pycharm的官方网站下载Linux版本的pycharm安装包如果想要下载以前版本的pycharm可以登录下方的网站去下载 https www jetbrains com pycharm download o
按摩软件仿东郊到家系统开发，上门预约系统；

按摩软件仿东郊到家系统开发上门预约系统用户端技师端商家端以及管理后台上门预约的操作 1 技师管理技师满意度进行统一跟踪评估进行分级管理分级评估 2 订单管理按订单状态分类筛选安装进度一目了然 3 智能派单根据客户位置
64位机器源码安装遇到的问题，解决，一锅端

1 如果是centos5会出现如下问题 checking host system type Invalid configuration x86 64 unknown linux gnu machine x86 64 unknown not
Hexo-零基础搭建个人博客(详解)

Hexo零基础搭建个人博客 Hexo是一个基于 node js的快速生成静态博客的开源框架支持 Markdown和大多数 Octopress 插件一个命令即可部署到 Github页面 Giteee Heroku等强大的APl 可无限扩
数据库关闭四种方式

数据库关闭四种方式 shutdown 参数默认normal abort 模拟突然掉电内存被清空内存中的数据没有写入数据文件事务被立即中断没有提交也没有回滚 immediate 强制中断当前正在运行的所有事务回滚这些事务回滚完毕
c语言编写简易的自动售货机程序

今天本来想做一个弹窗的可以输入有按钮点确定的自动售货机程序的但是因为学校没教我是自学的找了一下午不是教我如何创建的就是代码各种报错的我试了一下午都不行只能放弃了今天这串代码是根据我的c语言笔试我们有上机考试的的其中一道编程的
二、量化选股

文章目录总体介绍一基本面选股 1 因子选股判断方法五个步骤 2 风格轮动 3 行业轮动二市场行为选股 1 资金流 2 动量反转基本概念 1 行为金融学 2 阿尔法动量模型 3 一致预期 4 趋势追踪基本概念 5 筹码选股
uniGUI用Grid++Report报表插件设计保存报表(For unigui ver:0.95.0.1045)

uniGUI的0 95 0 1045版本提供了CallbackUrl 我们也可以用这个提供的回调网址来实现优秀的国产报表插件在IE Chorme FireFox中在线设计并保存报表到服务端的功能界面效果如下代码如下 unit Main
SpringBoot用线程池ThreadPoolExecutor处理百万级数据

SpringBoot用线程池ThreadPoolExecutor处理百万级数据更多优秀文章请扫码关注个人微信公众号或搜索程序猿小杨添加一背景使用JDK线程池ThreadPoolExecutor多线程异步执行批量插入更新等操作
如何优雅地用VScode在Ubuntu服务器上跑cuda代码

0 安装相关软件 VScode 及对应插件推荐VScode配置好远程服务后在服务端添加如下插件 Xming Xming X Server for Windows download SourceForge netDownload Xming
CMake Error: CMake was unable to find a build program corresponding to “Ninja“.

CMake Error CMake was unable to find a build program corresponding to Ninja 使用cmake G ninja 后出现问题报错信息如下所示 CMake Error C
关于dispose 方法的资源释放

当在程序上实现dispose 方法时当前对象所占用的资源会被释放当前对象便不能再被使用但在内存中还并不会被及时的释放要待到下次垃圾回收的时候内存才能得到释放
Redis哨兵模式高可用原理

我们知道主从复制是高可用的基石从库宕机依然可以将请求发送给主库或者其他从库但是 Master 宕机只能响应读操作写请求无法再执行所以主从复制架构面临一个严峻问题主库挂了无法执行写操作无法自动选择一个 Slave 切换为 M
javabean相关问题

目录一般情况下 javabean有哪些具体的规范 JavaBean规范在jsp页中如何实现对它页的引入 or 嵌入 1 第一种 js import 2 第二种 jsp include指令 3 第三种 jsp include动作什么是
Qt笔记8--zlib实现gzip解压

Qt笔记8 zlib实现gzip解压几个月前由于需要使用过zlib解压文本和图片现在将当初的方法记录在这里以便于后续查阅 1 功能及使用方法功能 1 解压gzip压缩的字符串 2 解压gzip压缩的图片方法 1 下载并编译zli
日常学习 mmsegmentation处理数据集和图片格式

mmsegmentation 对数据集的读取与处理对于自定义数据集需要在mmseg datasets下建立自己的数据集文件如 import os path as osp from builder import DATASETS from
BUG -- 背景图片 background-postion 值为百分比时无效

最近再写公司官网要求响应式为了图方便用百分比遇到一个bug 经过多方测试此时遇到的问题是当background size的值与容器的width height值相同时同为px或者 background postion属性值设置为百分
毕业设计-基于人工智能的脱机手写数字识别系统

目录前言课题背景和意义实现技术思路一相关背景知识介绍二基于智能优化算法的SVM在手写数字中的应用三基于智能优化算法的KELM在手写数字中的应用实现效果图样例最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
js爬虫反扒

3 js动态网页抓取方式重点许多时候爬虫取到的页面仅仅是一个静态的页面即网页的源代码就像在浏览器上的查看网页源代码一样一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的下面两种方案可用来python爬取