python爬虫之JS混淆加密、字体反爬

2023-11-14

1.JS混淆加密

我们之前爬取有道翻译的翻译内容时,我们通过fiddler抓取url地址时,我们发现如果我们直接将相关参数传入,会报错。只是因为,某些参数是变化的。因此,我们需要解读JS文件,取得相关参数的生成算法,利用python生成参数,再传入。

我们继续以有道翻译为例讲解如何获取相关参数的生成算法,并利用python生成参数。

首先,我们使用fiddler抓取翻译所需要的全部参数,

data = {
    "i": keyword,  # 翻译内容
    "from": "AUTO",  # 源语言,固定值
    "to": "AUTO",  # 目标语言,固定值
    "smartresult": "dict",  # 智能结果,固定值
    "client": "fanyideskweb",  # 客户端,固定值
    "salt": res['salt'],  # 加密用的盐,这个值变化
    "sign": res['sign'],  # 签名字符串,这个值变化
    "ts": res['ts'],  # 毫秒时间戳,这个值变化
    "bv": res['bv'],  # 未知值,这个值变化
    "doctype": "json",  # 文档类型,固定值
    "version": "2.1",  # 版本,固定值
    "keyfrom": "fanyi.web",  # 键的来源,固定值
    "action": "FY_BY_CLICKBUTTION",  # 操作动作,固定值
}

通过分析参数我们发现需要获取salt、sign、ts和bv参数的算法。

我们进入有道翻译页面,右键“检查”-“网络”找到所有的js文件,依次进入并搜索salt、sign。

经过搜索,我们发现fanyi.js文件中有salt和sign,将fanyi.js下载并格式化。在格式化后的js文件中搜索salt,我们可以找到这样一个函数,

function (e, t) {
    var n = e("./jquery-1.7");  // e为要翻译的内容
    e("./utils");
    e("./md5");
    var r = function (e) {
        var t = n.md5(navigator.appVersion),  // t参数为经过md5加密后的浏览器版本
            r = "" + (new Date).getTime(),  // r参数为时间戳
            i = r + parseInt(10 * Math.random(), 10);  // i参数为时间戳加0-10之间随机整数
        return {
            ts: r,  // ts参数为r
            bv: t,  // bv参数为t
            salt: i,  // salt参数为i
            // sign参数为md5加密
            sign: n.md5("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU")
        }
    };
    t.recordUpdate = function (e) {
        var t = e.i,
            i = r(t);
        n.ajax({
            type: "POST",
            contentType: "application/x-www-form-urlencoded; charset=UTF-8",
            url: "/bettertranslation",
            data: {
                i: e.i,
                client: "fanyideskweb",
                salt: i.salt,
                sign: i.sign,
                ts: i.ts,
                bv: i.bv,
                tgt: e.tgt,
                modifiedTgt: e.modifiedTgt,
                from: e.from,
                to: e.to
            },
            success: function (e) {
            },
            error: function (e) {
            }
        })
    },

经过分析js代码,我们可以获取salt、sign、ts和bv参数的算法。我们下面使用python生成这些参数,

import hashlib
import time
import random


def handlerSignSalt(e):
    navigator_appVersion = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56"
    t = hashlib.md5(navigator_appVersion.encode('utf-8')).hexdigest()
    r = str(int(time.time() * 1000))  # 当前毫秒的时间戳
    i = r + str(random.randint(1, 10))  # 盐值
    return {
        'ts': r,
        'bv': t,
        'salt': i,
        'sign': hashlib.md5(str("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU").encode('utf-8')).hexdigest(),
    }

这样,我们就获取到了所有的参数,下面对有道翻译进行爬取,完整代码如下,

import requests
import hashlib
import time
import random


# e为要翻译的内容
def handlerSignSalt(e):
    navigator_appVersion = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56"
    t = hashlib.md5(navigator_appVersion.encode('utf-8')).hexdigest()
    r = str(int(time.time() * 1000))  # 当前毫秒的时间戳
    i = r + str(random.randint(1, 10))  # 盐值
    return {
        'ts': r,
        'bv': t,
        'salt': i,
        'sign': hashlib.md5(str("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU").encode('utf-8')).hexdigest(),
    }


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56",
    "Referer": "http://fanyi.youdao.com/",  # 来源是否正确
    "Cookie": "OUTFOX_SEARCH_USER_ID=-411992782@10.108.160.17; JSESSIONID=aaai8_KoEvdXw_a3gTCnx; OUTFOX_SEARCH_USER_ID_NCOO=678424169.4655154; ___rl__test__cookies=1594990510295",
}

url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"

keyword = input("请输入要查询的单词:")

res = handlerSignSalt(keyword)

data = {
    "i": keyword,  # 翻译内容
    "from": "AUTO",  # 源语言
    "to": "AUTO",  # 目标语言
    "smartresult": "dict",  # 智能结果,固定值
    "client": "fanyideskweb",  # 客户端,固定值
    "salt": res['salt'],  # 加密用的盐,这个值变化
    "sign": res['sign'],  # 签名字符串,这个值变化
    "ts": res['ts'],  # 毫秒时间戳,这个值变化
    "bv": res['bv'],  # 未知值,这个值变化
    "doctype": "json",  # 文档类型
    "version": "2.1",  # 版本,固定值
    "keyfrom": "fanyi.web",  # 键的来源,固定值
    "action": "FY_BY_CLICKBUTTION",  # 操作动作,固定值
}

response = requests.post(url, data=data, headers=headers)

dic = response.json()
print(dic['translateResult'][0][0]['tgt'])

2.字体反爬

有些网站会通过给关键字自定义字体,然后使用字体code名替换内容来使爬网站的人爬取无效字符,进而阻止一部分人爬取网站。例如,我们打开实习僧网站的其中一页,查看代码。我们看到其中的数字无法直接读取。
在这里插入图片描述
为了解决这个问题,我们需要对字体进行解析。

考虑网页渲染性能,通常把自定义的字体编码成base64,因此,我们可以在网页源代码中中查找@font-face获取编码再用python进行解码然后保存到本地,

import base64
from fontTools.ttLib import TTFont

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56",
}

fontFace = ""

# 解码base64字体文件
font_bytes = base64.b64decode(fontFace)

# 保存到本地文件
with open("shixiseng.ttf", "wb") as fp:
    fp.write(font_bytes)

之后,将字体文件转成xml,需要安装fontTools库,

pip install fontTools

字体文件转成xml,

from fontTools.ttLib import TTFont

baseFont = TTFont("shixiseng.ttf")
baseFont.saveXML('shixiseng.xml')  # 将字体文件保存为xml文件

打开xml文件,我们可以看到有字体的cmap和glyf。其中,cmap中存放的是code和name之间的关系,glyf中存放的是字体形状和name的关系。

code是显示在网页中的代码,网站开发者可能会通过修改code来干扰我们爬取。但是字体最终的形状是不变的,我们可以通过分析字体,得出每个字体形状对应的文字,然后保存到一个字典中。以后再请求网页的时候,就进行反向解析,先获取字体的形状,再通过字体形状反向获取代号所对应的具体文字内容。

代码如下,

import requests
import base64
from fontTools.ttLib import TTFont
import re
import io

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56",
}

fontFace = ""

# 解码base64字体文件
font_bytes = base64.b64decode(fontFace)

# 将字体文件保存本地
with open("shixiseng.ttf", "wb") as fp:
    fp.write(font_bytes)

# 获取形状对象
baseFont = TTFont('shixiseng.ttf')
baseGlyf = baseFont['glyf']

# 定义内容和字体形状的映射关系
baseFontMap = {
    0: baseGlyf['uni30'],
    1: baseGlyf['uni31'],
    2: baseGlyf['uni32'],
    3: baseGlyf['uni33'],
    4: baseGlyf['uni34'],
    5: baseGlyf['uni35'],
    6: baseGlyf['uni36'],
    7: baseGlyf['uni37'],
    8: baseGlyf['uni38'],
    9: baseGlyf['uni39'],
}

# 爬取网页
url = "https://www.shixiseng.com/intern/inn_t2sefv2wegpw"
resp = requests.get(url, headers=headers)
text = resp.text

# 获取当前页面的字体文件
result = re.search(r'font-family:myFont; src: url\("data:application/octet-stream;base64,(.+?)"\)', text)  # 使用正则表达式获取字体编码
font_face = result.group(1)
b = base64.b64decode(font_face)
currentFont = TTFont(io.BytesIO(b))  # 当前页面的字体
currentGlyf = currentFont['glyf']  # 当前字体的所有形状

# 获取code和name的关系
codeNameMap = currentFont.getBestCmap()
for code, name in codeNameMap.items():
    # 获取name和形状的关系
    currentShape = currentGlyf[name]
    # 循环内容和形状的字典
    for number, shape in baseFontMap.items():
        if shape == currentShape:
            # 构建网页中的code
            webcode = str(hex(code)).replace('0', '&#', 1)
            # 将网页中的code换成内容
            text = re.sub(webcode, str(number), text)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫之JS混淆加密、字体反爬 的相关文章

  • 行未从树视图复制

    该行未在树视图中复制 我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
  • 如何确定非阻塞套接字是否真正连接?

    这个问题不仅限于Python 这是一个一般的套接字问题 我有一个非阻塞套接字 想要连接到一台可访问的机器 在另一端 该端口不存在 为什么 select 仍然成功 我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
  • python - 是否可以扩展 xml-rpc 可以序列化的事物集?

    我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用 这不能开箱即用 因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
  • 在python中将文本文件解析为列表

    我对 Python 完全陌生 我正在尝试读取包含单词和数字组合的 txt 文件 我可以很好地读取 txt 文件 但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
  • Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

    我正在尝试找到解决方案 但无法理解我做错了什么 在我的 Linux 服务器上 我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
  • PIL Image.size 返回相反的宽度/高度

    使用PIL确定图像的宽度和高度 在特定图像上 幸运的是只有这一个 但这很麻烦 从 image size 返回的宽度 高度是相反的 图片 http storage googleapis com cookila 533ebf752b9d1f7c
  • “char”/“character”类型的类型提示

    char 或 character 没有内置的原始类型 因此显然必须使用长度为 1 的字符串 但是为了暗示这一点并暗示它应该被视为一个字符 如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
  • 无法打开 Python。错误 0xc000007b

    我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题 当我将它安装在我的上网本上时 我没有遇到任何问题 但现在我已经开始使用它了 我想将它安装在我的台式机上 并且我有一个 我的桌面
  • 在径向(树)网络x图中查找末端节点(叶节点)

    给定下图 是否有一种方便的方法来仅获取末端节点 我所说的端节点是指那些具有一个连接边的到节点 我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
  • 如何在python中检索aws批处理参数值?

    流程 Dynamo DB gt Lambda gt 批处理 如果将角色 arn 插入动态数据库 它是从 lambda 事件中检索的 然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
  • spacy 如何使用词嵌入进行命名实体识别 (NER)?

    我正在尝试使用以下方法训练 NER 模型spaCy识别位置 人 名和组织 我试图理解如何spaCy识别文本中的实体 但我无法找到答案 从这个问题 https github com explosion spaCy issues 491在 Gi
  • 为什么我用 beautifulSoup 刮的时候有桌子,但没有 pandas

    尝试抓取条目页面转换为制表符分隔格式 主要拉出序列和 UniProt 登录号 当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
  • select() 可以在 Windows 下使用 Python 中的文件吗?

    我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
  • 如何通过字符串匹配加速 pandas 行过滤?

    我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作 有没有快速的方法可以做到这一点 例如 In 1 df mul df 3000 2000 3 reset inde
  • Scipy 稀疏 Cumsum

    假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和 这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
  • Python组合目录中的所有csv文件并按日期时间排序

    我有 2 年的每日数据分成每月文件 我想将所有这些数据合并到一个按日期和时间排序的文件中 我正在使用的代码组合了所有文件 但不按顺序 我正在使用的代码 import pandas as pd import glob os import cs
  • 如何在sphinx中启用数学?

    我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
  • TypeError:无法使用抽象方法实例化抽象类 <...>

    这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
  • 如何将列表字典写入字符串而不是 CSV 文件?

    This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
  • 异步和协程与任务队列

    我一直在阅读有关 python 3 中的 asyncio 模块的内容 以及更广泛地了解 python 中的协程的内容 但我不明白是什么让 asyncio 成为如此出色的工具 我的感觉是 你可以用协程做的所有事情 通过使用基于多处理模块 例如

随机推荐

  • springBoot国际化的一种方式

    引言 当我们的应用面向不同国家用户时 根据不同的locale返回不同的语言信息的国际化功能就显得有必要了 一般来说国际化主要表现在前端用户界面上 在现在前后端分离的背景下 前端页面的国际化交由前端代码独立完成 少部分表现在后端上 后端主要表
  • HTML存储详解

    和大家一起先来了解一下H5之前的存储方式 cookies的诞生 http请求头上带着数据 大小只能为4K 主Domain的污染 下面是百度的一些Cookies HTTP中带 的表示 只能被服务器端修改的数据 一般用来存储身份验证等信息 co
  • 搞清axis的含义,这一篇就够了!

    文章目录 axis的含义 旁门左道式理解 二维数组中的axis 三维数组中的axis 正规理解 axis的含义 在自己分析之前先摆上官方关于多维数组中axis的值的定义 axis 0 表示第一个维度 axis 1 表示第二个维度 axis
  • Java异步调用的几种方式

    一 通过创建新线程 二 通过线程池 三 通过 Async注解 四 通过CompletableFuture 日常开发中 会经常遇到说 前台调服务 然后触发一个比较耗时的异步服务 且不用等异步任务的处理结果就对原服务进行返回 这里就涉及的Jav
  • css3 transaction display,HTML5+CSS3 本地数据库基本

    HTML5 CSS3 本地数据库基本 Web SQL Database 本地数据库 是一个已经废弃的规范 但是鉴于除了IE和Firefox 其他浏览器都已经实现了Web SQL Database 并且它还具有一些Storage 存储 所不具
  • Windows更新CUDA

    经过整整一天的奋战 终于成功更新了CUDA 特此记录一下这个艰难的过程 最最最先要确定的是 你的电脑得是支持GPU的 一 查看电脑现存CUDA版本 电脑搜索NVIDIA 在出现的页面中的左下角点击 系统信息 出现以下界面 可以看到驱动版本是
  • LXC 3.0交叉编译

    LXC交叉编译 代码下载 git clone https github com lxc lxc git 代码文件编译 编写交叉编译文件 host machine system linux cpu family arm cpu arm end
  • redis的持久化和主从复制

    什 么是redis持久化 redis作为一个键值对内存数据库 nosql 数据存储在内存当中 在处理客户端请求时 所有操作都是在内存当中运行 问题 存储在内存中的数据 只要服务器关机 内存中的数据就会消失 不仅服务器关机会造成数据消失 re
  • VMware虚拟机安装Linux系统

    文章目录 前言 一 Linux是什么 二 安装步骤 1 新建虚拟机 2 安装CentOS 7 总结 前言 之前使用VMware虚拟机安装了Windows系统 本文讲的是使用VMware虚拟机安装Linux系统 提示 以下是本篇文章正文内容
  • Modbus通信协议详解

    一 Modbus 协议简介 Modbus 协议是应用于电子控制器上的一种通用语言 通过此协议 控制器相互之间 控制器经由网络 例如以太网 和其它设备之间可以通信 它已经成为一通用工业标准 有了它 不同厂商生产的控制设备可以连成工业网络 进行
  • APPCAN + wampserver 实现简单的个人登录功能

    开发背景 Appcan wampserver 其中wampserver主要用于提供本地服务器和数据库 这是软件开发工程这门课中的一个大作业 需要实现 1 首页 index html 首页包含 滚动图片 新闻列表和导航栏 首页内容通过Requ
  • 用python编写递归爬取多重网址的网站信息

    项目组要得到这个http kalug linux org tw shawn project thesis 目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个 用迅雷 flashget好像都没这样的功能 找到给一个链
  • 经过两天的折腾,我终于写成了我的第一个flutter app程序,差点把我折磨精神崩溃了

    最近看头条 天天给我推送flutter 说flutter如何好 如何先进 如何简单 忍不住诱惑我就练练试试吧 没想到掉到了一个无底大坑 其实flutter语言本身挺简单方便 编安卓程序也很容易 关键是搭建环境和编译程序极其困难 中间各种bu
  • javascript复制到剪切板

    一 这是一个复制方法 复制到剪切板 param text returns Promise
  • 区块链技术医疗卫生领域运用综述————医药供应链(2019年4月份)

    区块链技术医疗卫生领域运用综述 医药供应链 FJTCM区块链技术开发学习小组 时间 2019 04 24 目录 摘要 1 Abstract 2 引言 3 一 医药冷链物流现状分析 4 1 发展机遇 4 2 存在的问题
  • unity,如何通过协程,将物体的颜色逐渐变浅,慢慢消失

    介绍 unity 如何通过协程 将物体的颜色逐渐变浅 慢慢消失 方法 IEnumerator Stop while sprite color a gt 0 sprite color new Color sprite color r spri
  • 论文笔记:CVPR 2022 Cross-Domain Adaptive Teacher for Object Detection

    摘要 我们解决了对象检测中的域适应任务 其中有注释的源域和没有注释的感兴趣的目标域之间存在域间隙 注 在一个数据集上训练模型 再另外一个数据集上进行预测性能下降很大 在一个数据集上训练好的模型无法应用在另一个数据集上 作为一种有效的半监督学
  • opencv轻松入门面向pythonpdf下载_小白入门到大佬都在看的Python电子书奉上!最好用的PDF...

    关注 转发 最后私信小编 资料 即可获取小编准备的pythonPDF资料啦 电子版的哦 只赠送前500位哦 书籍简介 像计算机科学家一样思考Python 第2版 本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程 贯穿全书
  • sqlmap工具学习记

    学习时间2022 7 20 既要不辜负别人也要对得起自己 1 python2 7版本下载安装 因为sqlmap依赖环境是2 7所以我们下载2 7版本 进入下载官网Download Python Python org 选择你要下载的版本 选择
  • python爬虫之JS混淆加密、字体反爬

    1 JS混淆加密 我们之前爬取有道翻译的翻译内容时 我们通过fiddler抓取url地址时 我们发现如果我们直接将相关参数传入 会报错 只是因为 某些参数是变化的 因此 我们需要解读JS文件 取得相关参数的生成算法 利用python生成参数