Python爬虫抓取经过JS加密的API数据的实现步骤

2023-11-19

00969-4113027463-_modelshoot style,a girl on the computer, (extremely detailed CG unity 8k wallpaper), full shot body photo of the most beautiful.png
随着互联网的快速发展,越来越多的网站和应用程序提供了API接口,方便开发者获取数据。然而,为了保护数据的安全性和防止漏洞,一些API接口采用了JS加密技术这种加密技术使得数据在传输过程中更加安全,但也给爬虫开发带来了一定的难度。。
在面对经过JS加密的API数据时,我们需要分析加密算法和参数,以便我们在爬虫中模拟加密过程,获取解密后的数据。为了实现这一目标,可以使用Python的相关库和工具,如requests、execjs等。
原因分析及解决方案:

  1. 原因分析:JS加密算法是一种常见的数据保护方式,它可以有效地阻止未经授权的访问者获取数据。通过在API接口中使用JS加密算法,可以方确保只有经过授权的用户才能提供数据然而,这也给我们的数据挖掘工作带来了一定的难题。
  2. 解决方案:虽然JS加密算法增加了数据抓取的难度,但我们仍然可以通过一些方法来解决这个问题。以下是一种常见的解决方案:

A。分析JS加密算法:首先,我们需要分析JS加密算法的实现细节。通过查看网页源码或使用开发者工具,我们可以找到本本加密算法的相关代码。

import requests
from bs4 import BeautifulSoup

# 发起请求获取网页源码
url = "https://example.com"
response = requests.get(url)
html = response.text

# 使用BeautifulSoup解析网页源码
soup = BeautifulSoup(html, "html.parser")

# 查找JS加密算法的相关代码
js_code = ""
script_tags = soup.find_all("script")
for script_tag in script_tags:
    if "加密算法" in script_tag.text:
        js_code = script_tag.text
        break

# 打印JS加密算法的代码
print(js_code)

B.使用第三方库JS模拟环境,当我们使用第三方库来模拟JS环境,并执行JS脚本来获取解密后的数据时,可以使用PyExecJS库来实现。以下是一个示例展示,如何使用PyExecJS库来执行JS脚本并获取解密后的数据数据

import execjs
import requests

# 亿牛云爬虫代理参数设置
proxyHost = "u6205.5.tp.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 设置代理
proxies = {
    "http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}",
    "https": f"https://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}

# 执行JS脚本获取解密后的数据
def get_decrypted_data():
    with open("encryption.js", "r") as f:
        js_code = f.read()
    ctx = execjs.compile(js_code)
    encrypted_data = ctx.call("decrypt_data")
    response = requests.get(f"https://api.example.com/data?encrypted_data={encrypted_data}", proxies=proxies)
    decrypted_data = response.json()
    return decrypted_data

# 调用函数获取解密后的数据
decrypted_data = get_decrypted_data()
print(decrypted_data)

请注意,PyExecJS库可以根据您的系统环境自动选择合适的JS运行时。您需要确保已安装相应的JS运行时,如Node.js或PhantomJS。
通过分析 JS 加密算法和在 Python 中实现相同的算法,我们可以成功地抓取经过 JS 加密的 API 数据。以上是一个简单的示例,您可以根据实际情况进行相应的调整和优化。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫抓取经过JS加密的API数据的实现步骤 的相关文章

  • Lighttpd 和 cgi python

    我正在尝试通过 lighttpd 执行一些 python 脚本 但是当我尝试运行它时 我只得到一个要求我下载的空白文件 lighttpd conf server modules mod access mod alias mod access
  • python:查找围绕某个 GPS 位置的圆的 GPS 坐标的优雅方法

    我有一组以十进制表示的 GPS 坐标 并且我正在寻找一种方法来查找每个位置周围半径可变的圆中的坐标 这是一个例子 http green and energy com downloads test circle html我需要什么 这是一个圆
  • 是否有解决方法可以通过 CoinGecko API 安全检查?

    我在工作中运行我的代码 一切都很顺利 但在不同的网络 家庭 WiFi 上 我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到 在
  • 如何手动计算分类交叉熵?

    当我手动计算二元交叉熵时 我应用 sigmoid 来获取概率 然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
  • 保存为 HDF5 的图像未着色

    我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序 用HDFView 3 0打开 似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
  • 使用Python请求登录Google帐户

    在多个登录页面上 需要谷歌登录才能继续 我想用requestspython 中的库以便让我自己登录 通常这很容易使用requests库 但是我无法让它工作 我不确定这是否是由于 Google 做出的一些限制 也许我需要使用他们的 API 或
  • 使用 xlrd 打开 BytesIO (xlsx)

    我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格 使用 xlrd 应该可以 但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置 本例中的起点是一个带有上传输入和提交按钮的网页 提交后 文件被捕获req
  • 在Python中检索PostgreSQL数据库的新记录

    在数据库表中 第二列和第三列有数字 将会不断添加新行 每次 每当数据库表中添加新行时 python 都需要不断检查它们 当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息 警告 数量已降至 105 以下 另一方面
  • Docker 中的 Python 日志记录

    我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本 我正在尝试查找由 Python Logger 模块生成的日志文件 下面是我的Python脚本 import time import logging
  • 如何通过 TLS 1.2 运行 django runserver

    我正在本地 Mac OS X 机器上测试 Stripe 订单 我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
  • 不同编程语言中的浮点数学

    我知道浮点数学充其量可能是丑陋的 但我想知道是否有人可以解释以下怪癖 在大多数编程语言中 我测试了 0 4 到 0 2 的加法会产生轻微的错误 而 0 4 0 1 0 1 则不会产生错误 两者计算不平等的原因是什么 在各自的编程语言中可以采
  • 从 NumPy ndarray 中选择行

    我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组 例如 此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
  • import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

    我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
  • 为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍,而速度却没有任何提升?

    我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议 因此 我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
  • 如何解决 PDFBox 没有 unicode 映射错误?

    我有一个现有的 PDF 文件 我想使用 python 脚本将其转换为 Excel 文件 目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
  • 实现 XGboost 自定义目标函数

    我正在尝试使用 XGboost 实现自定义目标函数 在 R 中 但我也使用 python 所以有关 python 的任何反馈也很好 我创建了一个返回梯度和粗麻布的函数 它工作正常 但是当我尝试运行 xgb train 时它不起作用 然后 我
  • 将 Python 中的日期与日期时间进行比较

    所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
  • Scipy Sparse:SciPy/NumPy 更新后出现奇异矩阵警告

    我的问题是由大型电阻器系统的节点分析产生的 我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点 我正在使用scipy sparse linalg spsolve method 直到最近 一切都
  • 如何计算Python中字典中最常见的前10个值

    我对 python 和一般编程都很陌生 所以请友善 我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队 从下面的代码中 每听一首歌曲都是一个列表中的字典条目 格式如下 album Exile on Main Street
  • 使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

    作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk

随机推荐

  • ImportError: cannot import name ‘soft_unicode‘ from ‘markupsafe‘

    打开jupyter notebook报下面的错误 这里说是markupsafe有错误 查看一下是否安装了这个包 pip show markupsafe 已经有了这个包 但是还报错 经过测试发现这个2 1 3版本不兼容 回退到2 1 0才行
  • 一文搞定Nginx的压缩、黑白名单、防盗链、零拷贝、跨域、双机热备等知识

    点击上方 Java基基 选择 设为星标 做积极的人 而不是积极废人 每天 14 00 更新文章 每天掉亿点点头发 源码精品专栏 原创 Java 2021 超神之路 很肝 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框
  • C++操作SQLite数据库

    准备工作 在使用C 操作SQLite之前 需要获得sqlite3 h sqlite3 lib sqlite3 dll 大家可以在 这里 下载 并将这3个文件导入VC 工程中 其中sqlite3 dll文件放到Debug文件夹里 SQLite
  • 01一刷AD20入门教程记录

    学习视频 Altium Designer 20 19 入门到精通全38集 四层板智能车PCB设计视频教程AD19 AD20 凡亿 哔哩哔哩 bilibili 工程 安装现有元件库和封装库 AD20 1 打开优选项设置 gt Data Man
  • 分享一个多类别超实用AI工具集合网站,你想要的AI网站这里全都有

    随着Al技术的快速发展 人工智能也变成当今热门的领域之一 它正在改变着我们的生活和工作方式 今天就和大家分享一个多类别超实用AI工具集合网站 你想要的AI网站这里全都有 全网AI工具一城选择 AI 城市是一个集合了各种人工智能相关的工具和资
  • 如何判断服务器在国内还是海外?

    已知晓网站或是已知晓IP 如何判断该服务器是国内的还是海外的呢 在已知网站域名的情况下 可以通过ping网站域名来获得服务器的IP 当然有些网站是做了禁ping的 不知道IP的情况下是无法判断是国内还是海外的机器 比如咱们已知晓IP是103
  • Java响应式编程

    Java响应式编程 一 lambda表达式 1 1 lambda简介 1 2 lambda语法 1 3 FunctionalInterface 1 4 方法引用 1 5 类型推断 1 6 变量引用 1 7 级联表达式和柯里化 二 Strea
  • RFID桌面一体机在珠宝管理中的应用

    1 产品 铨顺宏 FU M6 USB N是一款以Thingamgic优异的M6e NANO模组为核心集成桌面式RFID一体机 RFID桌面工作台外观轻薄时尚 便于安装同时不影响美观 适用于进行RFID标签的读取 写入等绑定操作 同时 设备具
  • 【华为OD统一考试B卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • oracle清除试图的数据,ORACLE大表中删除部分数据最佳方案

    如果业务无法停止的话 主要有这三种思路 思路1 根据ROWID分片 再利用Rowid排序 批量处理 回表删除 在业务无法停止的时候 选择这种方式 的确是最好的 一般可以控制在每一万行以内提交一次 不会对回滚段造成太大压力 我在做大DML时
  • Python+Selenium安装及环境配置

    转自 https www cnblogs com sandysun p 7838113 html 一 Python安装 Window系统下 python的安装很简单 访问python org download 下载最新版本 安装过程与其他w
  • 摄像头网络模组的使用

    摄像头和网络模组尾线如上图所示 利用上面两个模组 打算自己做一个简单的网络摄像头 在上面的模组网站上找到对应模组的接口定义资料 因为我们要自己将对应的网线接口等接好 本模组的接口如下 具体的该模组的接线如上所示 该网络模组尾线总共有 根 根
  • B07_NumPy 高级索引(整数数组索引,布尔索引,花式索引)

    NumPy高级索引 NumPy 比一般的 Python 序列提供更多的索引方式 除了之前看到的用整数和切片的索引外 数组可以由整数数组索引 布尔索引及花式索引 整数数组索引 以下实例获取数组中 0 0 1 1 和 2 0 位置处的元素 实例
  • 文储研习社第17期

    文储研习社是文储区块链技术人员自发组织的学习交流社区 旨在于追踪区块链时下最新热点 解码热点蕴含的未知领域 享受思想交流的碰撞 欢迎志同道合的小伙伴加入我们 共同学习与成长 第17期 为了提高考证通过率 不小心搭了条链 作者 Bingo 你
  • java springboot 8080端口号冲突时 修改当前项目端口号

    背景 springboot 项目启动时报错 Web server failed to start Port 8080 was already in use 报错原因 端口被占用 解决方案 修改项目application properties
  • SpringCloud整合Eureka出现“Error creating bean with name ‘configurationPropertiesBeans‘ defined in......“

    笔者在实现SpringCloud整合Eureka注册中心时出现如下报错 org springframework beans factory BeanCreationException Error creating bean with nam
  • C++ 类:类相关的非成员函数、构造函数

    前提 仍有 Sales data 类的代码 struct Sales data std string isbn const return bookNo 返回 isbn 编号 Sales data combine const Sales da
  • cpplint在VS Code中的安装及使用

    目录 前言 Python环境的配置 在VS Code中安装相应插件 补充 如何将VS Code默认的格式化风格改为Google风格 相关链接 前言 cpplint是一款Google的代码检查工具 确定一种编码风格对于我们有非常大的帮助 也可
  • Qt视频播放器[QMediaPlayer+QVideowidget]

    目录 参考 一 安装K Lite 解码器 二 Qt代码结构 VideoPlayer pro main cpp videoplayer h 播放器 videoplayer cpp 播放器 videoplayer ui 播放器 playersl
  • Python爬虫抓取经过JS加密的API数据的实现步骤

    随着互联网的快速发展 越来越多的网站和应用程序提供了API接口 方便开发者获取数据 然而 为了保护数据的安全性和防止漏洞 一些API接口采用了JS加密技术这种加密技术使得数据在传输过程中更加安全 但也给爬虫开发带来了一定的难度 在面对经过J