在scrapy 使用selenium模拟登录获取cookie

2023-12-21

前言

最近有一点点爬虫需求，想总结一下scrapy框架的一些基本使用方法，加深印象，自己一直习惯使用一些脚本文件运行爬虫，面对数据量非常大，稳定性要求比较高的，效率需求比较高的情况下还是用scrapy较为合适，scrapy是一个异步的框架，所有的请求都是阻塞的，虽然在单文件脚本中也可以实现，但是代码就非常的难看，难以维护，过了几天就会忘记复杂的流程，调试起来就非常的困难，scrapy我自己用得也不多，但是觉得它非常地优秀，有成熟的中间件支持，方便的下载器，稳定性效率非常地高，但是其中的运行流程也稍微有些复杂，难以理解，异步框架处理BUG调试非常的麻烦。

初始化scrapy

首选需要安装 scrapy 和 selenium 框架。

pip install scrapy
 
pip install selenium

初始化框架

scrapy startproject testSpider

依据参考接着进入文件夹，新建爬虫文件。

cd testSpider
 
scrapy genspider myspider example.com

看看目录

selenium基本使用

selenium前言

今天只讲selenium的基本使用，scrapy框架的流程后面再总结，为什么要在在scrapy中使用selenium，因为有些目标站点的接口是通过分析非常难以复现的，通常会有一些混淆参数导致出现请求遇到拦截的情况，也就是碰到反爬虫措施了，需要分析Javascript代码，分析其中参数的意思，这种过程非常的复杂，工程量非常大，这也是目前高级爬虫的必备知识，需要一些Javascript逆向知识，例如行业中有非常著名的瑞数信息做了翻盘是属于顶尖的存在，专门在一些金融，政府网站上使用这种Javascript代码混淆技术，自己也是稍微了解了一点点。

通过selenium可以绕过一些关键的有反扒的接口，得到一些重要的信息。通常的情况就是使用selenium模拟有反爬措施的登录接口从而得到登录后cookie，然后登陆过后的接口就没有反爬措施。

下载驱动

使用selenium就需要配套的 浏览器 驱动。我配套的浏览器就是chrome，我自己的浏览器版本。

下载的版本：

然后我把浏览器驱动放在浏览器的目录,然后配置了环境变量：

关键代码

testSpider/spider/myspider.py就是关键代码，目前的代码如下：

　　import scrapy
　　class MyspiderSpider(scrapy.Spider):
　　    name = 'myspider'
　　    allowed_domains = ['example.com']
　　    start_urls = ['http://example.com/']
　　    def parse(self, response):
　　        pass

根据文章标题的需求我只需要使用在以上的文件进行编码就行了，加入要使用到其他的接口爬取方法就要去更改testSpider/setting.py里面的设置，如果感兴趣可以参考我之前的文章：使用Scrapy框架爬取V2ex看看程序员中秋节都在讨论啥

直接亮代码，拿七牛云的登录试了一下，因为感觉他比较简单，步骤较少，适合做教程分享，详细情况在注释中讲解：

　　import scrapy
　　from selenium.webdriver.chrome.options import Options
　　from selenium import webdriver
　　from selenium.webdriver.common.by import By
　　from selenium.webdriver.support.wait import WebDriverWait
　　from selenium.webdriver.support import expected_conditions as EC
　　class MyspiderSpider(scrapy.Spider):
　　    name = 'myspider'
　　    allowed_domains = ['portal.qiniu.com'] # 注意设置好允许爬取的网址列表，这里踩了坑，试了半天发现框架默认的解析器一直没有调用，要写网址的整合域名而不是单单一级域名。
　　    start_urls = ['http://example.com/']
　　    user_name = '********@**.com'
　　    password = '********'
　　    chorme_options = Options()
　　    chorme_options.add_argument("--disable-gpu")
　　    driver = webdriver.Chrome(options=chorme_options)  # 初始化Chrome驱动
　　    driver.implicitly_wait(20)
　　    headers = {
　　        'authority': 'portal.qiniu.com',
　　        'accept': '*/*',
　　        'accept-language': 'zh-CN,zh;q=0.9',
　　        'cache-control': 'no-cache',
　　        'referer': 'https://portal.qiniu.com/certificate/ssl',
　　        'sec-ch-ua': '".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"',
　　        'sec-ch-ua-mobile': '?0',
　　        'sec-ch-ua-platform': '"Windows"',
　　        'sec-fetch-dest': 'empty',
　　        'sec-fetch-mode': 'cors',
　　        'sec-fetch-site': 'same-origin',
　　        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36',
　　    }  # header
　　    cookie = {}
　　    def __del__(self):
　　        self.driver.close()
　　    def parse(self, response, *args, **kwargs):
　　        print('默认的解析器方法，接口请求内容：')
　　        print(response.json())
　　    def start_requests(self):
　　        self.driver.get(url='https://sso.qiniu.com/')  # 直接访问登录页
　　        user_input = self.driver.find_element(By.ID, 'email')  # 获取用户名输入框
　　        user_input.send_keys(self.user_name)  # 输入用户名
　　        password_input = self.driver.find_element(By.ID, 'password')  # 获取密码框
　　        password_input.send_keys(self.password)  # 输入密码
　　        self.driver.find_element(By.ID, 'login-button').click()  # 登录
　　        try:
　　            WebDriverWait(self.driver, 60).until(EC.visibility_of_element_located(
　　                (By.CLASS_NAME, "user-plane-entry")))  # 等待网页跳转，超时等待60秒
　　        except:
　　            print('登陆超时，失败')  # 等待超过了60
　　            self.driver.quit()
　　        self.cookie = self.driver.get_cookies()  # 获取cookie 此时是键值对
　　        print(self.cookie)
　　        print(self.headers)
　　        yield scrapy.Request(url='https://portal.qiniu.com/api/gaea/billboard/list?status=1', callback=self.parse,
　　                             cookies=self.cookie,
　　                             headers=self.headers)  # 迭代器 放入异步任务中请求

从日志看看效果：

已经正确打印了接口返回的内容，假如直接请求接口会报错：

总结

在scrapy 中使用selenium是一个非常常见的情况，今天只稍微做一下简单的总结，以后碰到的难点会一一记下来分享出来，敬请期待。

最后感谢每一个认真阅读我文章的人，礼尚往来总是要有的，虽然不是什么很值钱的东西，如果你用得到的话可以直接拿走：

这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在scrapy 使用selenium模拟登录获取cookie 的相关文章

BaseSpider 和 CrawlSpider 的区别

我一直在尝试理解在网页抓取中使用 BaseSpider 和 CrawlSpider 的概念我已阅读docs http doc scrapy org en latest topics spiders html但没有提及BaseSpider
元素不存在，尽管它具有 ID 属性

在 selenium excel vba 中我试图了解有关如何处理 CSS 选择器的更多信息我很想知道因为在检查带有 ID 的元素并运行代码时我收到一条消息指出未找到该元素这是到目前为止的代码 Private bot As Ne
Selenium webdriver ：列表不是通用的；它不能使用参数 `` 类型进行参数化

我试图将链接存储在列表中请按照以下代码操作 public class frameswitch public static void main String args System setProperty webdriver gecko d
如何使用 Selenium Webdriver C# 替换 innerHTML 代码？

HTML 代码
如何检查当前日期并移至下一个日期

我遇到了一个我似乎无法理解的 python 问题不确定是否需要使用 if 语句但因为我是 python 新手所以我实际上不确定如何编写这个小问题事实上这就是我遇到的问题对于出发日历我希望 python 能够执行以下操作查看
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Chrome 浏览器无法在 selenium webdriver 中打开

我的代码没有启动浏览器项目显示运行了很长时间但没有任何反应我按下打印并观察到WebDriver driver new ChromeDriver 没有被处决 package seleniumautomation import org o
如何将 chromedriver 与 selenium webdriver 代理一起使用？

我们的网络环境使用代理服务器连接到外部互联网在IE gt Internet选项 gt 连接 gt LAN设置中配置例如 10 212 20 11 8080 现在我在 chrome 和 IE 上使用 selenium webdriver
Firefox 中的文件下载对话框

我正在使用firefox进行selenium python编程自动开始下载并保存文件我已经完成了所有操作但无法下载csv文件我的python版本是2 6 6 我的selenium版本是最新版本我也尝试使用以下链接即 fp web
使用 Selenium for C# 登录 Facebook

我一直在使用 Selenium C 框架并尝试进行 facebook 登录但没有任何运气这是我到目前为止得到的基于这篇文章使用 Selenium 测试 Facebook Connect 应用程序 https stackoverflo
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
在 selenium webdriver 中打开一个新窗口而不是新选项卡

当在我的应用程序中手动单击链接时它会在 Chrome 和 IE 中的新选项卡中打开但是当我的脚本运行时该链接会在 IE 中的新窗口而不是新选项卡中打开相同的脚本在 Chrome 中按预期运行知道如何摆脱这个吗更改 IE 的默认
设置已运行的 selenium webdriver 的功能

在硒测试步骤如单击按钮中我想防止硒等待页面完成加载我无法抛出加载异常因为那样我就无法再使用该页面了可以做类似的事情如下所示 DesiredCapabilities dr DesiredCapabilities chrome d
线程“main”中的异常 java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;)

我开发的硒代码是 import org openqa selenium By import org openqa selenium WebDriver import org openqa selenium WebElement import
在不使用 Thread.sleep 的情况下单击网页后等待弹出警报

在网页上单击搜索后会弹出警报我需要等到弹出窗口出现我必须不使用 Thread sleep ExpectedConditions 类具有特定的等待警报弹出窗口的功能 WebDriverWait wait new WebDriverWai
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
如何找到Selenium WebDriver的XPath？ [复制]

这个问题在这里已经有答案了我想知道是否可以获取Web元素的XPATH test driver find elements by css selector div menu listes ul menu menu horizontal me
无法摆脱脚本中的硬编码延迟

我用 vba 结合 selenium 编写了一个脚本来解析网页中可用的所有公司名称该网页启用了延迟加载方法因此每个滚动中只有 20 个链接可见如果我滚动 2 次则可见链接数为 40 个依此类推该网页中有 1000 个可用链接我
使用 Selenium 处理验证码

我正在尝试自动化一个表单在表单提交过程中我会得到重新验证码我陷入困境并弄清楚我们如何使用 selenium webdriver 处理验证码文本虽然这个验证码正在实时进行图灵测试实施但是我仍然在寻找某种方法来处理这种情况所以你不能真

随机推荐

《LeetCode力扣练习》代码随想录——双指针法（反转链表---Java）

LeetCode力扣练习代码随想录双指针法反转链表 Java 刷题思路来源于代码随想录 206 反转链表双指针 Definition for singly linked list public class ListNode int
vue3 在vite.config中无法使用import.meta.env.*的解决办法

第一种优先使用第一种方法其中参数mode就是自定义 mode的值如果没写就是production或development import loadEnv from vite export default mode gt return
英语学习（看病篇）

一预约医生 1 基本病症 1 I feel terrible 我感觉不舒服 2 I ve been vomiting all night 我昨天吐了一晚上 3 I have diarrhea 我腹泻 4 使用医疗词汇搭配动词 have
为什么要编写测试用例，测试用例写给谁看？

为什么要编写测试用例测试用例写给谁看这个问题看似简单但却涵盖了一系列复杂的考虑因素并不太好回答为了向各位学测试的同学们解释清楚为什么编写测试用例是至关重要的我将通过以下5个方面进行展开 1 为什么要写测试用例 2 测试用例写给
石磊：BANI时代下，企业人才管理破局之道

以下内容根据用友网络副总裁用友大易联合创始人石磊于2023人才管理与HR数智化年度论坛的演讲内容整理而成过去一段时期我们会说我们生活在一个VUCA时代如今无论是全球经济环境的加速变化还是前沿技术的快速更迭我们似乎面临着更大的挑战
浅谈埃塞俄比亚阿达玛工业园区项目电力监控系统的研究与应用

摘要介绍阿达玛工业园区项目采用智能电力仪表采集配电现场的各种电参量和开关信号系统采用现场就地组网的方式组网后通过现场总线通讯并远传至后台通过Acrel 2000型电力监控系统实现配电室配电回路用电的实时监控和管理 Abstrac
Apipost：一键生成接口文档

你是否经常遇到接口开发过程中的各种问题或许你曾为接口测试与调试的繁琐流程而烦恼不要担心今天我将向大家介绍一款功能强大易于上手的接口测试工具 Apipost 并带你深入了解如何玩转它轻松实现接口测试与调试什么是Apipost Ap
全面解析找不到xinput1_3.dll无法继续执行代码的多种解决方案（实用教程）

xinput1 3 dll文件是什么 xinput1 3 dll是一个动态链接库文件它是DirectInput的组件之一 DirectInput是微软公司开发的一种输入设备驱动程序用于处理游戏控制器键盘鼠标等输入设备的信号 xinp
用户管理第2节课-idea 2023.2 后端--删除表，从零开始

一鱼皮清空model文件夹下二鱼皮清空mapper文件夹下三删除 test 测试类下的部分代码 3 1删除SampleTest 3 2删除部分代码 UserCenterApplicationTests
计算机提示vcruntime140.dll丢失的解决方法,多种修复教程分享

vcruntime140 dll是一个非常重要的动态链接库文件它包含了许多运行时的函数和类然而有时候我们可能会遇到vcruntime140 dll无法继续执行代码的问题这会给我们带来很大的困扰那么这个问题是什么原因导致的呢又应
冒泡排序/选择排序/插入排序/快速排序/归并排序/桶排序/堆排序/希尔排序/计数排序/基数排序/二分查找/广度优先搜索/深度优先搜索

排序算法冒泡排序 Bubble Sort 通过重复地比较相邻的元素并交换它们使得最大或最小的元素逐渐移动到列表的一端从而实现排序选择排序 Selection Sort 在未排序的部分中选择最小或最大的元素并将其放置在已排
使用 Helm Chart 部署分布式 GreptimeDB

GreptimeDB 作为云时代基础设施的时序数据库从第一天开始就积极拥抱云原生技术将数据库部署在 Kubernetes 上可以提供可伸缩性自愈能力和简化的部署和管理从而为应用程序提供了强大的弹性和可靠性 Helm 是一个用于管理
解决IOS上架App Store后显示语言为英文的问题

文章目录问题网页端App Store显示 PC端App Store 手机端App Store 解决方法 Flutter中配置 IOS中配置
STS、CTS、GTS、VTS测试指南

Android Security Test Suite STS 是谷歌关于android安全补丁安装情况的一个测试套件STS和security patch相关的是CTS测试新增加一项安全测试套件 STS是201808才开始测试的 Secu
网站被攻击了怎么恢复？如何在被攻击后第一时间接入高防恢复正常访问?

网站受到攻击的原因是多种多样的包括技术漏洞人为疏忽社会工程学等各种因素保护网站的安全需要综合运用技术手段当网站遭到攻击时以下几个步骤可以帮助恢复网站的正常运行 1 分析攻击首先要确认网站被攻击的类型和程度以确定所需的恢复步骤
IDEA中也能用Postman了，这款插件平替

Postman是大家最常用的API调试工具那么有没有一种方法可以不用手动写入接口到Postman 即可进行接口调试操作今天给大家推荐一款IDEA插件 Apipost Helper 写完代码就可以调试接口并一键生成接口文档而且还可以根据
服务器数据恢复-昆腾存储StorNext文件系统下raid5数据恢复案例

服务器数据恢复环境昆腾某型号存储 StorNext文件存储系统共有9个分别配置了24块磁盘的磁盘柜其中8个磁盘柜存放普通数据 1个磁盘柜存放元数据存放元数据的磁盘柜中的24块磁盘组建了8组RAID1阵列和1组4盘RAID10阵列还
基于PySide6的简易单位转换器

制作一个简易的长度和重量单位转换器在qtdesigner中设计如下的界面下图为全部控件和整体布局也可以直接复制下面代码下面是整个ui界面的 ui文件将其在vscode中新建后使用工具进行编译生成py文件即可由于上面控件中计算按钮
C++ AVL树(四种旋转,插入)

C AVL树四种旋转插入一 AVL树的概念及性质二我们要实现的大致框架 1 AVL树的节点定义 2 AVL树的大致框架三插入 1 插入逻辑跟BST相同的那一部分 2 修改平衡因子
在scrapy 使用selenium模拟登录获取cookie

前言最近有一点点爬虫需求想总结一下scrapy框架的一些基本使用方法加深印象自己一直习惯使用一些脚本文件运行爬虫面对数据量非常大稳定性要求比较高的效率需求比较高的情况下还是用scrapy较为合适 scrapy是一个异步的框架

在scrapy 使用selenium模拟登录获取cookie

总结

在scrapy 使用selenium模拟登录获取cookie 的相关文章

随机推荐

热门标签