将登录表单与 scrapy 一起使用

2023-11-30

scrapy框架（https://github.com/scrapy/scrapy）提供了一个库，供登录需要身份验证的网站时使用，https://github.com/scrapy/loginform.
我已经浏览了这两个程序的文档，但是我似乎无法弄清楚如何让 scrapy 在运行之前调用登录表单。只需登录表单即可正常登录。
Thanks

loginform只是一个库，与 Scrapy 完全解耦。

您必须编写代码以将其插入您想要的蜘蛛中，可能是在回调方法中。

以下是执行此操作的结构示例：

import scrapy
from loginform import fill_login_form

class MySpiderWithLogin(scrapy.Spider):
    name = 'my-spider'

    start_urls = [
        'http://somewebsite.com/some-login-protected-page',
        'http://somewebsite.com/another-protected-page',
    ]

    login_url = 'http://somewebsite.com/login-page'

    login_user = 'your-username'
    login_password = 'secret-password-here'

    def start_requests(self):
        # let's start by sending a first request to login page
        yield scrapy.Request(self.login_url, self.parse_login)

    def parse_login(self, response):
        # got the login page, let's fill the login form...
        data, url, method = fill_login_form(response.url, response.body,
                                            self.login_user, self.login_password)

        # ... and send a request with our login data
        return scrapy.FormRequest(url, formdata=dict(data),
                           method=method, callback=self.start_crawl)

    def start_crawl(self, response):
        # OK, we're in, let's start crawling the protected pages
        for url in self.start_urls:
            yield scrapy.Request(url)

    def parse(self, response):
        # do stuff with the logged in response

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

authentication

Scrapy

将登录表单与 scrapy 一起使用的相关文章

Django：将博客条目查看次数增加一。这有效率吗？

我的索引视图中有以下代码 latest entry list Entry objects filter is published True order by date published 10 for entry in latest ent
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
带有客户端证书身份验证的curl

我们喜欢使用客户端证书身份验证而不是基本身份验证来访问网络服务器证书是 PEM 证书密钥文件是单独的文件卷曲调用如下所示 curl v cert cert crt key key key pass foobar https tests
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

在 JavaScript 中将一个项目从一个数组添加到另一个数组之前比较两个数组[关闭]

Closed 这个问题需要多问focused 目前不接受答案我有两个数组 var addFrom orange banana watermelon lemon peach var addTo pear tangerine grape or
C++ 类和相互链接的对象形成一个循环

我怎样才能实现在C 中形成循环的互锁对象结构 class Foo Bar bar class Bar Foo foo Foo h include
如何从 setTimeout 做出承诺

这不是一个现实世界的问题我只是想了解如何创建承诺我需要了解如何对不返回任何内容的函数做出承诺例如 setTimeout 假设我有 function async callback setTimeout function callback
ASP.NET Boilerplate (Core 2.0 + Angular 5) 免费模板中的 Promise 错误

我一直在使用 ASP NET Boilerplate 通过使用自定义 API 的 REST API 客户端如 Postman 对数据库进行 CRUD 操作到目前为止它运行得很好但是当我继续到前端部分时有未处理的异常使用管理员帐户登
SQL SERVER 2008 JOIN 提示

最近我正在尝试优化这个查询 UPDATE Analytics SET UserID x UserID FROM Analytics z INNER JOIN UserDetail x ON x UserGUID z UserGUID 估计
在 Word 2010 标题中插入文本和字段而不使用 .Select

我正在尝试修复 Word 2010 页面标题其中包含文件名保存日期和页码字段以及每个字段之间的一些文本如下所示文件名保存日期选项卡页码但是我似乎无法将琴弦放在正确的位置到目前为止我所拥有的是这样的 Sub CreateH
限制每个节点的 Pod 数量

我正在尝试限制集群中每个节点的 Pod 数量我设法使用配置文件从 kubeadm init 添加每个节点的全局限制 apiVersion kubeadm k8s io v1beta1 kind ClusterConfiguration n
旋转字典的值

输入 34 apple 65 ball 32 cat 78 dog 输出 34 dog 65 apple 32 ball 78 cat 我提出了以下方法但是有没有更快的方法来执行此任务 def rotate values my dict
如何从 SPARQL 查询访问土地注册处住宅类型

我正在尝试使用 SPARQL 查询从英国土地登记处检索住宅类型 API 显示它被称为属性类型并显示有四种类型独立式公寓式半独立式联排式 API在这里 http landregistry data gov uk def commo
在推送 GitHub 期间从命令行使用 SSH 密钥？

我在 GitHub 上存档了现有的 SSH 密钥我正在尝试将更改推送到其他人的 GitHub 项目我有合作者访问该帐户系统提示我输入密码 git push warning push default is unset its impli
在 Rust 中，不匹配的arm是否会在“match”语句中获取变量的所有者？

我是 Rust 新手下面是我的测试 derive Debug enum Food Cake Pizza Salad derive Debug struct Bag food Food fn main let bag Bag food Fo
自动从网站按钮单击每日下载 csv 文件

我想自动化访问网站单击按钮和保存文件的过程在此站点上下载文件的唯一方法是单击按钮您无法使用 url 导航到该文件我一直在尝试使用 phantomjs 和 casperjs 来自动化这个过程但没有取得任何成功我最近尝试在这里使用布
在 iPhone OS 4.0 上从相机获取曝光值

拍照时可以获取相机的曝光值无需将其保存到 SavedPhotos A光度计iPhone 上的应用程序可能通过使用一些私有 API 来执行此操作该应用程序仅在 iPhone 3GS 上执行此操作因此我猜测它可能与创建图像时填充此信息的
Django get_or_create 在导入 CSV 时返回 models.DoesNotExist

我花了很长时间才弄清楚这一点我只是尝试使用 Python 的 csv 模块和 Django 的 get or create 导入 CSV 文件这是我的简单代码基于this code import csv from models imp
如何将包含指数数的字符串转换为十进制并返回字符串

我正在 delphi 和 c 之间转换代码值作为字符串存储在 delphi 应用程序的文本文件中存储值的示例为 4 42615029219009E 5 现在在我的 C 应用程序中我需要读入该字符串值然后能够再次写出该值最初我使用
BlackBerry touchEvent 外部字段触发 fieldChanged

我遇到一个问题如果我按下触摸某个字段之外fieldChanged 具有焦点的字段会触发事件我的布局MainScreen非常简单就像这样 public class myMainScreen extends MainScreen imp
使用Python抓取谷歌搜索结果标题和网址

我正在使用 Python 3 7 开发一个项目其中我需要抓取标题和 URL 的前几个 Google 结果我已经使用 BeautifulSoup 尝试过但它不起作用这是我尝试过的 import requests from my fak
Python：通过加窗的高通 FIR 滤波器

我想通过 Python 中的窗口创建一个基本的高通 FIR 滤波器我的代码在下面并且是故意惯用的我知道你很可能可以用 Python 中的一行代码来完成这个但我正在学习我使用了带有矩形窗口的基本 a sinc 函数我的输出适用
如何清除字符串文字池中的条目[重复]

这个问题在这里已经有答案了可能的重复 String intern 的垃圾收集行为 Java 如何存储字符串以及子字符串内部如何工作根据我的说法声明为 null 时的 String 引用不会从字符串文字池中删除该条目我想知道如何清除它
将登录表单与 scrapy 一起使用

scrapy框架 https github com scrapy scrapy 提供了一个库供登录需要身份验证的网站时使用 https github com scrapy loginform 我已经浏览了这两个程序的文档但是我似乎无法弄

将登录表单与 scrapy 一起使用

将登录表单与 scrapy 一起使用 的相关文章

随机推荐

热门标签

将登录表单与 scrapy 一起使用的相关文章