将 Scrapy 与经过身份验证（登录）的用户会话一起使用

2024-03-13

In the Scrapy 文档 https://doc.scrapy.org/en/latest/topics/request-response.html#using-formrequest-from-response-to-simulate-a-user-login，有以下示例来说明如何在Scrapy中使用经过身份验证的会话：

class LoginSpider(BaseSpider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                    formdata={'username': 'john', 'password': 'secret'},
                    callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...

我已经做到了，而且没问题。但我的问题是: 你需要做什么continue scraping with authenticated session，正如他们在最后一行评论中所说的那样？

在上面的代码中，FormRequest正在用于身份验证的有after_login函数设置为其回调。这意味着after_login函数将被调用并传递登录尝试获得的页面作为响应。

然后，它通过在页面中搜索特定字符串来检查您是否已成功登录，在本例中"authentication failed"。如果找到了，蜘蛛就结束了。

现在，一旦蜘蛛已经走到这一步，它就知道它已经成功通过身份验证，并且您可以开始生成新请求和/或抓取数据。所以，在这种情况下：

from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request

# ...

def after_login(self, response):
    # check login succeed before going on
    if "authentication failed" in response.body:
        self.log("Login failed", level=log.ERROR)
        return
    # We've successfully authenticated, let's have some fun!
    else:
        return Request(url="http://www.example.com/tastypage/",
               callback=self.parse_tastypage)

def parse_tastypage(self, response):
    hxs = HtmlXPathSelector(response)
    yum = hxs.select('//img')

    # etc.

如果你看here https://web.archive.org/web/20110517140553/http://dev.scrapy.org/wiki/CommunitySpiders#SilverStripeCMSdemospiderwithloginhandling，有一个蜘蛛在抓取之前进行身份验证的示例。

在这种情况下，它处理的事情parse函数（任何请求的默认回调）。

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    if hxs.select("//form[@id='UsernameLoginForm_LoginForm']"):
        return self.login(response)
    else:
        return self.get_section_links(response)

因此，每当发出请求时，都会检查响应中是否存在登录表单。如果存在，那么我们知道我们需要登录，因此我们调用相关函数，如果不存在，我们调用负责从响应中抓取数据的函数。

我希望这已经很清楚了，如果您还有其他问题，请随时询问！

Edit:

好的，您想要做的不仅仅是生成一个请求并抓取它。您想要关注链接。

为此，您所需要做的就是从页面中抓取相关链接，并使用这些 URL 生成请求。例如：

def parse_page(self, response):
    """ Scrape useful stuff from page, and spawn new requests

    """
    hxs = HtmlXPathSelector(response)
    images = hxs.select('//img')
    # .. do something with them
    links = hxs.select('//a/@href')

    # Yield a new request for each link we found
    for link in links:
        yield Request(url=link, callback=self.parse_page)

正如您所看到的，它会为页面上的每个 URL 生成一个新请求，并且每个请求都会使用其响应调用同一函数，因此我们会进行一些递归抓取。

我上面写的只是一个例子。如果你想“抓取”页面，你应该看看CrawlSpider http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider而不是手动做事。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

将 Scrapy 与经过身份验证（登录）的用户会话一起使用的相关文章

为什么Python有最大递归深度？

Python有最大递归深度但没有最大迭代深度为什么递归受到限制把递归当成迭代来对待而不限制递归调用的次数不是更自然吗我只想说这个问题的根源来自于尝试实现流参见这个问题 https stackoverflow com questi
美丽的汤从谷歌搜索中提取href

谷歌搜索给出了以下 HTML 的第一个结果 h3 class r a href https rads stackoverflow com amzn click com 0470284889 class l vst em Quantitati
Pip install 导致此错误“ cl.exe' failed with exit code 2 ”

我已经阅读了有关此错误的所有其他问题但令人沮丧的是没有一个给出有效的解决方案如果我跑pip install sentencepiece在命令行中它给出了以下输出 src sentencepiece sentencepiece wra
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
使用信号时出现 django TransactionManagementError

我有一个与 django 的用户和 UserInfo 一对一的字段我想订阅用户模型上的 post save 回调函数以便我也可以保存 UserInfo receiver post save sender User def saveUse
创建一个打开文件并创建字典的函数

我有一个正在处理的文件我想创建一个读取文件并将内容放入字典中的函数然后该字典需要通过 main 函数传递这是主程序它无法改变我所做的一切都必须与主程序配合 def main sunspot dict file str raw in
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
属性错误：类型对象“图像”没有属性“打开”

Exception in Tkinter callback Traceback most recent call last File C Python34 lib tkinter init py line 1482 in call retu
如何使用 jira-python 设置 fixVersions 字段

我正在尝试使用 jira python 模块 http jira python readthedocs org en latest 更新现有的 JIRA 具体来说我正在尝试设置问题的fixesVersion 列表我已经尝试了一段时间但没
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
提交表格并上传带有请求的文件

我正在努力提交特定的表格蟒蛇请求 http www python requests org 我想使用它的网站上的其他表单工作正常我可以提交登录表单等这只是我遇到问题的文件上传显然提交表单效果很好因为我从网站收到一条消息说请返回
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
为 Python 2.4 改进“with”语句的直接替换

您能否建议一种方法来编写可在 Python 2 4 中使用的 with 语句的直接替换代码这将是一个 hack 但它可以让我更好地将我的项目移植到 Python 2 4 EDIT 删除了不相关的元类草图只需使用 try finally
如何在 Python 中执行相当于预处理器指令的操作？

有没有办法在 Python 中执行以下预处理器指令 if DEBUG lt do some code gt else lt do some other code gt endif There s debug 这是编译器预处理的特殊值 if
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i

随机推荐

Percona 的 pt-table-sync：如何在多个表上运行？

在命令行中这将成功更新 table1 pt table sync execute h host1 D db1 t table1 h host2 D db2 但是如果我想更新多个表我不知道如何编写它这也只更新 table1 并忽略其他
警告：道具类型失败：未在“DimensionPicker”中指定必需的道具“dimensionName”。检查`Connect(DimensionPicker)`的渲染方法

我有以下 Redux React 组件 import PropTypes React Component from react import Select from react select class DimensionPicker ex
为什么不同的批量大小在 Keras 中给出不同的精度？

我使用 Keras 的 CNN 对 MNIST 数据集进行分类我发现使用不同的批量大小会产生不同的精度为什么会这样呢使用批量大小 1000 https i stack imgur com Ad4oO png 加速器 0 97600 使
NSURLConnection 授权标头不起作用

我试图通过 NSURLConnection 在 HTTP 标头中发送 OAuth 访问令牌但它似乎没有发送标头因为 API 不断给我一个错误指出必须提供授权令牌这是我正在使用的代码 NSURL aUrl NSURL URLWith
如何以 bgra8Unorm 像素格式在 MTLTexture 上绘图

当我绘制时我的代码可以工作MTLTexture with rgba32Float像素格式我可以采取CVPixelBuffer出来了 But FlutterTexture需要bgra8Unorm格式我不想转换CVPixelBuffer由于
纯CSS响应式文字效果

我的问题很简单考虑以下CodePen https codepen io rachsmith pen BNKJme 我是否可以仅使用 css 获得相同的结果换句话说如果不使用javascrip 这将如何完成非常感谢 div class
更改laravel sql查询的默认日期格式

我想将以下 SELECT 查询的日期输出更改为 DD MM YYYY 格式请建议这是我到目前为止所尝试的 gt select time sheets progress DATE FORMAT time sheets date d l Y
Objective-C 代码可以调用 Swift 类扩展吗？

我搜索了一些帖子我认为我无法在 Swift 下编写扩展并从 Objective C 代码中调用它对吗 objc像属性只支持方法类协议您可以编写 Swift 扩展并在 Objective C 代码中使用它使用 Xcode 6 1
Android Wear 中的 WebView 在运行时出现错误

我正在尝试为 Android Wear 制作一个网络浏览器并且我正在使用 Android Studio 我的膨胀代码 Override protected void onCreate Bundle savedInstanceState s
获取Dictionary中包含值x的所有键

我有这个 Dictionary
如何将实时数据从生产 App Engine 应用程序获取到本地开发应用程序？

我想知道是否有人有关于如何配置 AppEngine remote api 的指示以便我可以在本地调试我的代码但使用 remote api 从我的服务器获取一些数据这样我就可以根据真实信息进行测试 Thanks 如果您想使用 High
读取相当大的 JSON 文件 [重复]

这个问题在这里已经有答案了我有一些大的 json 编码文件最小为300MB 其余的都是多个 GB 从 2GB 到 10GB 不等尝试在 Python 中加载文件时我似乎内存不足我尝试使用此代码来测试性能 from datetime
与移动构造函数配对时发生意外的析构函数调用

以下代码是在 Visual Studio 2012 Express for Windows Desktop 中编译并运行的作为学习练习 include
什么时候应该将任务视为“长时间运行”？

在处理任务时经验法则似乎是线程池通常由例如调用Task Run or Parallel Invoke 应该用于相对较短运营当处理长时间运行的操作时我们应该使用TaskCreationOptions LongRunning标志是为了
在 VS2015 中调试运行单元测试时出现 DisconnectedContext 错误

我在 VS2015 Enterprise 中运行单元测试时遇到这个问题每当我在调试模式下运行任何单元测试时都会收到以下错误托管调试助手 DisconnectedContext 在 my path to VS COMMON7 IDE C
将 dash_html_components 传递到 Jinja 模板中

我正在使用 Python 库 Dash 文档声称它不支持使用仪表板 html 代码编写原始 html 的功能是否有已知的解决方法例如传递dcc Graph into render template 与烧瓶我想要迁移到 Jinja 模板
PHP 浮动错误：PHP 挂在数值上

我刚刚读了一篇关于 php 挂在某些浮点数上的有趣文章请参阅登记册 http www theregister co uk 2011 01 04 weird php dos vuln and 探索二进制 http www exploring
“iddata”类型的输入参数未定义函数“minus”

这是后续我之前遇到的一个问题 https stackoverflow com questions 45688607 我想给信号一个偏移量然后在其中添加一些延迟并计算 RMSE 但是在求差时我遇到以下问题我想请教以下问题我该如何解决上述
MailKit OAuth2.0 身份验证失败异常

我使用以下代码来获取访问令牌并连接到邮件文件夹 var confidentialClientApplicationBuilder ConfidentialClientApplicationBuilder Create clientId Wi
将 Scrapy 与经过身份验证（登录）的用户会话一起使用

In the Scrapy 文档 https doc scrapy org en latest topics request response html using formrequest from response to simulate

将 Scrapy 与经过身份验证（登录）的用户会话一起使用

将 Scrapy 与经过身份验证（登录）的用户会话一起使用 的相关文章

随机推荐

热门标签

将 Scrapy 与经过身份验证（登录）的用户会话一起使用的相关文章