Scrapy：遇到302时如何停止请求？

2024-03-21

我正在使用 Scrapy 2.4 从 start_urls 列表中抓取特定页面。这些 URL 中的每一个可能都有 6 个结果页面，因此我请求全部结果页面。

然而，在某些情况下，只有 1 个结果页面，所有其他分页页面都会返回 302 到 pn=1。在这种情况下，我不想跟随 302，也不想继续查找页面 3、4、5、6，而是继续查找列表中的下一个 URL。

在出现 302/301 的情况下如何退出（继续）此 for 循环以及如何不遵循该 302？

def start_requests(self):
    for url in self.start_urls:
        for i in range(1,7): # 6 pages
            yield scrapy.Request(
                url=url + f'&pn={str(i)}'
            )

def parse(self, request):

    # parse page
    ...

    # recognize no pagination and somehow exit the for loop
    if not response.xpath('//regex'): 
        # ... continue somehow instead of going to page 2

你的方法的主要问题是从start_requests我们无法预先知道存在多少有效页面。

处理此类案件的常用方法
就是用这种方式来逐个调度请求而不是循环：

class somespider(scrapy.Spider):
...
    def start_requests(self):
        ...
        for u in self.start_urls:
            # schedule only first page of each "query"
            yield scrapy.Request(url=u+'&pn=1', callback=self.parse)

    def parse(self, response):
        r_url, page_number = response.url.split("&pn=")
        page_number = int(page_number)
        ....
        if next_page_exists:
            yield scrapy.Request(
            url = f'{r_url}&pn={str(page_number+1)}',
            callback = self.parse)
       else:
           # something else
           ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy：遇到302时如何停止请求？的相关文章

区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
Pandas如何按时间段过滤DataFrame

我有一个包含下表的文件 Name AvailableDate totalRemaining 0 X3321 2018 03 14 13 00 00 200 1 X3321 2018 03 14 14 00 00 200 2 X3321 20
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

随机推荐

Breezejs EntityManager MetadataStore 和 fetchEntityByKey

我有一个 SPA 应用程序 durandaljs 并且有一条特定的路线可以在其中映射我想要获取的实体的 id 模板是 todoDetail id 例如 todoDetail 232 或 todoDetail 19 在 viewmodel
Android 中具有负半径的形状角

我想创建一个带有角的复合视图如下所示这在 Android 中怎么可能呢如果有人遇到同样的问题最好的方法是使用 9 png 绘图在 xml 中这是不可能的
default_batch_fetch_size推荐值

我正在学习一些休眠教程并陷入了default batch fetch size 阅读专家评论 Hibernate 可以用于性能敏感的应用程序吗 https stackoverflow com questions 651664 can hi
修改 bootstrap Popover Html 内容不持久

我有以下弹出窗口设置弹出图标启动器
CURL 命令行 URL 参数

我正在尝试发送DELETE使用 CURL 进行带有 url 参数的请求我在做 curl H application x www form urlencoded X DELETE http localhost 5000 locations
强制在 IE 中重新应用样式表

考虑这个 HTML ul li first li li second li li third li ul 这个CSS li first child background yellow 还有这个 JavaScript jQuery ul ap
创建多态透镜

我能够为最后一个字段创建一个镜头 c 在我的数据类型中执行以下操作 LANGUAGE DuplicateRecordFields data X1 a c X1 a a b Int c c data X2 a b c X2 a a b b c
如何在 PyQt 中自定义 QCompleter 弹出窗口？

我有一些对于 QLineEdit 的 QCompleter 的定制感兴趣的东西我想让它的行为类似于 Chrome 中的地址搜索栏如何限制显示的行数例如即使有 15 个匹配项我也只希望 QCompleter 显示 5 个如何调整
SQLite - 将带有换行符的字符串从csv文件插入数据库

All 我正在尝试将长文本条目注入 SQLite 数据库的 TEXT 字段中该文本中有新行即它跨越多个段落如果我手动执行 INSERT 我可以显示新行 INSERT INTO LOGENTRY VALUES 5 40 PLACE li
如何截断 .net 中的日期？

除了 DateTime ctor new DateTime year month day 之外还有其他方法来截断日期吗日期时间日期 http msdn microsoft com en us library system dateti
如何将更多参数传递给令牌端点 Web api 2

我需要将更多参数传递给令牌端点如下所示 grant type 密码用户名 Alice 密码密码123 peop1 值 Prop2 值获取令牌我如何传递这些以及我可以在服务器上哪里获取它们 OAuth2 资源所有者密码流定义了这些参
查找给定文本中的子字符串.. C 程序

char substring char text int position int length int i j 0 char temp for i position 1 i
无法以json格式将数据从php添加到jqGrid

你好 StackOverFlow 国家我正在尝试向 jqGrid 添加信息该信息是从 MySQL 数据库检索的我有两个文件 gt index html 和 data php 都在同一目录中 index html 来源 gt
SQL |返回最小值 |动态多行

我需要创建一个查询仅返回特定列中具有最小值的行我有这个结果示例 Name Description Order Name1 A 1 Name1 B 2 Name1 C 3 Name2 A 1 Name2 B 2 Name2 C 3 我想
按字典顺序比较字符串

我认为如果我在 C 中使用 gt 和 if aa gt bz cout lt lt Yes 这不会打印任何内容这就是我需要的但是如果我输入 if aa gt bzaa cout lt lt Yes 这将打印是为什么会发生这种情况或
将 MySQL 列值设置为 NULL 而不是 0 或 '' 对磁盘空间的影响

我试图了解处理大部分为空的列的最佳方法磁盘空间 and 指数表现将所有空位放入 NULL 与对于 varchar text 与 0 对于 int 之间有区别吗 Thanks 不使用 NULL 不会比空占用更少的空间VARCHAR or
Facebook 分享“可点击”网址链接问题

我在 Facebook 中遇到可点击 url 链接的问题正如您所看到的 nr 1 不可点击但 nr 2 和 3 可以点击有时它是可点击的有时则不可点击随机我想要的是所有共享链接都不像 nr 1 那样可点击我怎样才能解决这个问
jQuery .slideUp 问题

slideDown 工作正常当第二次单击链接时会再次出现 slideDown 动画而不是 slideUp 请帮我一下谢谢 document ready function toggleButton click function if
mysqldump 命令中的语法错误

mysqldump mydatabase lt my path to sqlfile sql 这是我下达的命令这个语法错误的原因可能是什么我很确定它是正确的我正在尝试将 sql 文件加载到我的数据库中 use mysqldump u
Scrapy：遇到302时如何停止请求？

我正在使用 Scrapy 2 4 从 start urls 列表中抓取特定页面这些 URL 中的每一个可能都有 6 个结果页面因此我请求全部结果页面然而在某些情况下只有 1 个结果页面所有其他分页页面都会返回 302 到 pn

Scrapy：遇到302时如何停止请求？

Scrapy：遇到302时如何停止请求？ 的相关文章

随机推荐

热门标签

Scrapy：遇到302时如何停止请求？的相关文章