Python Scrapy 301 重定向

2023-12-11

在抓取给定网站时，我在打印重定向网址（301 重定向后的新网址）时遇到了一些问题。我的想法是只打印它们而不刮掉它们。我当前的代码是：

import scrapy
import os
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class MySpider(CrawlSpider):
    name = 'rust'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(LinkExtractor(), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        #if response.status == 301:
        print response.url

但是，这不会打印重定向的 url。任何帮助将不胜感激。

谢谢。

要解析任何不是 200 的响应，您需要执行以下操作之一：

项目范围

您可以设置设置HTTPERROR_ALLOWED_CODES = [301,302,...] in settings.py文件。或者，如果您想为所有代码启用它，您可以设置HTTPERROR_ALLOW_ALL = True反而。

蜘蛛范围

Add handle_httpstatus_list参数给你的蜘蛛。在你的情况下类似：

class MySpider(scrapy.Spider):
    handle_httpstatus_list = [301]
    # or 
    handle_httpstatus_all = True

请求范围

你可以设置这些meta您的请求中的关键信息handle_httpstatus_list = [301, 302,...] or handle_httpstatus_all = True对全部：

scrapy.request('http://url.com', meta={'handle_httpstatus_list': [301]})

要了解更多信息，请参阅HttpError中间件

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Python Scrapy 301 重定向的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

用不同颜色绘制线

import pandas as pd import matplotlib pyplot as plt import numpy as np df1 pd DataFrame np random randint 0 15 size 15 1
iPhone 中真正的模态 UIAlertView？

我需要运行一些取决于用户决定的验证例如如果批准超出支出限额的购买并在失败时拒绝完成操作然而看起来不可能像其他语言那样有真正的模态操作如 showmessage alert 等并且一切都是由委托完成的但后来我不知道该怎么办
未找到 javac1.8 类

我安装了两个jdk jdk 1 5和jdk 1 8 我有以下 Ant build xml 配置文件
在 Google App Engine for Python 中使用 xlsxwriter

我想知道是否有人知道如何在 Google App Engine for Python 中使用 xlsxwriter 该文档仅显示如何打开写入和保存到文件我已经研究过使用 StringIO 用于其他 Excel 库的解决方法但它们似乎无
从哪里上传应用程序二进制文件在应用程序商店

我已按照所有步骤在 https itunesconnect apple com WebObjects iTunesConnect woa 上上传我的第一个应用程序最后我上传了大图和屏幕截图我无法选择上传二进制文件现在申请状态为等待上
在 Bash 中锁定文件

我有一个问题要找到一个在 bash 中锁定文件的好概念基本上我想实现以下目标锁定文件读入文件中的数据多次用数据做事将新内容写入文件不一定到最后解锁该文件对我来说用集群执行此操作似乎是不可能的因为文件描述符只会移动一次到
SQL 按查询中指定的顺序排序

假设我有一个查询 select from Clauses where id in 0 2 5 1 3 我实际上希望按照在 where 子句中指定的顺序返回行 ID 的顺序会因查询而异并且顺序没有模式我知道可以改变数据模型创建临时表等
切片插入问题，L[1:1]

练习一些Python 这是一种很容易掌握的语言 I have gt gt gt L 1 2 3 4 gt gt gt L 1 1 1 2 3 gt gt gt L 1 1 2 3 2 3 4 所以实际上在第二行L 1 1 是空列表但是py
自动 Beta 版本与 crashlytics

我的 Android 应用程序有一个包含 crashlytics start 的库我只将 Crashlytics jar 设置为 Library 项目的依赖项构建成功我也在 app gt build gradle 文件中配置了多种风格
如何将 iCloud 权限添加到应用程序 ID？

如何将 iCloud 权利添加到应用程序 ID 我只想在 iCloud 中使用键值存储我通过编辑现有的 iOS 应用程序 ID 启用了 iCloud 然后生成新的配置文件将其安装在 XCode 中我添加了我的应用程序包 IDcom
-32768 不适合 16 位有符号值

我正在使用 PCLint v 9 00h 在我的代码中我有以下内容其中 S16 是带符号的 16 位 S16 temperatureResult 32768 除非我的大脑停止工作否则这是适合这种类型的最小值但我收到了违反 MISR
从多个值列表中查找所有不冲突的值组合

我有以下数组其中包含值数组 array array array 1 2 array a b c array x y 可以有任意数量的数组并且数组可以包含任意数量的值我目前有一段代码它将生成所有组合其中从每个数组中获取一个值例如
如何获取PHP运行的操作系统？

为了构建 unix dos 特定的脚本我需要知道我使用的是哪种操作系统我如何获得这些信息 phpinfo 告诉我更多但不太清楚我是否在 unix 上运行 PHP有很多预定义常量这通常很有用 Here PHP OS就是您正在寻找的人例
如何从存储过程发送邮件？

我需要从存储过程发送邮件我知道这是可能的我是从这个研究的link 我如何在 SMTP 服务器上进行身份验证你有什么主意吗 Thanks 您可以使用 SQL 数据库邮件 See 数据库邮件和 SQL 邮件存储过程 Transact SQ
如何使用pygtk拖动图像

如何使用 pygtk 拖动移动图像 Here是有人这样做的视频但是该人没有给出源代码这是一个小演示抱歉我不记得它到底来自哪里它与此处找到的非常相似 http www pygtk org pygtk2tutorial exampl
elasticsearch 分割文档摄取处理器

弹性搜索提供了ingest在索引文档时转换文档的机制处理器可以转换字段在索引文档中添加和删除字段对于极少数情况甚至可以编写自己的转换插件然而我找不到为单个输入文档生成多个输出文档的可能性这是否可以使用ingest弹性模块我想
我的程序如何检测它是否在特定域上运行？

我需要根据当前登录用户的位置限制应用程序的特定功能由于我必须在 Delphi 中实现此逻辑因此我不希望过度使用完整的 Active Directory LDAP 查询我当前的想法是利用 DsGetDcName 并使用 DOMAIN C
图像未存储在 sqlite 中

我制作了一个演示它将图像存储到数据库中目前我没有收到任何错误但我的图像没有存储在 sqlite 数据库中请看下面的代码并告诉我我的错误在哪里数据库管理类 sqlite3 sqlite3DatabaseObject sqlite3
如何在工作流程中仅运行失败的会话

在工作流程中存在并行和顺序连接的会话假设一些并行和顺序模式的会话失败如何仅使用失败的会话重新启动工作流程我如何在 Informatica 中进行设计为工作流程打开出错时暂停为工作流程中的每个会话启用恢复时重新启动现在如果
Python Scrapy 301 重定向

在抓取给定网站时我在打印重定向网址 301 重定向后的新网址时遇到了一些问题我的想法是只打印它们而不刮掉它们我当前的代码是 import scrapy import os from scrapy spiders import Cra

热门标签