好斗的。开始爬行后如何更改蜘蛛设置？

2024-04-22

我无法更改解析方法中的蜘蛛设置。但这绝对是一个办法。

例如：



class SomeSpider(BaseSpider):
    name = 'mySpider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']
    settings.overrides['ITEM_PIPELINES'] = ['myproject.pipelines.FirstPipeline']
    print settings['ITEM_PIPELINES'][0]
    #printed 'myproject.pipelines.FirstPipeline'
    def parse(self, response):
        #...some code
        settings.overrides['ITEM_PIPELINES'] = ['myproject.pipelines.SecondPipeline']
        print settings['ITEM_PIPELINES'][0]
        # printed 'myproject.pipelines.SecondPipeline'
        item = Myitem()
        item['mame'] = 'Name for SecondPipeline'

但！项目将由 FirstPipeline 处理。新的 ITEM_PIPELINES 参数不起作用。开始抓取后如何更改设置？提前致谢！

如果您希望不同的蜘蛛具有不同的管道，您可以为蜘蛛设置管道列表属性，该属性定义该蜘蛛的管道。比在管道中检查是否存在：

class MyPipeline(object):

    def process_item(self, item, spider):
        if self.__class__.__name__ not in getattr(spider, 'pipelines',[]):
            return item
        ...
        return item

class MySpider(CrawlSpider):
    pipelines = set([
        'MyPipeline',
        'MyPipeline3',
    ])

如果您希望不同的项目由不同的管道处理，您可以这样做：

    class MyPipeline2(object):
        def process_item(self, item, spider):
            if isinstance(item, MyItem):
                ...
                return item
            return item

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

好斗的。开始爬行后如何更改蜘蛛设置？的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
具有多个主键的 SQLAlchemy 不会自动设置任何

我有一个简单的表 class test Base tablename test id Column Integer primary key True title Column String def init self title self
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

字符串比较。如何将字符串与 std::wstring 进行比较？ WRT STRCMP

我试图比较两种我期望在某种程度上兼容的格式因为它们通常都是字符串我尝试使用字符串和 std wstring 执行 strcmp 并且我确信 C 专家知道这根本无法编译是否可以比较这两种类型这里有简单的转换吗你需要转换你的char
java：使用扫描仪类读取文本文件并将信息存储在数组中

我有一个包含学生成绩的文本文件例如 Kim 40 45 Jack 35 40 我试图从文本文件中读取这些数据并使用扫描仪类将信息存储到数组列表中任何人都可以指导我正确编写代码吗 Code import java io import j
Laravel 门面有依赖性吗？

我读到一个类不应该有太多的依赖关系在一本书中它指出 4 个依赖项可能表明类可能做了太多事情假设我编写了一个使用 10 个依赖项的类 6 个类和 4 个外观我应该只关心这 6 个类并将它们分开还是也关心 4 个外观如果有人想知道
为什么 Jing 不允许在 id 属性中使用冒号（“:”）？

我一直在努力反对 xsd ID 不允许在 id 属性中使用冒号我第一次注意到这一点是在 Emacs 中使用 James Clark 的 nxml mode 时因为它验证了我正在使用的 XHTML 文件然后我使用 Jing 针对 RN
Jquery Ajax - Tumblr API v2

我试图深入了解 Tumblr 的黑暗世界但无法理解如何克服以下错误 Uncaught SyntaxError Unexpected token 我相信这可能是因为我正在返回 json 但尝试使用 jsonp 这是我要发送的内容 funct
互联网上的 UDP 多播？

我不确定如何最好地解决我的问题我有一个在远程计算机上运行的服务用于接收和处理 UDP 数据包我希望该服务能够将这些数据包重新发送给任何需要它们的人可能是任何人通常是一台机器但也可能更多我认为 UDP 多播将是理想的该服务可以
为什么我不能在 C# 中编写从基类到派生类的隐式运算符？

public class Derived BaseClass public Derived string name base name public static implicit operator BaseClass Derived de
如何使用 Java 从 MongoDB 读取日期（时间戳）

我正在尝试以以下格式从 MongoDB 读取日期字段 Formate YYYY MM dd HH mm ss SSSSSS 2017 01 23 10 46 07 812000 DB2 2017 01 23T16 46 07 812Z St
在 matplotlib (Python) 中使用 mplstyle 时出现错误键“axes.prop_cycle”

当我尝试使用本地加载的外部样式表时出现以下错误 Bad key axes prop cycle on line 270 in idt mplstyle You probably need to get an updated matplot
数据模板中的数据绑定不起作用

我有 UserControl 对多个演示文稿进行过滤而该演示文稿又具有 ContentControl 内容是各个演示文稿之间有所不同的单独过滤控件该方案在视觉上按预期工作但数据绑定却不然输出中没有数据绑定错误 DataContext
对布尔值使用按位非运算符 (~) 是否会引发未定义行为？

如果 C 程序将按位非运算符应用于布尔值是否会调用未定义行为例如以下程序定义明确吗 bool f false bool f2 f is f2 guaranteed to be true or is this UB bool t tr
帮助我理解 boost::bind 的用法

请看一下 Johannes Schaub 发布的示例对向量对进行排序如何根据对的第二个元素对向量对进行排序 https stackoverflow com questions 279854 how do i sort a vector
数组的 numpy.shape 中的 L 和 numpy.type 中的 32 是什么？

我正在尝试 numpy 数组的功能下面是代码 import numpy as np Z np array 0 4 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0
点列表的 3D 轮廓（凹壳）

我有一个 C 中的 Vector3 点列表我需要计算这些点的凹轮廓确实有很多参考资料特别是对于凸分辨率由于格雷厄姆算法我已经成功实现了然而由于我现在需要有效地计算凹轮廓所以我迷失了维基百科确实列出了很多用于凸计算的资源
NSOperationQueue 和 NSFetchedResultsController

我使用队列和结果控制器的组合来更新和显示一些核心数据对象在我的 uitableviewcontroller 中我每隔 X 秒调用一次主控制器对象中的方法 NSTimer scheduledTimerWithTimeInterval 2
Flutter video_player 不播放保存到应用程序目录的视频

UPDATE 我已经确认该文件存在并且可以工作只是不使用视频播放器它只是永远不会初始化当我从 xcode 调试时它不会抛出错误我正在使用 image picker 插件并对其进行了修改以选择视频在初始选择视频并在视频播放器中播
git svn clone 在 Mac OS X 上失败：“名称为‘svn_delta’的临时文件已在使用中”

我已经从 MacPorts 在我的 Mac 上安装了 git core svn 这给了我 git core 1 7 12 2 0 credential osxkeychain doc pcre python27 svn subversion
找不到 root.crt postgresql

我有一个正在使用的 postgres docker 映像并且正在其上启用 SSL 我希望它进行完全验证因为我有一个 root crt 并且希望确保所有可以使用 SSL 的证书都经过验证因此在我的 docker compose 文件中
使用 Spring 处理会话 ID

我正在尝试为 GWT 构建一个 Spring 服务器您可以将其视为 Javascript AJAX 客户端但我无法决定架构的某一点 Session应该如何创建和使用显然最简单的方法是使用 HTTP 会话 cookie 等看起来不错
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp

好斗的。开始爬行后如何更改蜘蛛设置？

好斗的。开始爬行后如何更改蜘蛛设置？ 的相关文章

随机推荐

热门标签

好斗的。开始爬行后如何更改蜘蛛设置？的相关文章