有没有办法为每个蜘蛛使用单独的 scrapy 管道？

2024-02-29

我想获取不同域下的网页，这意味着我必须在命令“scrapycrawlmyspider”下使用不同的蜘蛛。但是，由于网页内容不同，我必须使用不同的管道逻辑将数据放入数据库。但对于每个蜘蛛来说，它们必须经历在 settings.py 中定义的所有管道。是否有其他优雅的方法为每个蜘蛛使用单独的管道？

ITEM_PIPELINES设置是在引擎启动期间为项目中的所有蜘蛛程序全局定义的。每个蜘蛛都不能动态更改它。

以下是一些需要考虑的选项：

更改管道代码。跳过/继续处理蜘蛛返回的项目process_item您的管道的方法，例如：

def process_item(self, item, spider): 
    if spider.name not in ['spider1', 'spider2']: 
        return item  

    # process item

改变你开始爬行的方式。做吧从脚本 http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script，根据作为参数传递的蜘蛛名称，覆盖您的ITEM_PIPELINES通话前设置crawler.configure().

也可以看看：

好斗的。开始爬行后如何更改蜘蛛设置？ https://stackoverflow.com/questions/10543997/scrapy-how-to-change-spider-settings-after-start-crawling
我可以使用蜘蛛特定的设置吗？ https://groups.google.com/forum/#!msg/scrapy-users/Uzj519saPXQ/u_lOaIh6LcsJ
使用一个 Scrapy 蜘蛛处理多个网站 https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites
相关答案 https://stackoverflow.com/a/6502863/771848

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

有没有办法为每个蜘蛛使用单独的 scrapy 管道？的相关文章

通过 add_subplot 添加子图后如何共享轴？

我有一个像这样的数据框 df pd DataFrame A 0 3 0 2 0 5 0 2 B 0 1 0 0 0 3 0 1 C 0 2 0 5 0 0 0 7 D 0 6 0 3 0 4 0 6 index list abcd A B
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

在 apache xmlrpc 客户端中记录输入/输出 xml

我正在使用 Apache xmlrpc 使用 Java 构建 xmlrpc 客户端但无法弄清楚如何记录输入输出 xml 接收和发送的原始数据我该怎么做呢谢谢我的解决方法是使用自定义传输如下所示也许有更优雅的方式来做到这一点 i
如何将字符串公式变成“真正的”公式？

I have 0 4 A1在单元格中作为字符串如何将这个字符串公式转换为真正的公式并在另一个单元格中计算其值 Evaluate可能适合 http www mrexcel com forum showthread php t 6206
按键在嵌套数组深处查找

假设我有一个对象 title some title channel id 123we options channel id abc image http asdasd com all inclusive block img jpg titl
LINQ 通常比同等的 SQL 语句慢吗

如果我编写一个包含许多 group by 子句等的大型 SQL 语句使用普通 SQL 可能是存储过程会更快吗还是 Linq 仅将其解析为非常好的 SQL 语句并很快给出结果在某些情况下你may能够比 LINQ to SQL 更好地调
如何使用 SharePoint Web 服务重命名文件？

我有一个文档库的自定义定义并且我尝试仅使用开箱即用的 Web 服务重命名库中的文档使用提供的名称字段定义视图并尝试 LinkFilename 后我对重命名文件的调用分别返回失败或忽略新值如何使用 SharePoint Web 服
实体框架、linq 函数和内存使用

我是 EF 新手我曾经使用数据集表适配器和存储过程我刚刚发现 EF 的简单性并且发现 EF 方法可以为我的开发提供很多帮助我有几个问题我试图寻找他们的答案但徒劳因为我总是与有以下情况的客户合作巨大的桌子例如我拨打这个电话的事
分割逗号分隔的字符串[重复]

这个问题在这里已经有答案了我在 R 中有一个如下形式的字符串 AAAAA BBBBB CCCCC 我想将其转换为包含相同字符串元素 AAAAA BBBBB 等的标准典型 R 向量 vector lt c AAAAA BBBBB CCCC
运算符“||”不能应用于“lambda 表达式”和“lambda 表达式”类型的操作数

我如何构建 LINQWHERE子句包含OR 我有一个对象列表我想返回那些与搜索条件匹配的对象所包含的对象有很多属性只要any符合条件我想退货 IEnumerable
当另一个进程 Window ShowInTaskbar = false 时将其置于前台

我们只希望我们的应用程序在任何时候都运行一个实例因此在启动时它会查看应用程序是否正在运行如果是它会调用设置前景窗口在主窗口上这一切都很好大多数情况下当我们的应用程序启动时它将显示一个启动屏幕和一个登录表单这两种形式都有显
如何替换 PostgreSQL 中文本列中的字符数组？

我有 2 个文本列需要将数组 1 q x y z 中的字符替换更新时为数组 2 中的索引等效值 a b c d 我最接近 atm 的方法是将替换调用嵌套在一起如下所示 UPDATE mytable SET col1 replace
如何在Rails模型的Rspec测试中禁用belongs_to :touch选项？

拥有大型模型堆栈并广泛使用娃娃缓存技术最终会在模型更新后触及许多父模型在测试时这似乎是浪费时间除非您尝试专门测试该功能有没有办法防止模型touch their belongs to测试环境或测试级别的关联更新1 我对此案的第
如何简洁地让编译器知道一个值应该是什么类型并检查它？

function use x any console log x type T A B consider all above fixed do NOT change it in your answers I am not asking ab
寻找与arm和amd64（多架构）一起运行的java映像

我们最近遇到了一个问题即并非所有 java 映像都在 MAC m1 的 ARM 操作系统上运行我们的 docker 镜像的最后一个 java 版本是 13 我们当前使用的镜像是 openjdk 13 jdk alpine 有人对我们应该
具有共享对象的 Tomcat 6 集群

我们有一个大型的 tomcat 服务器集群我正在尝试找到一种有效的方法来在所有服务器之间共享计数该计数是购买的小部件的数量需要针对每次页面浏览进行检查任何服务器都可以完成计数的销售和增量此时新值应可供所有集群成员使用我们不想
.NET 4.0 比早期版本慢，这是真的吗？ [复制]

这个问题在这里已经有答案了可能的重复 NET 4 0 运行时是否比 NET 2 0 运行时慢 https stackoverflow com questions 2864223 are net 4 0 runtime slower tha
如何让 Bootstrap（插件）的 ClockPicker 出现在 Bootstrap Modal 弹出表单中？

以下是 Bootstrap 的 ClockPicker 的链接 http www jqueryrain com B83aD dg http www jqueryrain com B83aD dg 它工作完美但是当我尝试使用它来填写 Bo
正则表达式限制特殊字符

我的表单中有一个地址字段我想限制 lt gt 我尝试过 var nospecial lt gt if address match nospecial alert Special characters like lt gt are not
EF Core 将空值插入具有默认值的可为空列

我很好奇使用 EF Core 时 SQL 中的具体场景例如有一列允许为空同时具有默认值这是不寻常的情况但这不是这里的问题问题是关于技术可能性 SomeId uniqueidentifier NULL DEFAULT newseq
使用 Office Online 对话框 API 设置对话框的恒定大小

有没有办法为使用打开的对话框设置恒定大小对话框API https dev office com docs add ins develop dialog api in office add ins 通过使用 min width max wid
有没有办法为每个蜘蛛使用单独的 scrapy 管道？

我想获取不同域下的网页这意味着我必须在命令 scrapycrawlmyspider 下使用不同的蜘蛛但是由于网页内容不同我必须使用不同的管道逻辑将数据放入数据库但对于每个蜘蛛来说它们必须经历在 settings py 中定义的所

有没有办法为每个蜘蛛使用单独的 scrapy 管道？

有没有办法为每个蜘蛛使用单独的 scrapy 管道？ 的相关文章

随机推荐

热门标签

有没有办法为每个蜘蛛使用单独的 scrapy 管道？的相关文章