在 init 上使用 scrapy 管道中的参数

2023-11-27

我有一个 scrapy pipelines.py 我想获得给定的参数。在我的 Spider.py 中，它工作得非常完美：

class MySpider( CrawlSpider ):
    def __init__(self, host='', domain_id='', *args, **kwargs):

        super(MySpider, self).__init__(*args, **kwargs)
        print user_id
        ...

现在，我需要 pipelines.py 中的“user_id”来创建像“domain-123.db”这样的 sqlite 数据库。我在整个网络上搜索我的问题，但找不到任何解决方案。

有人能帮我吗？

PS：是的，我尝试了管道类中的 super() 函数，例如间谍.py，但它不起作用。

设置里面的参数spider的构造函数：

class MySpider(CrawlSpider):
    def __init__(self, user_id='', *args, **kwargs):
        self.user_id = user_id

        super(MySpider, self).__init__(*args, **kwargs)

并在中阅读它们open_spider()你的管道的方法：

def open_spider(self, spider):
    print spider.user_id

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

arguments

Scrapy

在 init 上使用 scrapy 管道中的参数的相关文章

在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
如何在Python中循环并存储自变量中的值

我对 python 很陌生所以这听起来可能很愚蠢我进行了搜索但没有找到解决方案我在 python 中有一个名为 ExcRng 的函数我可以对该函数执行什么样的 for 循环以便将值存储在独立变量中我不想将它们存储在列表中而是
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

将 RTF 文本从数据库加载到 TRichEdit

我目前正在将我们的软件解决方案从 Delphi 7 迁移到 2010 大部分更改都很简单只剩下少量障碍在表单上我们使用 TRichEdit 它显示从 MSSQL 数据库中的 blob 字段抓取的 rtf 文本 Delphi 7 中是这
如何在常规管道作业中触发多分支管道 Jenkins 作业？

我想触发特定的多分支管道作业 maven 发布工作流程测试特定分支在常规管道作业中是否有我需要指定的特殊 build 命令模式代码片段生成器仅打印没有这样的工作 maven release workflow test 通过反复
根据元素在另一个已排序列表中的位置对 python 中的列表进行排序

我想根据预先排序的列表对 Python 中的列表进行排序 presorted list 2C 3C 4C 2D 3D 4D unsorted list 3D 2C 4D 2D 我该如何排序unsorted list使得这些值以相同的顺序出现
Angular 6 HTML选择菜单设置默认值

我习惯了旧的 AngularJS 方式来选择菜单和选择默认值等但我很难理解如何在 Angular 中执行此操作 6 我有一系列菜单项 fontChoices label Trebuchet value Trebuchet MS Helve
Updatepanel 提供完整回发而不是异步回发

我遇到了一个似乎非常著名的问题我的 updatepanel 触发完整回发而不是异步回发正常的解决方案是为所有动态添加的控件提供一个 ID 我已经这样做了但我仍然得到完整的回发而不是异步回发这是代码 HTML
如何在 matplotlib 中绘制 3D 旋转图？

假设您有一条 2D 曲线例如 from matplotlib import pylab t numpy linspace 1 1 21 z t 2 pylab plot t z 产生我想进行一场革命来实现 3d 绘图参见http re
如何在Android项目中使用ThreeTenABP

我使用的是 Android Studio 2 1 2 我的 Java 设置如下 gt java version gt openjdk version 1 8 0 91 gt OpenJDK Runtime Environment build
Linq to Entities 中的动态 where 子句

我正在使用 linq toEntity EF 我有一个带有 4 个字符串参数的构造函数根据哪个参数不为空我必须构建 linq 查询我可以使用 if else 语句但我还有其他带有 10 个参数的构造函数在这种情况下将会有很多组合
在 SQL Server 上逐字使用 SOUNDEX()

这是我的问题例如我有一张桌子Products包含一个字段 Name Products ID Name 1 USB Key 10Go 2 Intel computer 3 12 inches laptop computer 我目前正在为 i
C# 中的 FlowDocument 内存问题

我目前正在尝试解决释放 FlowDocument 资源的问题我正在加载一个 rtf 文件并使用 TextRange Load 将其放入 FlowDocument 中我注意到在执行此操作后它会保留这些资源并且 GC 不会收集它我运
控制台应用程序中的 Twitter OAuth

是否可以在不访问身份验证网页的情况下对 Twitter 控制台应用程序进行授权我需要它因为我正在开发可以从我们公司 Twitter 获取直接消息的应用程序该控制台应用程序安排在 Web 服务器上而不是由人类驱动问候阿列克谢扎哈
如何在 nhibernate 中复制和重试死锁

查看我的日志我可以看到我的应用程序很容易出现死锁它们出现在我的应用程序的许多部分 1 有没有办法复制这个问题即我只在日志中看到过这一点 2 如果事务被锁定重试的最佳最简单方法是什么 3 如果我将调用包装在 try catch 中
如何指定属性必须是（比如说）整数列表，而不仅仅是列表？

使用属性库和 Python 3 6 我认为以下内容可以让我指定x and y只能包含整数 import attr attr s class C x List int attr ib not working y attr ib type Li
内存目标 BTS 为何会比 load / BTS reg,reg / store 慢得多？

在一般情况下可以使用内存或寄存器操作数的指令如何会比内存操作数慢 mov mov gt 指令 gt mov mov 基于发现的吞吐量和延迟Agner Fog 的说明书以我为例查看 Skylake p238 我看到以下数字btr bts
Resharper 格式化链式方法

R 中是否有设置将链接方法格式化为从实例化类的相同字符开始我想要的是 var foo new FooDataBuilder WithDate myDate WithBar myBar Build R 给了我什么 var foo new F
如何在 Windows 中注册自定义 URL 协议？

如何向 Windows 注册自定义协议以便在单击电子邮件或网页中的链接时打开我的应用程序并将 URL 中的参数传递给它 Go to Start然后在Find type regedit gt 它应该打开注册表编辑器 Click Right
ASP.NET MVC 获取视图的最后修改日期/文件信息

我需要在工作申请的每一页上注明最后修改日期我曾经通过在 WebForms 母版页底部包含对的引用来实现此目的该引用将返回当前 aspx 页面的上次修改日期我的代码甚至会检查关联的 aspx cs 文件比较上次修改日期并返回最近的
.Net枚举winforms字体样式？

我一直在寻找一种使用 Net 框架列出给定字体的有效字体样式的方法即使我必须 pinvoke gdi32 或其他一些 API 因为并非所有字体都属于 System Drawing FontStyle 枚举值粗体斜体常规删除线下划
自定义WPF窗口样式

我正在尝试制作自定义窗口样式目标是创建一个可以被我的应用程序中的每个窗口使用的模板模板包含工具栏标题和窗口将使用的区域问题是当我使用我的样式时我无法再添加网格和控件 App xaml
在 __init__ 上使用 scrapy 管道中的参数

我有一个 scrapy pipelines py 我想获得给定的参数在我的 Spider py 中它工作得非常完美 class MySpider CrawlSpider def init self host domain id args

在 __init__ 上使用 scrapy 管道中的参数

在 __init__ 上使用 scrapy 管道中的参数 的相关文章

随机推荐

热门标签

在 init 上使用 scrapy 管道中的参数

在 init 上使用 scrapy 管道中的参数的相关文章