Scrapy Crawl Spider 只刮取一定数量的层数

2024-03-20

您好，我想使用 Scrapy CrawlSpider 类抓取网络的所有页面（文档在这里 http://doc.scrapy.org/en/0.18/topics/spiders.html#crawlspider-example).

class MySpider(CrawlSpider):
    name = 'abc.com'
    allowed_domains = ['abc.com']
    start_urls = ['http://www.abc.com']

    rules = (
        Rule(SgmlLinkExtractor(allow=('item\.php', )), callback='parse_item')
    )

    def parse_item(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        ...

(1) 因此，这个蜘蛛将从 start_urls 中定义的页面 www.abc.com 开始，它会自动进行解析...然后跟踪 www.abc.com 中的每个链接，该链接位于规则对吗？我想知道有没有办法让我只能刮一定数量的层..比如说只刮第一层（直接来自 www.abc.com 的链接）？

(2) 由于我在 allowed_deomains 中定义了只有 abc.com 网址会被抓取。所以我不需要在规则中重新定义它？并做这样的事情：

Rule(SgmlLinkExtractor(allow=('item\.php', )), allow_domains="www.abc.com", callback='parse_item')

（3）如果我使用crawlspider，如果我不在spider类中定义规则会发生什么？它会抓取所有页面吗？或者它甚至不会遵循任何一条，因为规则尚未得到“满足”？

Set 深度限制 http://doc.scrapy.org/en/latest/topics/settings.html#depth-limit环境：

深度限制¶

默认值：0

任何网站允许抓取的最大深度。如果为零，不会施加任何限制。
不，您不需要添加额外的 url 检查。如果你不指定allow_domains on the Rulelevel，它只会提取带有以下内容的 URL：abc.com domain.
如果您不定义规则，它将不会提取任何 URL（将像BaseSpider).

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy Crawl Spider 只刮取一定数量的层数的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

如何在与 gcc 链接时绕过“多个定义的符号”

我使用的是具有 gcc 2 95 3 的旧系统我必须链接两个对象尽管它们彼此无关但它们每个都有相似的命名方法我无法重命名它们中的任何一个但我希望有一种方法来构建它们以免链接器抱怨它所抱怨的方法都是由对象内的类在内部调用的我能
ULP（最后一位单位）和量子（IEEE 754）之间的区别

From ULP 维基百科页面 https en wikipedia org wiki Unit in the last place John Harrison 提出的另一个定义略有不同 ULP x 是两个最近的跨界浮点数 a 和 b 之间
AWS CLI S3 调用 HeadObject 操作时发生客户端错误 (403)：禁止

我正在尝试设置 Amazon Linux AMI ami f0091d91 并使用一个脚本来运行复制命令以从 S3 存储桶进行复制 aws debug s3 cp s3 aws codedeploy us west 2 latest cod
VM实例无法访问您请求的项目不可用

刚刚登录免费的 Google 云帐户 300 美元积分看看它是否支持以 OVF 格式导出虚拟机创建了一个新项目然后单击计算 gt 计算引擎 gt VM 实例我看到以下错误消息您请求的项目无法提供屏幕上没有提供额外的信息 Goo
Java 8 的迭代器与流

为了利用广泛的查询方法包括java util stream在 Jdk 8 中我尝试设计领域模型其中 getters 的关系多重性零个或多个实例返回一个Stream
致命错误 LNK1201：写入程序数据库时出错 - Visual Studio 2003

我收到此错误 fatal error LNK1201 error writing to program database每次我编辑代码并在 Visual Studio 2003 中再次构建时如果我重新启动 VS2003 问题就解决了但每
如何在 Angular 2 中实现 SEO（元标签）（Angular 通用用于服务器端渲染）？

我正在搜索一个关于 Angular 2 的 SEO 或元标签的完整工作示例使用 Angular 通用在服务器端渲染被 facebook twiter 和其他元标签识别但我没有成功我找到了多篇文章但有不完整的没有所有源代码可用或
反应 setState 中的 setTimeout

this setState prevState gt score prevState score 10 rightAnswers prevState rightAnswers 1 currentQuestion setTimeout gt
GlassFish 4.0 w/ Jersey 返回 500 内部服务器错误，无一例外

我正在使用 GlassFish 4 0 服务器和服务器端基于 JPA 的类我想通过 JAX RS 提供这些类到目前为止这对于简单实体来说效果很好但是如果我有一个 OneToMany 关系并且有一个链接实体则服务器会返回 500
如何使用 Gradle 更改 App Bundle 生成的文件名？

因此要更改 gradle android 中生成的 APK 文件名我可以执行以下操作 applicationVariants output all outputFileName the file name that i want apk
Java + RestFB API：获取新的页面访问令牌，而不会弄乱 AppID、appSecret

我想做的事我正在尝试制作一个简单的程序一次在页面墙上发布 5 10 个状态必须完成页面的发布在页面名称下我读过大量写得很糟糕的 Facebook 开发者文档我已经到了困惑的地步我什至不知道该问什么问题所以我就是她到目前为止我
Spring 3.0 依赖注入的最小 JAR

类似于这个问题关于早期的 Spring 版本 https stackoverflow com questions 877312 what is springs minimum dependencies for dependency inje
使用 QuickBooks Web Connector 的身份验证问题：对象引用未设置到对象的实例

是的我意识到这个问题类似于发布了另一个问题 https stackoverflow com questions 21803065 authentication issue using the quickbooks web connecto
使用额外的索引键展平 DataFrame 嵌套列表/数组（对于时间序列）

我有一个结构如下的数据框这是JSON规范化的结果 mydf id colA colB colArray foo a1 b1 date data1 data2 0 1 bar a2 b2 date data1 data2 0 1 fooz
检查字符串中是否存在电话号码

嘿我想检查一下是否UITextView 也许这可能相关或不相关在文本中包含电话号码我在用Swift 2 3 但如果你把它放进去Swift 3我会尝试翻译它应该适用于这些输入例如早上好 627137152 早上好 346272171
如何使用rails 3在jQuery ajax成功方法上渲染部分

我使用 Rails 3 2 1 和 jQuery 进行 ajax 调用我的 jQuery 代码是 jQuery ajax url org pages data org id org id type POST success functio
NSTableView 选中时更改单元格颜色

这是一个macOS问题 In func tableView tableView NSTableView viewFor tableColumn NSTableColumn row Int gt NSView 我在用着 func tableV
如何让python窗口以“Always On Top”的方式运行？

我正在 python 中运行一个小程序它启动一个小窗口该窗口需要保持在所有其他窗口之上我相信这是操作系统特定的在带有 GNOME 的 GNU Linux 中是如何完成的更新 Windows 解决方案可爱的我想我已经成功了我在
如何将 eventData 传递给 .submit()？

The 文档 http api jquery com submit 没有任何如何使用的示例 submit eventData handler eventObject 我有以下函数我需要将 url 传递给 row save 函数 funct
Scrapy Crawl Spider 只刮取一定数量的层数

您好我想使用 Scrapy CrawlSpider 类抓取网络的所有页面文档在这里 http doc scrapy org en 0 18 topics spiders html crawlspider example class My

Scrapy Crawl Spider 只刮取一定数量的层数

Scrapy Crawl Spider 只刮取一定数量的层数 的相关文章

随机推荐

热门标签

Scrapy Crawl Spider 只刮取一定数量的层数的相关文章