Scrapy好像没有做DFO

2024-02-13

我有一个网站，我的爬虫需要遵循一定的顺序。例如，在开始进行 a2 之前，它需要先进行 a1、b1、c1 等操作。a、b 和 c 中的每一个都由不同的解析函数处理，并且相应的 url 在 Request 对象中创建并生成。下面粗略地说明了我正在使用的代码：

class aspider(BaseSpider):

    def parse(self,response):
        yield Request(b, callback=self.parse_b, priority=10)

    def parse_b(self,response):
        yield Request(c, callback=self.parse_c, priority=20)

    def parse_c(self,response)
        final_function()

然而，我发现爬行的顺序似乎是a1,a2,a3,b1,b2,b3,c1,c2,c3，这很奇怪，因为我认为Scrapy应该首先保证深度。

顺序不必严格，但我正在抓取的网站有一个限制，因此 Scrapy 需要在抓取 5 级 b 之前尽快开始抓取 c 级。如何才能实现这一目标？

深度优先搜索正是您所描述的：

search as deep into a's as possible before moving to b's

要更改 Scrapy 进行广度优先搜索（a1、b1、c1、a2 等），请更改以下设置：

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

*发现于doc.scrapy.org 常见问题解答 http://doc.scrapy.org/en/0.14/faq.html#does-scrapy-crawl-in-breath-first-or-depth-first-order

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

Scrapy好像没有做DFO 的相关文章

如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
超出 Google 电子表格上的 ImportXML 限制

我现在陷入了抓取问题特别是我想将作者的姓名从网页提取到谷歌电子表格其实功能 IMPORTXML A2 span class author vcard meta item 正在工作但是当我增加了要抓取的链接数量后它就开始无限加载所
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

iPhone 开发 - 限制用户与应用程序的交互并显示进度指示器

我有一个案例我从服务器获取信息我的应用程序有一个选项卡栏和导航按钮我希望应用程序显示进度指示器并禁用所有其他控件以便用户在从服务器提取数据时无法跳转我怎样才能做到这一点我想到的一种方法是显示带有进度窗口的透明视图很像消息警报窗
H2数据库：聚集索引支持

我使用 H2 数据库来存储包含大量时间序列的环境数据时间序列只是定期例如每小时一次记录在数据库中的传感器的测量值表中存储的数据 CREATE TABLE hydr dt timestamp value double sensorid
在 Skylake 上展开 1 周期循环会使性能降低 25%。 uops调度问题？

TL DR我有一个循环需要 1 个周期才能在 Skylake 上执行它执行 3 次加法 1 次增量跳转当我将其展开超过 2 次无论多少次时我的程序运行速度会慢 25 左右这可能与对齐有关但我不清楚是什么编辑这个问题曾经询
ARDUINO 常数有什么用？以前是22，现在是100

我正在使用热电偶并下载了 MAX6675 库我想知道以下几行中 ARDUINO 常量的值是做什么用的 if ARDUINO gt 100 lcd write byte 0 else lcd print 0 BYTE endif lcd p
使用 Youtube v3 API 下载字幕

在尝试使用 OAuth 2 0 授权下载视频不归我所有的字幕时我收到 403 禁止错误其中指出与请求关联的权限不足以下载字幕轨道该请求可能无法正确处理已授权或者视频订单可能未启用第三方为此字幕提供的内容在进一步的研究中我
Ninja 相当于 Make 的“从该目录向下构建”功能（使用 CMake）？

使用CMake和Make构建项目时可以执行make从构建树的子目录即从包含顶级目录的目录下面的目录 Makefile and make将据我所知构建该目录下或该目录下的所有目标这是因为 CMake 生成了一个Makefile对于每
是否有用于指定属性“显示名称”的 .NET 属性？

是否有一个属性允许您为类中的属性指定用户友好的名称例如假设我有以下课程 public class Position public string EmployeeName get set public ContactInfo Employ
通过 Applescript 在 Xcode 4 中添加文件断点

我正在尝试使用 AppleScript 将断点添加到当前 XCode 项目中选定的 m 文件现在我陷入了困境因为 AppleScript 在尝试添加文件断点时不断返回缺失值我当前的 AppleScript 看起来像这样其中 PRO
在 JavaScript 中构建“类”的现代方法是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何构建一个类具有属性和方法并在其上创建大量实例 The modern方法是使用class https developer mo
apache 上的多个 ssl 虚拟主机

我想在 apache 上使用它们自己的 ssl 证书配置两个虚拟主机 apache 2 2 22 和 openssl 1 0 1 debian 7 6 我找了很多关于SNI的文章但还是无法正确配置这是我的配置端口配置文件 NameVi
如何在 pandas 中进行左外连接排除

我有两个数据框 A 和 B 我想在 A 中获取它们但不在 B 中就像左上角正下方的数据框一样数据框 A 有列 a b others B 有列 a b others 没有 NaN 值我尝试了以下方法 1 dfm dfA merge d
ISO 8601 中的时间戳 - 最后 6 位数字 yyyy-MM-dd'T'HH:mm:ss。

我的时间戳看起来像这样 2015 03 21T11 08 14 859831 2015 03 21T11 07 22 956087 我读了一篇关于 ISO 8601 的 Wiki 文章 https en wikipedia org wiki
pandas - 计算另一列中每个唯一值的 DataFrame 中值的出现次数

假设我有一个数据帧 term score 0 this 0 1 that 1 2 the other 3 3 something 2 4 anything 1 5 the other 2 6 that 2 7 this 0 8 someth
MySQL按日期分组的累积和

我知道有一些与此相关的帖子但我的情况有点不同我想在这方面获得一些帮助我需要从数据库中提取一些数据这些数据是每天交互的累积计数目前这就是我所拥有的 SELECT e Date AS e date count e ID AS num
如何将 dll 导入到在网络服务器上运行的 ASP.NET Web 应用程序中

我在 VS 2010 中创建了一个 dll 我将其放入网络服务器上的 app code 文件夹中然后我通过尝试使用来访问它imports GetWebPageData 如果这意味着什么的话 dll 位于 bin debug 下的 vs 项
如何在Java中的不同类中使用相同的对象

假设我有 3 个 java 类 A B 和 C 我需要创建一个在 A 和 B 中都使用的 C 类对象但单独创建该对象的问题是类 c 的构造函数被调用了 2 次但我希望构造函数只被调用一次所以我想将A类中创建的对象使用到B类中因此创
如何从 Web api 控制器返回文件？

我正在使用 MVC 5 Web Api 控制器我想返回一个文件 Route public HttpResponseMessage GetFile var statusCode HttpStatusCode OK FileStream fi
jQuery 倒计时有问题吗？函数serverSync：服务器时间

serverSync serverTime函数从服务器返回值但我检查了服务器和客户端时间是否相同当我调用服务器与服务器同步时它不会显示倒计时帮我 function var shortly new Date var newTime n
SQL更新记录，每次从1开始递增值

我使用单个插入语句将批量记录添加到表中我希望为每个新批次分配递增的数字但每次都从 1 开始所以如果我有 Batch Name IncementingValue 1 Joe 1 1 Pete 2 1 Andy 3 2 Sue 1 2
Scrapy好像没有做DFO

我有一个网站我的爬虫需要遵循一定的顺序例如在开始进行 a2 之前它需要先进行 a1 b1 c1 等操作 a b 和 c 中的每一个都由不同的解析函数处理并且相应的 url 在 Request 对象中创建并生成下面粗略地说明了我正

Scrapy好像没有做DFO

Scrapy好像没有做DFO 的相关文章

随机推荐

热门标签