Scrapy中不同start_url的不同解析函数

2024-01-25

Scrapy可以为每个start_url设置不同的解析函数吗？

这是一段伪代码：

    start_urls = [
    "http://111sssssssss.com",
    "http://222sssssssssssss.com",
    "http://333sssssssssss.com",
    "http://444sssssssss.com",
]


def parse_1():
    '''some code, this function will crawl http://111sssssssss.com'''


def parse_2():
    '''some code, this function will crawl http://222sssssssssssss.com'''

有什么办法可以做到这一点吗？

您可以覆盖/实现parse_start_url函数并在那里调用parse_1 or parse_2当。。。的时候response.url符合您的标准（在本例中是正确的 URL）。

def parse_start_url(response):
    if response.url == 'http://111sssssssss.com':
        parse_1(response)
    if response.url == 'http://222sssssssssssss.com':
        parse_2(response)

欲了解更多信息parse_start_url() read 文档 http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.CrawlSpider.parse_start_url.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

Scrapy中不同start_url的不同解析函数的相关文章

使用来自同一 URL 的多个 POST 数据进行抓取

我已经创建了一个蜘蛛它可以收集具有匹配电话号码的公司名称列表然后将其保存到 CSV 文件中然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的
Scrapy 不会抓取所有页面

这是我的工作代码 from scrapy item import Item Field class Test2Item Item title Field from scrapy http import Request from scrapy
Scrapy：为什么提取的字符串是这种格式？

我正在做 item desc site select a text extract 但这会像这样打印 u n A mano libera n 我必须做什么来添加和删除奇怪的字符例如 u in 尾随空格和我无法修剪剥离 exceptio
如何将多个参数传递给 Scrapy 蜘蛛（不再支持使用多个蜘蛛运行“scrapy scrapy”时出现错误）？

我想将多个用户定义的参数传递给我的 scrapy spider 所以我尝试遵循这篇文章如何在 scrapy 蜘蛛中传递用户定义的参数 https stackoverflow com questions 15611605 how to pa
将 Tor 与 scrapy 框架结合使用

我正在尝试抓取网站该网站足够复杂以阻止机器人我的意思是它只允许几个请求之后 Scrapy 挂起问题1 有没有办法如果Scrapy挂起我可以从同一点重新启动我的爬行过程为了摆脱这个问题我这样写了我的设置文件 BOT NAME
Scrapy：测试内联请求的有效方法

我使用 scrapy inline requests 库编写了一个蜘蛛所以我的蜘蛛中的解析方法看起来像这样 inline requests def parse self response1 item MyItem loader ItemL
“download_slot”在 scrapy 中如何工作

我在 scrapy 中创建了一个脚本来解析author name来自其着陆页的不同帖子然后将其传递到parse page方法使用meta关键字以打印post content随着author name同时我用过下载槽在元关键字中据称该关
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代
分割scrapy的大CSV文件

是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件我怎样才能给它一个自定义的命名方案我应该修改吗CsvItemExporter 尝试这个管道 coding utf 8 Define your item pipelin
Scrapy - 抓取时发现的抓取链接

我只能假设这是 Scrapy 中最基本的事情之一但我就是不知道如何去做基本上我会抓取一页来获取包含本周更新的网址列表然后我需要一一进入这些网址并从中获取信息我目前已经设置了两个刮刀并且它们可以完美地手动工作因此我首先从第一个
为什么我的 Scrapy 中的输入/输出处理器不工作？

我正在努力追随本教程 http doc scrapy org en 1 1 intro tutorial html 我想要我的desc字段是标准化为单个空格且大写的单个字符串 dmoz spider py import scrapy fro
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看
每个 start_url 已抓取多少个项目

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中我想知道每个网址找到了多少个项目从 scrapy 统计数据我可以看到 item scraped count 3500但是我需要分别对每个 sta
在同一进程中多次运行Scrapy

我有一个网址列表我想抓取其中的每一个请注意将此数组添加为start urls不是我正在寻找的行为我希望它在单独的爬网会话中一一运行我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行如常见做法 https
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
scrapy获取同一个类的第n个子文本

我附上了一张照片我面临的问题是获取同一类的第一个元素我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用任
如何从当前项目向 scrapyd 添加新服务

我试图同时运行多个蜘蛛并在 scrapy 中制作了自己的自定义命令现在我尝试通过 srapyd 运行该命令我尝试将其作为新服务添加到我的 scrapd conf 中但它抛出一个错误指出没有这样的模块 Failed to load
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon

随机推荐

成功登录后添加声明

用户成功登录后我需要添加对用户身份的声明我认为这就是需要发生的地方 public async Task
将 XML 文件添加到文件列表

我想将 XML 文件的内容添加到 doxygen 生成的文档中我将 XML 文件添加到INPUTdoxygen 配置文件的标记但是虽然 XML 文件列在文件列表中但并未显示文件的内容我需要做什么才能包含这些内容 Doxygen 没
使用 JGit 提交之间更改的文件列表

我想在两次提交之间更改添加修改或删除文件的路径从命令行我只需写 git diff name only abc123 def456 使用 JGit 执行此操作的等效方法是什么您可以使用DiffFormatter得到一个列表Diff
使用 AWS Cloudwatch Agent 和 Python 记录自定义指标

我们使用 Python 将自定义指标发送到 AWS 请参阅下面的现有代码并单独使用AWS CloudWatch 代理 https docs aws amazon com AmazonCloudWatch latest monitoring
时间复杂度：删除双端队列的元素

删除一个元素的时间复杂度是多少collections deque E g deq collections deque 1 2 3 del deq 1 Summary 时间复杂度为 O n 其中 n 是到最近端点的距离总尺寸为deque不要
使用 Apache Commons Math 确定置信区间

我有一组基准数据我使用 Apache Math Commons 计算汇总统计数据现在我想使用该包来计算算术平均值的置信区间例如运行时间测量这有可能吗我确信该软件包支持这一点但是我不知道从哪里开始这是我在 Brent Worde
在 ES6 中，函数的数组式解构有什么作用？

我通读了redux actions教程 https redux actions js org introduction tutorial 并且对他们使用我认为是解构感到困惑下面是一个例子 increment decrement都是由返
查找不连续时间段 YYYYMM00 的最小和最大日期

我有以下两个表维度时间是一个包含每个月的表按 ID 排序采用 YYYMM00 形式日志播放器是一个表格其中有与球员和特定月份相关的一些统计数据我想得到的是以下内容 Player Team Start End John Red 2
确定与 perl 中的正则表达式匹配的部分

我正在寻找正则表达式可能重叠的匹配的累积最终目标是在结果子字符串中进行进一步搜索我想跳过已经累积的匹配同时避免使用substr 我可能是错误的避免substr 但是我为它写的条件是pos and a next if 不起作用 us
Docker ADD 与 VOLUME

我正在学习 Docker 但我对何时何地使用 Docker 有疑问ADD and VOLUME 我认为这两者的作用如下 ADD 在构建时将文件复制到映像该映像包含所有文件因此您可以非常轻松地进行部署另一方面在开发中每次都需要构建看起
Firebase 的云功能 - 无法加载 URL：不存在“Access-Control-Allow-Origin”标头

我有一个 Angular 2 应用程序我通过 http 请求调用 Firebase 但是每当我尝试运行该函数时都会收到此错误 XMLHttpRequest cannot load https us central1
Hibernate 标准多选查询与连接

下面是我的实体类我使用条件生成器检索该实体但我只需要获取id title and tags 问题 java Entity Table name QUESTION TITLE public class Question Id Column
beginAt、endAt 使用索引而不是优先级

有没有办法将 beginAt 和 endAt 与索引而不是优先级一起使用以便我可以用它进行客户端分页我将 priority 分配给非空值进行排序您可以使用 startAt endAt 的第二个参数来执行此操作请注意在对消息进行排序
无法使用 robo3T 和 C# 从其他服务器连接到 MongoDB 副本集

我已经安装了mongodb副本集在文件中mongod conf已添加 BIND IP 如下 net port 27017 bindIp 127 0 0 1 100 0 192 68 当我使用robo3t连接副本集时键入错误但是当连接
Oracle ODP.NET 连接字符串：数据源中有什么？

这是 ODP NET 的 ConnectionStrings com 字符串很棒但是什么是数据源数据源 TORCL 用户ID someUser 密码 son28dnn 是控制面板中的DSN吗服务器名称 TNS 命名服务名称 Than
如何从 OpenXML 中的名称或工作表 ID 获取 Worksheetpart？

下面创建一个 XLSX 添加两个包含一些数据的工作表然后我希望能够稍后根据名称或者最好是 ID 获取电子表格以便我可以在稍后的时间点添加修改工作表我不知道如何再次获取下面代码不完整的工作表 Sub Main Using doc
如何使用 Node.JS 进行请求 HTTP 摘要身份验证？

我必须使用 Node JS 为 API 文档编写一些代码但我在过去几天尝试了在网络上找到的所有解决方案当然包括 Stack 但没有成功我的 API 使用 HTTP Digest Auth 这就是问题所在我能够连接这不是什么大问题
按 Cassandra 中的任何字段排序

我正在研究 cassandra 作为我即将进行的项目的可能解决方案我研究得越多我就越常听到这样的说法对创建表时未设置排序的字段进行排序是一个坏主意是否可以对任何字段进行排序如果对不在集群中的字段进行排序会对性能产生影响那么性能影
配置温莎城堡和通用

这是我在 Global asax 中的代码 WindsorContainer container new WindsorContainer container Register Component For typeof IRepositor
Scrapy中不同start_url的不同解析函数

Scrapy可以为每个start url设置不同的解析函数吗这是一段伪代码 start urls http 111sssssssss com http 222sssssssssssss com http 333sssssssssss co

Scrapy中不同start_url的不同解析函数

Scrapy中不同start_url的不同解析函数 的相关文章

随机推荐

热门标签

Scrapy中不同start_url的不同解析函数的相关文章