Scrapy中不同start_url的不同解析函数

2024-01-25

Scrapy可以为每个start_url设置不同的解析函数吗?

这是一段伪代码:

    start_urls = [
    "http://111sssssssss.com",
    "http://222sssssssssssss.com",
    "http://333sssssssssss.com",
    "http://444sssssssss.com",
]


def parse_1():
    '''some code, this function will crawl http://111sssssssss.com'''


def parse_2():
    '''some code, this function will crawl http://222sssssssssssss.com'''

有什么办法可以做到这一点吗?


您可以覆盖/实现parse_start_url函数并在那里调用parse_1 or parse_2当。。。的时候response.url符合您的标准(在本例中是正确的 URL)。

def parse_start_url(response):
    if response.url == 'http://111sssssssss.com':
        parse_1(response)
    if response.url == 'http://222sssssssssssss.com':
        parse_2(response)

欲了解更多信息parse_start_url() read 文档 http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.CrawlSpider.parse_start_url.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy中不同start_url的不同解析函数 的相关文章

  • 使用来自同一 URL 的多个 POST 数据进行抓取

    我已经创建了一个蜘蛛 它可以收集具有匹配电话号码的公司名称列表 然后将其保存到 CSV 文件中 然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据 我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的
  • Scrapy 不会抓取所有页面

    这是我的工作代码 from scrapy item import Item Field class Test2Item Item title Field from scrapy http import Request from scrapy
  • Scrapy:为什么提取的字符串是这种格式?

    我正在做 item desc site select a text extract 但这会像这样打印 u n A mano libera n 我必须做什么来添加和删除奇怪的字符 例如 u in 尾随空格和 我无法修剪 剥离 exceptio
  • 如何将多个参数传递给 Scrapy 蜘蛛(不再支持使用多个蜘蛛运行“scrapy scrapy”时出现错误)?

    我想将多个用户定义的参数传递给我的 scrapy spider 所以我尝试遵循这篇文章 如何在 scrapy 蜘蛛中传递用户定义的参数 https stackoverflow com questions 15611605 how to pa
  • 将 Tor 与 scrapy 框架结合使用

    我正在尝试抓取网站 该网站足够复杂以阻止机器人 我的意思是它只允许几个请求 之后 Scrapy 挂起 问题1 有没有办法 如果Scrapy挂起 我可以从同一点重新启动我的爬行过程 为了摆脱这个问题 我这样写了我的设置文件 BOT NAME
  • Scrapy:测试内联请求的有效方法

    我使用 scrapy inline requests 库编写了一个蜘蛛 所以我的蜘蛛中的解析方法看起来像这样 inline requests def parse self response1 item MyItem loader ItemL
  • “download_slot”在 scrapy 中如何工作

    我在 scrapy 中创建了一个脚本来解析author name来自其着陆页的不同帖子 然后将其传递到parse page方法使用meta关键字以打印post content随着author name同时 我用过下载槽在元关键字中 据称该关
  • Scrapy中如何控制yield的顺序

    帮助 阅读下面的scrapy代码和爬虫的结果 我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
  • Scrapy 使用带有规则的 start_requests

    我找不到任何使用 start requests 与规则的解决方案 我也没有在互联网上看到任何关于这两个的示例 我的目的很简单 我想重新定义 start request 函数以获得捕获请求期间所有异常的能力 并在请求中使用元 这是我的蜘蛛的代
  • 分割scrapy的大CSV文件

    是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件 我怎样才能给它一个自定义的命名方案 我应该修改吗CsvItemExporter 尝试这个管道 coding utf 8 Define your item pipelin
  • Scrapy - 抓取时发现的抓取链接

    我只能假设这是 Scrapy 中最基本的事情之一 但我就是不知道如何去做 基本上 我会抓取一页来获取包含本周更新的网址列表 然后我需要一一进入这些网址并从中获取信息 我目前已经设置了两个刮刀 并且它们可以完美地手动工作 因此 我首先从第一个
  • 为什么我的 Scrapy 中的输入/输出处理器不工作?

    我正在努力追随本教程 http doc scrapy org en 1 1 intro tutorial html 我想要我的desc字段是标准化为单个空格且大写的单个字符串 dmoz spider py import scrapy fro
  • Scrapy Python Craigslist Scraper

    我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品 我能够提取日期 帖子标题和帖子 URL但提取时遇到问题price 由于某种原因 当前代码提取all的价格 但是当我删除 在价格范围之前查找价格字段返回为空 有人可以查看
  • 每个 start_url 已抓取多少个项目

    我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中 我想知道每个网址找到了多少个项目 从 scrapy 统计数据我可以看到 item scraped count 3500但是 我需要分别对每个 sta
  • 在同一进程中多次运行Scrapy

    我有一个网址列表 我想抓取其中的每一个 请注意 将此数组添加为start urls不是我正在寻找的行为 我希望它在单独的爬网会话中一一运行 我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行 如常见做法 https
  • Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

    基本上 下面的代码会抓取表格的前 5 项 其中一个字段是另一个 href 单击该 href 会提供更多信息 我想收集这些信息并将其添加到原始项目中 所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
  • 在flatpak项目中使用scrapy脚本

    我正在构建一个 flatpak 构建的项目 我有一个按钮 当单击它时我希望它运行 scrapy 脚本来抓取数据 窗口用户界面
  • scrapy获取同一个类的第n个子文本

    我附上了一张照片 我面临的问题是获取同一类的第一个元素 我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用 任
  • 如何从当前项目向 scrapyd 添加新服务

    我试图同时运行多个蜘蛛 并在 scrapy 中制作了自己的自定义命令 现在我尝试通过 srapyd 运行该命令 我尝试将其作为新服务添加到我的 scrapd conf 中 但它抛出一个错误 指出没有这样的模块 Failed to load
  • 打印 scrapy 请求的“响应”

    我正在尝试学习 scrapy 在遵循教程的同时 我正在尝试进行细微的调整 我想简单地从请求中获取响应内容 然后我会将响应传递到教程代码中 但我无法发出请求并获取响应内容 建议就好 from scrapy http import Respon

随机推荐

  • 成功登录后添加声明

    用户成功登录后 我需要添加对用户身份的声明 我认为这就是需要发生的地方 public async Task
  • 将 XML 文件添加到文件列表

    我想将 XML 文件的内容添加到 doxygen 生成的文档中 我将 XML 文件添加到INPUTdoxygen 配置文件的标记 但是 虽然 XML 文件列在文件列表中 但并未显示文件的内容 我需要做什么才能包含这些内容 Doxygen 没
  • 使用 JGit 提交之间更改的文件列表

    我想在两次提交之间更改 添加 修改或删除 文件的路径 从命令行 我只需写 git diff name only abc123 def456 使用 JGit 执行此操作的等效方法是什么 您可以使用DiffFormatter得到一个列表Diff
  • 使用 AWS Cloudwatch Agent 和 Python 记录自定义指标

    我们使用 Python 将自定义指标发送到 AWS 请参阅下面的现有代码 并单独使用AWS CloudWatch 代理 https docs aws amazon com AmazonCloudWatch latest monitoring
  • 时间复杂度:删除双端队列的元素

    删除一个元素的时间复杂度是多少collections deque E g deq collections deque 1 2 3 del deq 1 Summary 时间复杂度为 O n 其中 n 是到最近端点的距离 总尺寸为deque不要
  • 使用 Apache Commons Math 确定置信区间

    我有一组基准数据 我使用 Apache Math Commons 计算汇总统计数据 现在我想使用该包来计算算术平均值的置信区间 例如运行时间测量 这有可能吗 我确信该软件包支持这一点 但是我不知道从哪里开始 这是我在 Brent Worde
  • 在 ES6 中,函数的数组式解构有什么作用?

    我通读了redux actions教程 https redux actions js org introduction tutorial 并且对他们使用 我认为是 解构感到困惑 下面是一个例子 increment decrement都是由返
  • 查找不连续时间段 YYYYMM00 的最小和最大日期

    我有以下两个表 维度时间是一个包含每个月的表 按 ID 排序 采用 YYYMM00 形式 日志播放器是一个表格 其中有与球员和特定月份相关的一些统计数据 我想得到的是以下内容 Player Team Start End John Red 2
  • 确定与 perl 中的正则表达式匹配的部分

    我正在寻找正则表达式可能重叠的匹配的累积 最终目标是在结果子字符串中进行进一步搜索 我想跳过已经 累积 的匹配 同时避免使用substr 我可能是错误的避免substr 但是我为它写的条件是pos and a next if 不起作用 us
  • Docker ADD 与 VOLUME

    我正在学习 Docker 但我对何时何地使用 Docker 有疑问ADD and VOLUME 我认为这两者的作用如下 ADD 在构建时将文件复制到映像 该映像包含所有文件 因此您可以非常轻松地进行部署 另一方面 在开发中每次都需要构建看起
  • Firebase 的云功能 - 无法加载 URL:不存在“Access-Control-Allow-Origin”标头

    我有一个 Angular 2 应用程序 我通过 http 请求调用 Firebase 但是 每当我尝试运行该函数时 都会收到此错误 XMLHttpRequest cannot load https us central1
  • Hibernate 标准多选查询与连接

    下面是我的实体类 我使用条件生成器检索该实体 但我只需要获取id title and tags 问题 java Entity Table name QUESTION TITLE public class Question Id Column
  • beginAt、endAt 使用索引而不是优先级

    有没有办法将 beginAt 和 endAt 与索引而不是优先级一起使用 以便我可以用它进行客户端分页 我将 priority 分配给非空值进行排序 您可以使用 startAt endAt 的第二个参数来执行此操作 请注意 在对消息进行排序
  • 无法使用 robo3T 和 C# 从其他服务器连接到 MongoDB 副本集

    我已经安装了mongodb副本集 在文件中mongod conf已添加 BIND IP 如下 net port 27017 bindIp 127 0 0 1 100 0 192 68 当我使用robo3t连接 副本集 时键入错误 但是当连接
  • Oracle ODP.NET 连接字符串:数据源中有什么?

    这是 ODP NET 的 ConnectionStrings com 字符串 很棒 但是什么是数据源 数据源 TORCL 用户ID someUser 密码 son28dnn 是控制面板中的DSN吗 服务器名称 TNS 命名服务名称 Than
  • 如何从 OpenXML 中的名称或工作表 ID 获取 Worksheetpart?

    下面创建一个 XLSX 添加两个包含一些数据的工作表 然后 我希望能够稍后根据名称 或者最好是 ID 获取电子表格 以便我可以在稍后的时间点添加 修改工作表 我不知道如何再次获取下面代码不完整的工作表 Sub Main Using doc
  • 如何使用 Node.JS 进行请求 HTTP 摘要身份验证?

    我必须使用 Node JS 为 API 文档编写一些代码 但我在过去几天尝试了在网络上找到的所有解决方案 当然包括 Stack 但没有成功 我的 API 使用 HTTP Digest Auth 这就是问题所在 我能够连接 这不是什么大问题
  • 按 Cassandra 中的任何字段排序

    我正在研究 cassandra 作为我即将进行的项目的可能解决方案 我研究得越多 我就越常听到这样的说法 对创建表时未设置排序的字段进行排序是一个坏主意 是否可以对任何字段进行排序 如果对不在集群中的字段进行排序会对性能产生影响 那么性能影
  • 配置温莎城堡和通用

    这是我在 Global asax 中的代码 WindsorContainer container new WindsorContainer container Register Component For typeof IRepositor
  • Scrapy中不同start_url的不同解析函数

    Scrapy可以为每个start url设置不同的解析函数吗 这是一段伪代码 start urls http 111sssssssss com http 222sssssssssssss com http 333sssssssssss co