每个 start_url 已抓取多少个项目

2024-05-01

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中。我想知道每个网址找到了多少个项目。从 scrapy 统计数据我可以看到'item_scraped_count': 3500但是，我需要分别对每个 start_url 进行计数。还有referer我可以用来手动计算每个 url 项目的每个项目的字段：

2016-05-24 15:15:10 [scrapy] DEBUG: Crawled (200) <GET https://www.youtube.com/watch?v=6w-_ucPV674> (referer: https://www.youtube.com/results?q=billys&sp=EgQIAhAB)

但我想知道scrapy是否有内置支持。

已接受的挑战！

上面没有东西scrapy直接支持这一点，但是您可以使用以下命令将其与蜘蛛代码分开Spider Middleware http://doc.scrapy.org/en/latest/topics/spider-middleware.html:

中间件.py

from scrapy.http.request import Request

class StartRequestsCountMiddleware(object):

    start_urls = {}

    def process_start_requests(self, start_requests, spider):
        for i, request in enumerate(start_requests):
            self.start_urls[i] = request.url
            request.meta.update(start_request_index=i)
            yield request

    def process_spider_output(self, response, result, spider):
        for output in result:
            if isinstance(output, Request):
                output.meta.update(
                    start_request_index=response.meta['start_request_index'],
                )
            else:
                spider.crawler.stats.inc_value(
                    'start_requests/item_scraped_count/{}'.format(
                        self.start_urls[response.meta['start_request_index']],
                    ),
                )
            yield output

记得激活它settings.py:

SPIDER_MIDDLEWARES = {
    ...
    'myproject.middlewares.StartRequestsCountMiddleware': 200,
}

现在您应该能够在蜘蛛统计信息中看到类似的内容：

'start_requests/item_scraped_count/START_URL1': ITEMCOUNT1,
'start_requests/item_scraped_count/START_URL2': ITEMCOUNT2,

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

每个 start_url 已抓取多少个项目的相关文章

使用 pip 或 conda 来管理包？ [复制]

这个问题在这里已经有答案了我已经使用 matlab 进行机器学习很长一段时间了最近切换到 python 并使用其包管理器 pip 安装某些包并成功安装了许多包几天前我开始使用 conda 我以前安装的所有软件包都被覆盖我真的很想
为什么 Python zipfile 不提供与命令行 zip 相同的输出 .zip 文件大小？

这是生成的文件的大小zip seq 10000 gt 1 txt zip 1 1 txt adding 1 txt deflated 54 ls og 1 zip rw r r 1 22762 Aug 29 10 04 1 zip 这是一个
查找具有不同强度/亮度的相似图像

假设我有如下图像我可以选择什么来比较两个图像之间的相似度显然它们是相同的图像只是亮度不同我找不到任何可行的方法目前我最好的选择是训练 cnn 或自动编码器并比较输出的特征向量但这似乎有点矫枉过正任何提示将不胜感激相当强大的工
有没有纯Python的表类？

我正在构建一个需要分析表格数据的应用程序我想执行一些列操作例如重命名列删除列以及根据现有列的值计算新列的能力我的第一选择是 Pandas 之类的东西但是一个限制是这个项目必须是跨平台的并且非常容易在 virtualenv 中部署
使用组合时如何解决循环依赖？

我遇到了如下所示的情况其中每个类都需要另一个类并且它创建了循环依赖关系我在使用 ctypes 包装一些 C 代码时遇到了这种情况已经有很多关于这个主题的帖子但我发现它们没有帮助我需要一些例子 Module A from B im
Redis 队列工作程序在 utcparse 中崩溃

我正在尝试按照以下教程获得基本的 rq 工作 https blog miguelgrinberg com post the flask mega tutorial part xxii background jobs https blog m
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
如何使用httplib2进行相互证书认证

我正在使用 httplib2 从我的服务器向另一个 Web 服务发出请求我们想要使用相互证书身份验证我了解如何使用证书进行传出连接 h set certificate 但是如何检查应答服务器使用的证书这张票 http code goo
CTRL-C 在 Python 中的行为有所不同

I ve recently started learning Python long time Java programmer here and currently in the process of writing some simple
使用 python 更改目录

我碰巧发现我无法从 python 代码中更改实际目录我的测试程序如下 from os import system def sh script system bash c s script sh cd home sh pwd 的输出pwd
在视图之间共享并在 AppConfig 中初始化的变量

我想要一个在应用程序启动时初始化的变量并且可以从视图访问该变量 my app my config py class WebConfig AppConfig name verbose name def ready self print lo
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
Python UPnP/IGD 客户端实现？

我正在寻找一个开源实现UPnP http elinux org UPnPPython 中的客户端更具体地说是它的互联网网关设备 http en wikipedia org wiki Internet Gateway Device Prot
python webdriver_manager chrome 自定义配置文件

如何使 webdriver manager chrome 使用自定义 chrome 用户配置文件我知道对于 selenium webdriver 我可以这样指定 options Options options add argument f
Django中的自动递增值

我在 django 中有一个表并尝试自动递增它的序列号在自定义模板中 for 循环用于变量自定义模板 for i in getodeskview tr td 1 td td i odesk id td td i hours td td
Python 单元测试：Nose 失败时重试？

我有一个随机失败的测试我想让它在发送错误消息之前重试多次我将 python 与 Nose 一起使用我写了以下内容但不幸的是即使使用 try except 处理当第一次尝试测试失败时 Nose 也会返回错误 def test so

随机推荐

来自指针的 Typedef const 引用[重复]

这个问题在这里已经有答案了可能的重复为什么允许将指针强制转换为引用 https stackoverflow com questions 5924248 why is it allowed to cast a pointer to a r
了解 django admin readonly_fields

我创建了一些代码来区分 Django admin 中的两个用户组从而导致显示所有字段为只读或仅显示其中的一些字段这些字段直接在 ModelAdmin 类中设置首先这是代码 class PersonAdmin admin ModelAd
python中通过命令查找进程

在我的 Python 脚本中我想检查是否otherscript py目前正在 Linux 系统上运行这psutil http psutil readthedocs io en latest 图书馆看起来是一个很好的解决方案 import
可以匹配具有任意小数位数的非零浮点数的最短正则表达式是什么？

可以匹配具有任意小数位数的非零浮点数的最短正则表达式是什么它应该接受像这样的数字 1 5 9652 7 00002 0 8 0 0500 0 58000 0 01 0 000005 0 9900 5 7 5 7 005 但拒绝诸如 02
破译Streamreduce函数

为什么两者都是c1 and c2不被视为两个字符串而是一个String和一个Integer Arrays asList duck chicken flamingo pelican stream reduce 0 c1 c2 gt c1 l
从列表中删除元素的最佳方法

我想知道从列表中删除元素的最佳方法有效方法是什么有功能很少 https docs python org 3 tutorial datastructures html more on lists由Python提供 some list re
如何在 Windows 8 中使用 StreamWriter 写入文件？

我在创建时遇到问题StreamWriter在windows 8中通常我只是创建一个实例只是传递一个字符串作为参数但在Windows 8中我收到一个错误表明它应该接收一个Stream 但我注意到Stream是一个抽象类有人知道吗编
Javassist注释问题

我正在尝试使用 javassist 生成我的实体类一切都很顺利直到我将 GenerationValue 注释添加到 Id 字段 Id 注释工作正常但当我添加 GeneeratedValue 时出现异常这是我的代码 ClassPoo
正则表达式：匹配包含数字和字母的字符串，但不匹配仅包含数字的字符串

Question 我希望能够使用单个正则表达式如果可能来要求字符串适合 A Za z0 9 但不允许仅包含数字或和符号的字符串以符号开头或结尾的字符串多个符号彼此相邻 Valid test 0123 t0e1s2t3 0123
C++ 支持“finally”块吗？（我经常听到的“RAII”是什么？）

C 是否支持 finally http java sun com docs books tutorial essential exceptions finally html 块是什么RAII 习语 http en wikipedia or
更改 Google 地图 V3 中的标记大小

我在用这个解释 https stackoverflow com questions 7095574 google maps api 3 custom marker color for default dot marker 7686977 7
为什么 VS 2010 中构建的应用程序与 VS 2010 中构建的应用程序的行为存在差异？ VS 2012？

我正在检查在我们的构建机器上安装 NET 4 5 是否会更改 VS 2010 生成的输出 IL 映像因为我知道 NET 4 5 中 foreach 的行为已发生变化以避免由于以下原因而出现问题访问修改后的关闭 http blogs ms
在固定位置元素上缩放 div 时丢失文本清晰度（模糊）（在移动 safari/webkit 浏览器上）

附有重现代码它基本上包含两个 div 元素红色固定和黑色带文本单击黑色 div 时它会放大并且其上的文本保持清晰然而在 4 秒后黑色 div 的 z index 发生了变化黑色 div 变成了over红色分区 B
打开文件选择器对话框时出现 Glib-GIO-ERROR

我在 Windows 7 中使用 GTK3 codeblcks IDE glade3 在我的应用程序中我有一个按钮单击该按钮应打开一个 gtk file chooser dialog 但给出填充错误 Glib GIO 错误系统上未安装
如何在 Django ORM 中更改 PostgreSQL 的默认空排序行为

默认情况下 PostgreSQL 将 NULL 值视为最高值因此对于降序查询首先对它们进行排序对于升序查询最后对它们进行排序您可以通过指定 NULLS LAST 或 NULLS FIRST 在每个查询或创建索引时修改此行为如何将
带有 Google App 脚本的 Google Sheets：如何在返回最终结果之前向单元格写入“状态”消息？

我有一个函数可能需要一段时间才能返回输出有没有办法让它在单元格中打印一条消息然后稍后用输出覆盖该消息该函数可能需要 30 秒才能运行并且可能在 20 30 个单元格中使用因此很高兴看到哪个单元格仍在计算以及哪个单元格已完成 fun
在 R 中将多个回归表输出到 Word 文档的多个页面中

我的目标是创建一个多页 Microsoft Word 文档在连续页面上包含许多格式化回归表输出理想情况下这可以使用 R Markdown 来完成我很幸运地使用Word在Word中制作了格式良好的回归表sjPlot tab model
Nhibernate ICriteria 和在查询中使用 Lambda 表达式

你好我是 NHibernate 的新手我有点困惑假设我们有一个product桌子让product表有 2 列价格1 和价格2 然后我可以通过 HQL 查询映射的产品实体如下所示 string queryString from pr
5 位 mt_rand() 数字有多唯一？

我只是想知道如果你画出 5 位数字 mt rand 数字有多独特在示例中我尝试使用此函数获取 500 个随机数的列表其中一些是重复的 http www php net manual en function mt rand php h
每个 start_url 已抓取多少个项目

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中我想知道每个网址找到了多少个项目从 scrapy 统计数据我可以看到 item scraped count 3500但是我需要分别对每个 sta

每个 start_url 已抓取多少个项目

每个 start_url 已抓取多少个项目 的相关文章

随机推荐

热门标签

每个 start_url 已抓取多少个项目的相关文章