Scrapy蜘蛛抓取页面和抓取项目之间的区别

2024-04-21

我正在编写一个 Scrapy CrawlSpider，它读取第一页上的 AD 列表，获取一些信息，例如列表和 AD url 的缩略图，然后向每个 AD url 发出请求以获取其详细信息。

它在测试环境中工作和分页显然很好，但今天试图进行完整的运行，我意识到在日志中：

Crawled 3852页数（228 页/分钟），已刮擦256物品（15 件/分钟）

我不明白抓取的页面和抓取的项目之间存在如此大差异的原因。任何人都可以帮助我了解这些物品在哪里丢失？

我的蜘蛛代码：

class MySpider(CrawlSpider):
    name = "myspider"
    allowed_domains = ["myspider.com", "myspider.co"]
    start_urls = [
        "http://www.myspider.com/offers/myCity/typeOfAd/?search=fast",
    ]

    #Pagination
    rules = (
        Rule (
            SgmlLinkExtractor()
           , callback='parse_start_url', follow= True),
    )

    #1st page
    def parse_start_url(self, response):

        hxs = HtmlXPathSelector(response)

        next_page = hxs.select("//a[@class='pagNext']/@href").extract()
        offers = hxs.select("//div[@class='hlist']")

        for offer in offers:
            myItem = myItem()

            myItem['url'] = offer.select('.//span[@class="location"]/a/@href').extract()[0]
            myItem['thumb'] = oferta.select('.//div[@class="itemFoto"]/div/a/img/@src').extract()[0]

            request = Request(myItem['url'], callback = self.second_page)
            request.meta['myItem'] = myItem

            yield request

        if next_page:
            yield Request(next_page[0], callback=self.parse_start_url)


    def second_page(self,response):
        myItem = response.meta['myItem']

        loader = myItemLoader(item=myItem, response=response)

        loader.add_xpath('address', '//span[@itemprop="streetAddress"]/text()') 

        return loader.load_item()

假设你去你的第一个start_urls（实际上你只有一个）并且此页面上只有一个锚链接（<a>）。所以你的蜘蛛会爬行hrefurl 在此链接中，您可以控制回调，parse_start_url。在这个页面里面有 5000 个 div，其中有一个hlist班级。假设所有 5000 个后续 URL 均返回 404，即未找到。

在这种情况下，您将拥有：

已抓取页面：5001
刮掉的物品：0

让我们再举一个例子：在你的起始 url 页面上，你有 5000 个锚点，但这些页面中没有一个（如零）具有类参数为hlist.

在这种情况下，您将拥有：

已抓取页面：5001
刮掉的物品：0

您的答案在于 DEBUG 日志输出。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

Scrapy

Scrapy蜘蛛抓取页面和抓取项目之间的区别的相关文章

如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

从另一个 Jenkinsfile 调用远程 jenkins 文件

我正在我的组织中设计 Jenkins CICD 管道我有以下问题我来自一个 DevOps 团队负责控制多个开发团队的 Jenkins 管道我基本上想编写一个具有多个阶段的 Jenkins 文件可以由多个团队运行据我所知这个 J
两个列表中的公共元素

我有两个ArrayList每个对象都有三个整数我想找到一种方法来返回两个列表的共同元素有人知道我该如何实现这一目标吗 Use Collection retainAll https docs oracle com en java java
如何查找正在执行的 AppleScript 的文件名

如何找到正在执行的 AppleScript 的名称原因我想创建一个根据文件名更改其行为的脚本就像是 if myname is Joe then ACTION1 else if myname is Frank then ACTION2
Python 的 re 模块 - 保存状态？

我发现 Python 中最大的烦恼之一是无法re模块来保存其状态而无需在匹配对象中显式执行此操作通常人们需要解析行如果它们符合某个正则表达式则通过相同的正则表达式从中取出值我想写这样的代码 if re match foo w b
Google Chrome 警告：密码表单应包含（可选隐藏）用户名字段以方便访问

当访问我的单页应用程序的重置密码路径并查看 Chrome 浏览器控制台时我收到以下警告 DOM 密码表单应具有可选择隐藏用户名字段以方便访问更多信息 goo gl 9p2vKq
如何解决 Yelp API 调用中的 CORS 错误？

我尝试使用 AJAX 调用 Yelp Fusion API 但出现以下错误有人可以帮我弄清楚这里发生了什么事吗 api yelp com v3 1 加载资源失败服务器响应状态为 403 index html 1 从源 null 访问 h
我应该使用哪些 gdb 命令来缩小标签“main”中出现分段错误的位置？

这是我的汇编代码和我的主要子例程这是我的宏和常量 text fmt string x t t ln x n sfmt string 10lf t 10lf n error string Error filename string inpu
同一 IP 443 端口中的多个域

我在 IIS 7 的端口 443 https 上托管了一个网站 www example1 com 现在我为同一 IP 的 www example2 com 购买了一个新域我想在此域中托管另一个网站 www example2 com htt
Jquery 获取具有特定类的第 n 个子级

我有一个 html 表如下 table tr td class take 1 td td 2 td td 3 td td class take 4 td td 5 td td class take 6 td tr tr td class t
如何在 Java 8 中组合不同的流

我有一个Set
在代码中添加一个定时器，然后循环它

尝试找到一种方法将计时器添加到我的代码中然后用计时器不断循环它例如尝试通过单击按钮来制作物品然后等待 5 秒以使其制作然后只要我有材料它就会自动开始再次制作依此类推我环顾四周的教程但未能找到我一直在寻找的东西这是我想要循
专门针对右值的 std::swap

在标准 20 2 2 utility swap 中 std swap 是为左值引用定义的我知道这是当你想交换两件东西时的常见情况但是有时交换右值是正确且可取的当临时对象包含引用时如下所示交换临时引用元组 https stacko
如何仅定义自定义产品类型的字段 - Woo Commerce Hook

我的代码显示在所有产品类型中例如简单产品可变产品自定义类型手段适用于所有人但我想将其限制为仅适用于我的自定义类型如何将自定义字段类型限制为英语课程产品类型 add filter product type selector eng
Tensorflow 中多维时间序列预测中的向量表示

我有一个大型数据集约 3000 万个数据点具有 5 个特征我已使用 K 均值将其减少到 200 000 个集群数据是大约 150 000 个时间步长的时间序列我想要训练模型的数据是每个时间步上特定簇的存在预测模型的目的是生成一个
将 Ajax JQuery 选择器保存在数组中

我对 Ajax 非常陌生需要帮助将 Ajax 请求中的数据存储到数组中我在论坛上查看了答案但无法解决我的问题 Ajax 响应正在进入 responseField val format output response 我想将 outpu
等待多个 future 的回调

最近我深入研究了一些使用 API 的工作该API使用Unirest http库来简化从网络接收的工作当然由于数据是从 API 服务器调用的因此我尝试通过使用对 API 的异步调用来提高效率我的想法结构如下通过返回 future
JDK 17：Switch 语句导致 java.lang.VerifyError：操作数堆栈上的类型错误

刚刚在 Eclipse 2021 09 上尝试了 JDK17 结果失败并显示java lang VerifyError 这本身并没有多大帮助我追踪到了一个 switch 语句它被提供了一个从 a 中取出的值Map或其他泛型类型如果我在
React-native cli 和带有 Bare 工作流程的 Expo 有什么区别？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我将构建一个具有多种复杂功能的非常大的应用程序但我坚持以下几点 React native cli 和带有 Bare 工作流程的 Expo 有什
在非常大的数组中查找重复项的算法

在一次技术面试中得到了这个问题我知道使用在java中 HashSet解决这个问题的方法但当面试官强行说出这个词时我无法理解一个非常大的数组假设给定数组中有 1000 万个元素我需要改变方法吗如果不是实现这一目标的效率应该是
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的

Scrapy蜘蛛抓取页面和抓取项目之间的区别

Scrapy蜘蛛抓取页面和抓取项目之间的区别 的相关文章

随机推荐

热门标签

Scrapy蜘蛛抓取页面和抓取项目之间的区别的相关文章