Scrapy Spider整理抓取过程，不刮任何东西

2023-12-25

我有一只蜘蛛，它会在亚马逊上抓取信息。

蜘蛛读取一个 .txt 文件，在其中写入它必须搜索的产品，然后进入该产品的亚马逊页面，例如：

我使用 keywords=laptop 来更改要搜索的产品等。

我遇到的问题是蜘蛛无法工作，这很奇怪，因为一周前它的工作做得很好。

此外，控制台上没有出现任何错误，蜘蛛启动，“爬行”关键字，然后停止。

这是完整的蜘蛛

import scrapy
import re
import string
import random
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from genericScraper.items import GenericItem
from scrapy.exceptions import CloseSpider
from scrapy.http import Request

class GenericScraperSpider(CrawlSpider):

    name = "generic_spider"

    #Dominio permitido
    allowed_domain = ['www.amazon.com']

    search_url = 'https://www.amazon.com/s?field-keywords={}'

    custom_settings = {

        'FEED_FORMAT': 'csv',
        'FEED_URI' : 'datosGenericos.csv'

    }

    rules = {

        #Gets all the elements in page 1 of the keyword i search
        Rule(LinkExtractor(allow =(), restrict_xpaths = ('//*[contains(@class, "s-access-detail-page")]') ), 
                            callback = 'parse_item', follow = False)

}


    def start_requests(self):

        txtfile = open('productosGenericosABuscar.txt', 'r')

        keywords = txtfile.readlines()

        txtfile.close()

        for keyword in keywords:

            yield Request(self.search_url.format(keyword))



    def parse_item(self,response):

        genericAmz_item = GenericItem()


        #info de producto
        categoria = response.xpath('normalize-space(//span[contains(@class, "a-list-item")]//a/text())').extract_first()

        genericAmz_item['nombreProducto'] = response.xpath('normalize-space(//span[contains(@id, "productTitle")]/text())').extract()
        genericAmz_item['precioProducto'] = response.xpath('//span[contains(@id, "priceblock")]/text()'.strip()).extract()
        genericAmz_item['opinionesProducto'] = response.xpath('//div[contains(@id, "averageCustomerReviews_feature_div")]//i//span[contains(@class, "a-icon-alt")]/text()'.strip()).extract()
        genericAmz_item['urlProducto'] = response.request.url
        genericAmz_item['categoriaProducto'] = re.sub('Back to search results for |"','', categoria) 

        yield genericAmz_item

我制作的其他具有类似结构的蜘蛛也可以工作，知道发生了什么吗？

这是我在控制台中得到的内容

2019-01-31 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: genericScraper)
2019-01-31 22:49:26 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.7.0,                     Python 3.7.0 (default, Jun 28 2018, 08:04:48) [MSC v.1912 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.0.2p  14 Aug 2018), cryptography 2.3.1, Platform Windows-10-10.0.17134-SP0
2019-01-31 22:49:26 [scrapy.crawler] INFO: Overridden settings:         {'AUTOTHROTTLE_ENABLED': True, 'BOT_NAME': 'genericScraper', 'DOWNLOAD_DELAY':     3, 'FEED_FORMAT': 'csv', 'FEED_URI': 'datosGenericos.csv', 'NEWSPIDER_MODULE':     'genericScraper.spiders', 'SPIDER_MODULES': ['genericScraper.spiders'],     'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36     (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.throttle.AutoThrottle']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-01-31 22:49:26 [scrapy.core.engine] INFO: Spider opened
2019-01-31 22:49:26 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-01-31 22:49:26 [scrapy.extensions.telnet] DEBUG: Telnet console listening on xxx.x.x.x:xxxx
2019-01-31 22:49:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s?field-keywords=Laptop> (referer: None)
2019-01-31 22:49:27 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-31 22:49:27 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 315,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 2525,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 2, 1, 1, 49, 27, 375619),
 'log_count/DEBUG': 2,
 'log_count/INFO': 7,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 2, 1, 1, 49, 26, 478037)}
2019-01-31 22:49:27 [scrapy.core.engine] INFO: Spider closed (finished)

有趣的！这可能是由于网站没有返回任何数据。您是否尝试过调试scrapy shell。如果没有，请尝试检查一下response.body返回您想要抓取的预期数据。

def parse_item(self,response):
     from scrapy.shell import inspect_response
     inspect_response(response, self)

欲了解更多详情，请阅读详细信息刮皮外壳 http://doc.scrapy.org/en/latest/topics/shell.html

调试后，如果您仍然没有获得预期的数据，则意味着该站点中有更多内容阻碍了爬行过程。这可能是动态脚本或cookie/local-storage/session依赖性。

对于动态/JS 脚本，您可以使用selenium or splash.
硒与动态页面的scrapy https://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page
在带有splash的scrapy中处理javascript https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash

For cookie/local-storage/session，你必须更深入地研究inspect窗口并找出获取数据所必需的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

webscraping

Scrapy

Scrapy Spider整理抓取过程，不刮任何东西的相关文章

mac安装Tensorflow出错

我正在尝试使用以下说明在 mac 中安装 Tensorflow https www tensorflow org install https www tensorflow org install 但是当我想导入tensorflow时我总是
Python HTTP Post 方法将响应返回为 magicmock 对象而不是值

我正在尝试使用 POST 方法触发某些 API 后检查响应状态代码响应状态代码是 Magicmock 实例类型我正在使用在 python 2 中工作但引发 TypeError 的比较运算符检查状态代码是否在 400 和 500 之间在P
pip 安装最新的依赖版本

当我使用安装包时pip install e 它仅安装不满足的依赖项并忽略依赖项升级如何在每次运行时安装最新的依赖版本pip install e 我尝试过使用pip install upgrade e 但是使用这个选项没有任何改变我仍然得
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
Python - 如何实现“可停止”线程？

已经发布解决方案了here https stackoverflow com questions 323972 is there any way to kill a thread in python创建一个可停止的线程但是我在理解如何实施
在 pandas 中获取组名称的有效方法

我有一个包含大约 300 000 行的 csv 文件我将其设置为按特定列分组每个组大约有 140 名成员总共 2138 个组我正在尝试生成组名称的 numpy 数组到目前为止我已经使用 for 循环来生成名称但处理所有内容都需
min() arg 是一个空序列

我试图找到矩阵行中的最小元素但有两个条件 1 它必须 gt 0 2 并且这个点一定不能被访问 is visited k is False 我下一步正在尝试做 min x for x in matr sum i if x gt 0 if i
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
如何将嵌套的Python字典转换为简单的命名空间？

假设我有一个深度为 N 的嵌套字典如何将每个内部嵌套字典转换为简单的命名空间 example input key0a test key0b key1a key2a keyNx key2b test key1b test example o
阻止特定 URL 进行测试的最佳方法是什么？

我正在使用 Google Chrome 和 Fiddler 版本 4 4 观察一个网站该页面正在使用 AJAX 来更新其数据我想阻止特定的 URL 以测试如果它不起作用会发生什么阻止 URL 最简单的方法是什么你希望发生什么转到自
让 Bazel 使用 Python3 运行（语法错误）

我正在尝试使用 Bazel 运行此代码 https github com google in silico labeling https github com google in silico labeling 这是关联的 Bazel BU
如何创建始终有效的导入？

我正在努力在我的一个项目中建立一个工作结构问题是我有一个像这样的结构的主包和子包我遗漏了所有不必要的文件 code py mypackage init py mypackage work py mypackage utils py u
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
找不到仅适用于数字的 Tesseract 4.0 tessdata

正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
python多重继承，调用基类函数

我只是尝试在 python 中进行多重继承我想出了这个 class ParentOne def foo self print ParentOne foo is called class ParentTwo def foo self pri
无需停止程序即可输入

我正在尝试制作一个倒计时器来打印剩余时间当您输入某些内容时它会打印您输入的内容我的问题是我不想等待输入只是继续运行计时器我的错误代码 timer 100 while True print timer timer 1 if inpu
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
如何从特定类获取特定链接？

我想提取这个href从那个特定的class tr class even td a href italy serie a 2015 2016 Serie A 2015 2016 a td 这是我写的 Sub ExtractHrefClass

随机推荐

如何在 SBT 中刷新更新的 Git 依赖项？

我已经配置了 SBT 0 11 0 以将 GitHub 项目作为依赖项拉入按照我的回答这个问题在这里 https stackoverflow com questions 7550376 how can sbt pull dependenc
在AWS CDK中执行代码之前如何等待堆栈完成？

我正在尝试 AWS CDK 但当我尝试执行依赖于堆栈完成的代码块时我陷入了困境这是我当前的代码 class Application extends cdk Construct constructor scope cdk Construc
如何编写一个函数来比较多组布尔（真/假）答案并对其进行排名？

我已经开始了一个项目事实证明它比我最初想象的要复杂得多我正在尝试规划一个基于布尔真假问题和答案的系统系统上的用户可以回答大量布尔真假问题中的任何问题并根据他们的答案看到一个显示最相似用户按相似度顺序排列的列表我在谷
静态容器已经有一个与之关联的内核

部署到 Azure 时出现与 Ninject 相关的错误 The static container already has a kernel associated with it 但在本地运行良好而且之前它一直在本地和 Azure 上运行
Python 中的 Webdriver 屏幕截图

使用python在windows上使用Selenium Webdriver进行屏幕截图时屏幕截图直接保存到程序的路径中有没有办法将 png文件保存到特定目录 Use driver save screenshot path to file
允许用户选择图像的相机或图库

我想做的事情看起来很简单但经过几天的搜索我不太明白我有一个应用程序允许用户选择多个最多 5 个图像我正在使用一个ImageView 当用户点击ImageView 我想让他们选择从图库中选择图像或使用相机捕捉图像我开始使
拉伸div以填充body

div style height 20px background color red div div style background color black div div style height 20px background col
Spark 客户端模式 - YARN 为驱动程序分配容器？

我在客户端模式下在 YARN 上运行 Spark 因此我希望 YARN 仅为执行器分配容器然而从我所看到的来看似乎还为驱动程序分配了一个容器并且我没有得到与预期一样多的执行程序我正在主节点上运行 Spark Submit 参数如下
JSTL 表达式语言访问对象属性

我今天正在学习一个教程这个教程让我摸不着头脑一个小时考虑 public class MyClass public int getTotal amount 100 return amount 以及 JSP 的摘录 p Total obje
万智牌数据库设计

我想为我拥有的 MTG 卡创建一个数据库设计会是什么样的我想存储每张卡的以下信息 1 Name of card 2 Set the card belongs to 3 Condition of card 4 Price it sold
位图插值c#

网格尺寸 160 160 行数列数 16 16 我为此创建了一个位图网格的每个单元格都填充有不同的颜色我需要执行颜色插值我猜您想要执行以下操作拍摄 16x16 像素图像并将其插值为 160x160 像素图像以下是三个示例输出您
实现WebView数据库配额委托

我如何实现这个方法见下文我是 Objective C 的新手我只是不太了解它 From http lists apple com archives Webkitsdk dev 2008 Apr msg00027 html http l
确定将在 php 中发送的 http 状态

我正在尝试为管理应用程序标头的类编写一个测试用例它发送的标头中有 http 状态标头我正在使用 headers list 来查看将发送哪些标头如果我现在发送标头的话 headers list 的问题是它不包含 http 状态标头尽管
为什么 lapply() 不保留我的 data.table 键？

我的列表中有一堆 data tables 我要申请unique 到我的列表中的每个 data table 但这样做会破坏我的所有 data table 键这是一个例子 A lt data table a rep c a b each 3
这两组陈述之间的确切区别是什么？

Set
如何重新索引 pandas 数据透视表

我创建了一个数据透视表该表根据其中一列和时间索引的月份进行分组这是数据透视表 AWRT AWFT AWDT Time type April All 38 190119 65 789103 27 598984 DHW 19 676627
隐式、显式和流利等待之间的区别

两者之间的确切区别是什么implicitwait explicitwait and fluentwait 您能举例说明吗我已经发布关于此的博客文章 https medium com austenjt difference betwen i
为什么 (x += x += 1) 在 C 和 Javascript 中的计算结果不同？

如果变量的值x最初为 0 表达式x x 1在 C 中将计算为 2 在 Javascript 中将计算为 1 C 的语义对我来说似乎很明显 x x 1被解释为x x 1 反过来这相当于 x 1 x x where x is 1 at thi
在 Angular 6 工作区中安装 NPM 包

我刚刚开始学习 Angular 6 和 CLI 并创建了一个项目如下所示 ng new my demo cd my demo ng g library foo prefix my 我的库中没有我想要添加的内容ngx bootstrap因为
Scrapy Spider整理抓取过程，不刮任何东西

我有一只蜘蛛它会在亚马逊上抓取信息蜘蛛读取一个 txt 文件在其中写入它必须搜索的产品然后进入该产品的亚马逊页面例如我使用 keywords laptop 来更改要搜索的产品等我遇到的问题是蜘蛛无法工作这很奇怪因为一周前它

Scrapy Spider整理抓取过程，不刮任何东西

Scrapy Spider整理抓取过程，不刮任何东西 的相关文章

随机推荐

热门标签

Scrapy Spider整理抓取过程，不刮任何东西的相关文章