解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行

2024-04-24

我google了半天还是没能搞定。也许你有一些见解？

我尝试不是从终端而是从脚本启动我的抓取工具。这在没有规则的情况下运行良好，只需产生正常的解析函数即可。

一旦我使用规则并将“callback =“parse””更改为“callback =“parse_item””，就不再起作用了。

我尝试根据解析函数中的生成请求创建一个爬虫。结果是：我只抓取了一个 URL，但没有抓取域名。

制定规则似乎是一条出路。所以我实际上希望它运行而不是与解析函数中的收益一起使用。

import scrapy

from scrapy.crawler import CrawlerProcess
from bs4 import BeautifulSoup
from scrapy.http import Request
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


def beauty(response_dictionary):
    html_response = response_dictionary["html"]
    print(response_dictionary["url"])
    for html in html_response:
        soup = BeautifulSoup(html, 'lxml')
        metatag = soup.find_all("meta")
        print(metatag)

class MySpider(scrapy.Spider):
    name = "MySpidername"
    allowed_domains = ["www.bueffeln.net"]
    start_urls = ['https://www.bueffeln.net']

    rules = [Rule(LinkExtractor(allow=()), callback='parse_item', follow=True),]

    def parse_item(self, response):
        url_dictionary = {}
        print(response.status)
        url_dictionary["url"] = response.url
        print(response.headers)
        url_dictionary["html"] = response.xpath('//html').getall()
        beauty(url_dictionary)


process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(MySpider)
process.start()

错误似乎如下：

2019-11-18 18:14:56 [scrapy.utils.log] INFO: Scrapy 1.7.4 started (bot: scrapybot)
2019-11-18 18:14:56 [scrapy.utils.log] INFO: Versions: lxml 4.4.1.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 3.7.4 (tags/v3.7.4:e09359112e, Jul  8 2019, 19:29:22) [MSC v.1916 32 bit (Intel)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2019-11-18 18:14:56 [scrapy.crawler] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2019-11-18 18:14:56 [scrapy.extensions.telnet] INFO: Telnet Password: 970cca12e7c43d67
2019-11-18 18:14:56 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2019-11-18 18:14:57 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-11-18 18:14:57 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-11-18 18:14:57 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-11-18 18:14:57 [scrapy.core.engine] INFO: Spider opened
2019-11-18 18:14:57 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-11-18 18:14:57 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2019-11-18 18:14:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.bueffeln.net> (referer: None)
2019-11-18 18:14:57 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.bueffeln.net> (referer: None)
Traceback (most recent call last):
  File "C:\Users\msi\PycharmProjects\test\venv\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "C:\Users\msi\PycharmProjects\test\venv\lib\site-packages\scrapy\spiders\__init__.py", line 80, in parse
    raise NotImplementedError('{}.parse callback is not defined'.format(self.__class__.__name__))
NotImplementedError: MySpider.parse callback is not defined
2019-11-18 18:14:57 [scrapy.core.engine] INFO: Closing spider (finished)
2019-11-18 18:14:57 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 231,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 16695,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 0.435081,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 11, 18, 17, 14, 57, 454733),
 'log_count/DEBUG': 1,
 'log_count/ERROR': 1,
 'log_count/INFO': 10,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'spider_exceptions/NotImplementedError': 1,
 'start_time': datetime.datetime(2019, 11, 18, 17, 14, 57, 19652)}
2019-11-18 18:14:57 [scrapy.core.engine] INFO: Spider closed (finished)

Process finished with exit code 0

Scrapy 用途parse解析 URL 的回调start_urls。你没有提供这样的回调，这就是为什么Scrapy无法处理你的https://www.bueffeln.net URL.

如果你想让你的代码工作，你需要添加parse回调（甚至为空）。你的rules将在之后应用parse打回来。

UPDATE使用您需要的规则scrapy.CrawlSpider:

class MySpider(scrapy.CrawlSpider):

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

webcrawler

解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行的相关文章

pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
Bokeh 相当于 matplotlib 子图

我正在寻找一种方法来创建包含多个子图的绘图例如 fig ax0 ax1 plt subplots nrows 2 sharex True 可以在 matplotlib 中完成然后可以通过以下方式解决ax0 and ax1 有没有办法在
Python - 重写 print()

我正在使用 mod wsgi 想知道是否可以覆盖 print 命令因为它没用这样做是行不通的 print myPrintFunction 因为这是一个语法错误 Print 不是 Python 2 x 中的函数因此这不能直接实现但是
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
如何读取 10 位原始图像？其中包含 RGB-IR 数据

我想知道如何从我的 10 位原始它有 rgb ir 图像数据数据中提取 RGB 图像如何使用 Python 或 MATLAB 进行阅读拍摄时的相机分辨率为 1280x720 室内照片图片下载 https drive google c
在 matplotlib 中查看然后自动关闭图形？

我必须检查我的参数设置是否正确因此我需要绘制许多图为了绘制这些图我选择使用 matplotlib 每次检查后我需要单击左上角的关闭按钮这很微不足道那么有没有什么方法可以让剧情在3 5秒左右显示并且无需点击就自动关闭呢我知道关于
我的本地 postgresql 数据库 url 的形式是什么？

我正在学习 Flask sqlalchemy 教程https pythonhosted org Flask SQLAlchemy quickstart html a minimal application https pythonhoste
冻结（.exe）一个traitsUI程序，现实可行吗？

我正在尝试使用 cx freeze 或 pyInstaller 冻结一个 TraitsUI 程序该程序利用 Chaco Traits TraitsUI 以及较小程度的 mayavi 实际上可以取出我需要它在 mac linux ubun
如何在这个可嵌套的 For 循环中实现 Robot Framework 风格的变量？

我在 Robot Framework 中见过很多嵌套 For 循环主要是创建一个内部带有 For 循环的关键字然后在另一个 For 循环中调用该关键字我使用 Python 2 7 13 制作了一个可嵌套的 For 循环但因为它主要
python 中打印变量和字符串

好吧我知道如何打印变量和字符串但是我如何打印类似我的字符串 card price 的内容它是我的变量我的意思是这是我的代码 print I have and here I would like to print my varia
matplotlib 轴标签偏移量的因素和变化

在 matplotlib 中的轴刻度标签上有两种可能的偏移量 factors and shifts 在右下角 1e 8 是一个因子 1 441249698e1 是一个移位这里有很多答案展示了如何操纵两个都 matplotlib 将轴
TensorFlow - 为什么这个 softmax 回归没有学到任何东西？

我的目标是用 TensorFlow 做大事但我正在尝试从小事做起我有一些小的灰度方块有一点噪音我想根据它们的颜色对它们进行分类例如 3 个类别黑色灰色白色我编写了一个小 Python 类来生成正方形和 1 hot 向量并
当前异常上下文掩盖了先前的错误

以下是我在 Doug Hellman 网站上名为 masking exceptions catch py 的文件中找到的示例我暂时无法找到链接 throws 中引发的异常将被丢弃而 cleanup 中引发的异常将被报告道格在他的文章中
如何用不同的颜色填充seaborn.distplot中的区域

是否可以用颜色填充两条阈值线 line1 和 line2 之外的区域并通过 distplot 绘制的 KDE 曲线限制 Y 轴代表我的应用程序的 3 sigmas import pylab as pl import seaborn as
第 100 次避免循环导入

Summary 我继续有一个ImportError在一个复杂的项目中我已经将其蒸馏到仍然会出现错误的最低限度 Example 巫师有装有绿色和棕色药水的容器这些可以添加在一起产生同样是绿色或棕色的新药水我们有一个PotionABC
在 python 中将数组作为参数传递

我是Python新手现在我需要声明大小为 20 的数组并将该数组传递给函数需要数组的函数如下 function args The args是一个输入function 谁能帮我如何在 python 中传递数组当你说数组时我假设你
如何使用 np.newaxis？

What is numpy newaxis https numpy org doc stable reference constants html numpy newaxis我什么时候应该使用它在一维数组上使用它x产生 gt gt gt
Python二进制数据读取

urllib2 请求接收二进制响应如下所示 00 00 00 01 00 04 41 4D 54 44 00 00 00 00 02 41 97 33 33 41 99 5C 29 41 90 3D 71 41 91 D7 0A 47 0
Python 装饰器只是语法糖？ [复制]

这个问题在这里已经有答案了可能的重复了解 Python 装饰器 https stackoverflow com questions 739654 understanding python decorators 我对使用 Python 装
在 python 中使用 org.mpris.mediaplayer2.player PlaybackStatus 属性

The 规格页 http specifications freedesktop org mpris spec latest Player Interface html summary对于这个特定的接口说 PlaybackStatus s P

随机推荐

为什么 Java 中不能抛出和捕获对象？ [复制]

这个问题在这里已经有答案了可能的重复你可以在 Java 中添加什么 https stackoverflow com questions 5749898 what can you throw in java 为什么我不能在 Object
如何将音频从浏览器流式传输到 WebRTC 本机 C++ 应用程序

到目前为止我已成功运行以下示例 WebRTC 原生 C 到浏览器视频流示例 http sourcey com webrtc native to browser video streaming example 该示例展示了如何将视频从本机
React Native - 如何查看 AsyncStorage 中存储的内容？

我将一些项目保存到AsyncStorage在 React Native 中我使用 chrome 调试器和 iOS 模拟器不使用 React Native 使用常规 Web 开发localStorage 我能够看到存储的localStor
您能解释一下流的概念吗？

我知道流是字节序列的表示每个流都提供了向其给定的后备存储读取和写入字节的方法但流的意义何在为什么我们与之交互的不是后备存储本身不管出于什么原因这个概念并不适合我我读过很多文章但我想我需要一个类比或其他东西选择流这个词是因
Xcode 附加到进程不显示 NSLog

我刚刚开始使用 Apple Watch 我找到了来自五分钟观察套件 http www fiveminutewatchkit com blog category Xcode 让 iOS 应用程序和手表套件应用程序都在模拟器中运行并且两个进
mongod，mac os x - rlimits警告[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我一直在我的 mac os x 10 8 上使用 mongo 昨天突然在我的日志中出现了这个警告当启动 shell 时它也出现了警告软限制太低
在模拟的 HttpContextBase 上设置属性

我正在开发一个 ASP NET MVC 应用程序并尝试针对控制器操作编写一些单元测试其中一些操作 HttpContext 上的属性例如 Session Request Cookies Response Cookies 等在弄清楚如何
OpenTok - 如何手动发布/取消发布？

我查看了这些链接 http www tokbox com opentok api tools js documentation overview publish html http www tokbox com opentok api to
无法获取未知属性“组装”

所以昨天一切都很好但现在 Android Studio 和我的项目抛出了这个错误 ERROR Could not get unknown property assemble for task patternjkh assembleDeb
android AlertDialog 具有透明背景

我有一个自定义的 AlertDialog 我想使其背景完全透明通常为了使活动完全透明我会执行以下操作将背景设置为 00000000在 xml 布局中在清单集中android theme android style Theme Hol
如何避免在php中刷新时重新发送数据

我有一个页面 index php 其中有一个名为 add users php 的链接在 add users php 中我接受用户信息并返回到同一页面 index php 其中信息通过后操作传入并插入到数据库中当我刷新页面或点击后退按钮
如何在 Swift 中打开 URL？

openURL已在 Swift 3 中弃用任何人都可以提供一些如何替换的示例openURL options completionHandler 尝试打开网址时有效吗所有你需要的是 guard let url URL string htt
C++ 中有标准的日期/时间类吗？

C stl 有标准时间类吗或者我是否必须在写入流之前转换为 c 字符串例如我想将当前日期时间输出到字符串流 time t tm ostringstream sout sout lt lt tm lt lt ends 在本例中我将当
有没有好的方法来检查 Datastax Session.executeAsync() 是否引发异常？

我试图通过调用来加速我们的代码session executeAsync 代替session execute 用于数据库写入我们有数据库连接可能会关闭的用例目前是之前的execute 当连接丢失集群中没有可访问的主机时抛出异常我们可
如何检查字符串是否是数字？ [复制]

这个问题在这里已经有答案了我有一个 GPA 计划它适用于equalsIgnoreCase 方法比较两个字符串即字母 a 与用户输入检查他们是否输入 a 但现在我想添加一个异常其中包含当输入数字时执行的错误消息我希望程序意识到整数
与 C++ 中的对象数组混淆

所以我首先学习了Java 现在我正在尝试转向C 我在让数组正常工作方面遇到了一些困难现在我只是想创建一个对象 Player 的数组并用一个对象填充它但我收到错误 Player players new Player 1 players 0
Pydub 按样本切片音频片段

假设我有两个采样率相同的音频片段它们是从 Pydub 中的 wav 文件导入的并且假设我知道哪个更短现在假设我想将较长的音频文件分成两个片段以便第一个片段与较短的音频文件具有完全相同的长度精确到相同的样本数量并将这两个片段中的每
在离散 ggplot x 轴两侧添加不同数量的额外空间

我有一个带有离散 x 轴的图我想调整刻度两侧的额外空间使其左侧较小右侧较大以便长标签适合 scale x discrete expand c 0 1 不是我的朋友因为它总是同时在双方工作这个问题 https stackoverf
提取 HTML 表单的字段名称 - Python

假设有一个链接 http www someHTMLPageWithTwoForms com 它基本上是一个具有两种表单例如表单 1 和表单 2 的 HTML 页面我有这样的代码 import httplib2 from Beautifu
解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行

我google了半天还是没能搞定也许你有一些见解我尝试不是从终端而是从脚本启动我的抓取工具这在没有规则的情况下运行良好只需产生正常的解析函数即可一旦我使用规则并将 callback parse 更改为 callback parse

解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行

解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行 的相关文章

随机推荐

热门标签

解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行的相关文章