Scrapy 使用带有规则的 start_requests

2024-04-17

我找不到任何使用 start_requests 与规则的解决方案，我也没有在互联网上看到任何关于这两个的示例。我的目的很简单，我想重新定义 start_request 函数以获得捕获请求期间所有异常的能力，并在请求中使用元。这是我的蜘蛛的代码：

类 TestSpider(CrawlSpider): 名称 = '测试' allowed_domains = ['www.oreilly.com'] 开始网址 = ['https://www.oreilly.com/library/view/practical-postgresql/9781449309770/ch04s05.html https://www.oreilly.com/library/view/practical-postgresql/9781449309770/ch04s05.html']

# Base on scrapy doc
def start_requests(self):
    for u in self.start_urls:
        yield Request(u, callback=self.parse_item, errback=self.errback_httpbin, dont_filter=True)

rules = (
    Rule(LinkExtractor(), callback='parse_item', follow=True),
)

def parse_item(self, response):
    item = {}
    item['title'] = response.xpath('//head/title/text()').extract()
    item['url'] = response.url
    yield item

def errback_httpbin(self, failure):
    self.logger.error('ERRRRROR - {}'.format(failure))

此代码仅抓取一页。我尝试修改它而不是：

def parse_item(self, response):
    item = {}
    item['title'] = response.xpath('//head/title/text()').extract()
    item['url'] = response.url
    yield item

根据这个答案，我尝试使用这个

def parse_item(self, response):
    item = {}
    item['title'] = response.xpath('//head/title/text()').extract()
    item['url'] = response.url
    return self.parse(response)

它似乎有效，但即使我向蜘蛛添加解析功能，它也不会抓取任何内容。有人知道如何一起使用 start_request 和规则吗？我很高兴获得有关此主题的任何信息。祝你编码愉快！

我找到了一个解决方案，但坦率地说，我不知道它是如何工作的，但它确实可以做到。

class TSpider(CrawlSpider):
    name = 't'
    allowed_domains = ['books.toscrapes.com']
    start_urls = ['https://books.toscrapes.com']
    login_page = 'https://books.toscrapes.com'

    rules = (
        Rule(LinkExtractor(), callback='parse_item', follow=True),
    )

    def start_requests(self):
        yield Request(url=self.login_page, callback=self.login, errback=self.errback_httpbin, dont_filter=True)

    def login(self, response):
        return FormRequest.from_response(response)

    def parse_item(self, response):
        item = {}
        item['title'] = response.xpath('//head/title/text()').extract()
        item['url'] = response.url
        yield item

    def errback_httpbin(self, failure):
        self.logger.error('ERRRRROR - {}'.format(failure))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

webcrawler

Scrapy 使用带有规则的 start_requests 的相关文章

Apache Nutch 2.1 不同批次 ID（空）

我使用 Apache Nutch 2 1 爬行了几个网站爬行时我在很多页面上看到以下消息前任跳绳http www domainname com news subcategory 111111 index html http www
如何设置Robots.txt或Apache仅在特定时间允许爬虫？

由于 24 小时内流量分布不均匀我希望在高峰时段禁止爬虫在非繁忙时段允许爬虫有没有一种方法可以实现这一目标编辑感谢所有的好建议这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
将 Tor 代理与 scrapy 一起使用

我需要帮助在 Ubuntu 中设置 Tor 并在 scrapy 框架中使用它我做了一些研究并找到了这个指南 class RetryChangeProxyMiddleware RetryMiddleware def retry self r
将 >100K 页面链接在一起而不会受到 SEO 惩罚

我正在创建一个网站该网站将审查互联网上数十万个其他网站的隐私政策它的最初内容是基于我的运行普通爬行 http commoncrawl org 50 亿页网络转储和分析所有隐私政策 https stackoverflow com ques
在 C# 中实现动态 Web Scraper 的逻辑

我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下从用户处获取 URL 在WINForms中的IE UI控件嵌入式浏览器中加载网页允许用户选择文本连续小不超过 50 个字符从加载的网页当用户希望
如何查找网站上的所有链接/页面

是否可以找到任何给定网站上的所有页面和链接我想输入一个 URL 并生成该站点所有链接的目录树我查看过 HTTrack 但它下载了整个站点我只需要目录树查看链接检查器 https linkchecker github io linkc
如何使用PyCharm调试Scrapy项目

我正在使用 Python 2 7 开发 Scrapy 0 20 我发现 PyCharm 有一个很好的 Python 调试器我想用它来测试我的 Scrapy 蜘蛛有人知道该怎么做吗我尝试过的 Actually I tried to ru
用scrapy一一爬取网站列表

我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存有什么办法可以设置scrapy一次抓取一两个网站您可以尝试使用concurrent requests 1以免数据超载 htt
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看
如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

我需要在Scrapy中运行一些多线程多处理工作因为我有一些使用阻塞调用的库并在完成后将请求放回Scrapy引擎我需要这样的东西 def blocking call self html do some work in blocking
通过wget命令爬取sitemap.xml的链接

我尝试抓取 sitemap xml 的所有链接以重新缓存网站但是 wget 的递归选项不起作用我只得到响应远程文件存在但不包含任何链接无法检索但可以肯定的是 sitemap xml 充满了 http 链接我尝试了 wget 的
如何忽略网络爬虫中的文件类型？

我正在编写一个网络爬虫并且想要忽略链接到二进制文件的 URL exclude w flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 w
在云服务器中运行 python 脚本的最简单方法是什么？

我有一个网络爬行 python 脚本需要几个小时才能完成并且无法在我的本地计算机上完整运行有没有一种方便的方法可以将其部署到简单的 Web 服务器该脚本基本上将网页下载到文本文件中如何最好地实现这一点谢谢既然你说性能是一个问题
如何自动检索AJAX调用的URL？

目的是对爬行蜘蛛进行编程使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
Scrapy：在调用之间保存cookie

有没有办法在 scrapy 爬虫的调用之间保留 cookie 目的网站需要登录然后通过 cookie 维持会话我宁愿重复使用会话也不愿每次都重新登录请参阅有关 cookie 的文档常见问题解答入口 http doc scrapy
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
如何使用scrapy Selector获取节点的innerHTML？

假设有一些 html 片段例如 a text in a b text in b b a

随机推荐

如何使用 start 和 endAngle 渲染 svg 圆

我使用 start 和 endAngle 渲染了 svg 圆效果很好但是当我渲染完整的圆 startAngle为70 endAngle为70 时输出有很大的不同 0 90 180 270除外我为这段代码做错了什么 function
如何从 Kubernetes Pod 连接到私有 IP

我正在尝试从 Pod 内连接到私有 IP 从 Pod 对该 IP 执行 Ping 操作返回无法访问但是我可以从主机系统 ping 该 IP 将流量从 pod 路由到目标私有 IP 的最佳方式是什么 Pod 不允许直接连接到 kubern
AVAudioPlayer 在调试模式下抛出断点

每次我加载应用程序时它都会停止就像我在此行设置了断点一样 self audioPlayer AVAudioPlayer alloc initWithData dataPersister loadData self fileName er
如何从 Java 系统设置中获取代理设置

我正在寻找如何在 Windows 下使用 Java 获取系统代理信息的方法但我只找到了一种方法但这对我不起作用 public static void main String args throws Throwable System se
红宝石数组内部结构

ruby 数组内部是如何实现的主要是在 CRuby 中但欢迎任何其他信息它们是像 C 向量一样可增长的数组还是基于列表的移位取消移位以及通过索引访问元素的复杂性是多少它们是可增长的数组在最后增长 shift is O 1 un
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
终止设备上的调试

我对设备上的调试有点困惑当我使用模拟器时在调试会话之后我只需关闭模拟器窗口但是在我的设备上调试时如何关闭会话只需断开 USB 电缆即可并且安装的 apk 由Eclipse安装应该手动删除您可以通过转到调试视角右键单击
当 readdir() 返回文件名时，stat() 错误“没有这样的文件或目录”

我无法识别 stat 引发的错误下面的程序读取目录中的所有文件并打印文件名 DIR dp struct dirent dirp struct stat sb if dp opendir argv 1 NULL perror can t o
WPF - MVVM - 组合框选定项

I have ViewModel 实施的INotifyPropertyChanged 在后台和类中Category它只有一个 type 属性string 我的 ComboBox SelectedItem 绑定到类别的实例当我更改实例的值时
如何更改导航视图中的分隔符颜色？

我正在尝试使用 NavigationView 来实现 NavigationDrawer 我通过在菜单中设置组 ID 添加了分隔符但是我看不到分隔符我想这是因为分隔符颜色与背景相同所以我想改变分隔符的颜色但我找不到办法改变它谁能帮我
如何迭代大型输入文件？

我正在尝试访问通过输入字段上传的文件内容的迭代器我可以通过 web sys 将 JS 文件传递到 Wasm 中但是我一生都无法弄清楚如何访问 Rust 中传递的文件的长度和名称之外的任何内容我想我可以将整个文件作为 ByteArra
Windows npm 中的 Glob 通配符

我试图让 npm 在脚本文件夹上构建 browserify 问题是我在 Windows 上执行folder js 似乎不起作用我尝试过全局安装 glob 但每当我运行构建命令时都会返回错误提示找不到模块 c www projec
如何从 Web 服务响应中读取 HTTP 响应标头？

如何从 C 中的 Web 服务响应中读取 HTTP 响应标头在深入研究 MSDN 之后我所需要做的就是覆盖GetWebResponse方法然后我可以访问响应头 public class MyWSProxy HttpWebClientP
执行多尺度训练（yolov2）

我想知道多尺度训练如何YOLOv2 https arxiv org pdf 1612 08242 pdf works 论文中指出原始YOLO使用的输入分辨率为448 448 通过添加锚框我们将分辨率更改为416 416 然而由于我们的
CodeIgniter：帮助从网页获取元标记的类/库？

我正在使用代码点火器我想我使用哪个 php 框架并不重要但在我编写自己的类之前已经编写了另一个类该类允许用户获取任何站点的页面标题和元标记关键字描述如果有的话任何能够做到这一点的 PHP 类都很棒谢谢大家你应该看看这个类
如何设置文本字段字符限制 SwiftUI？

我正在使用 SwiftUi 版本 2 进行应用程序开发我遇到了 SwiftUI 中可用文本字段的问题我不想再使用 UITextField 了我想限制文本字段中的字符数我搜索了很多找到了一些与此相关的答案但这些答案不适用于 Swi
Docker：基础镜像

我试图理解 Docker 概念但我无法理解一件事据我了解镜像即容器可以从不同的 Linux 发行版实例化例如 Ubuntu CentOS 等假设我在主机上运行标准 Ubuntu 14 04 What happens if I
卷曲总是返回 false

下面的代码总是回显 false 我错过了什么吗 url https www google nl ch curl init curl setopt ch CURLOPT URL url curl setopt ch CURLOPT RETUR
找不到如何使用 HttpContent

我正在尝试使用HttpContent HttpContent myContent HttpContent Create SOME JSON 但我没有找到定义它的 DLL 首先我尝试添加对Microsoft Http也System Net
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代

Scrapy 使用带有规则的 start_requests

Scrapy 使用带有规则的 start_requests 的相关文章

随机推荐

热门标签