Scrapy process_links 和 process_request 的示例代码

2023-11-27

我是 Scrapy 的新手，我希望有人能给我一些很好的示例代码，说明何时 process_links 和 process_request 最有用。我看到 process_links 用于过滤 URL，但我不知道如何编码。

谢谢。

你的意思是scrapy.spiders.Rule最常用于scrapy.CrawlSpider

它们的功能与名称差不多，或者换句话说，它们在提取链接和处理/下载之间充当中间件。

process_links位于链接被提取并转换为 request 之间。有一些很酷的用例，仅举几个常见的例子：

过滤掉一些您不喜欢的链接。
手动进行重定向以避免错误的请求。

例子：

def process_links(self, link):
    for link in links:
        #1
        if 'foo' in link.text:
            continue  # skip all links that have "foo" in their text
        yield link 
        #2
        link.url = link.url + '/'  # fix url to avoid unnecessary redirection
        yield link

process_requests位于刚刚发出的请求和下载之前之间。它与以下共享一些用例process_links但实际上可以做一些其他很酷的事情，例如：

修改标头（例如cookie）。
根据 url 中的某些关键字更改回调等详细信息。

example:

def process_req(self, req):
    # 1
    req = req.replace(headers={'Cookie':'foobar'})
    return req
    # 2
    if 'foo' in req.url:
        return req.replace(callback=self.parse_foo)
    elif 'bar' in req.url:
        return req.replace(callback=self.parse_bar)
    return req

您可能不会经常使用它们，但这两个在某些情况下可能是非常方便和简单的快捷方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy process_links 和 process_request 的示例代码的相关文章

使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

C# ASP.NET 页面离开事件？

我正在寻找一个会触发的事件或一种判断用户是否离开页面的方法导航到另一个页面或完全关闭该页面通过引发的事件这可能吗本身不在 ASP NET 中您必须编写一些前端 JavaScript 才能使用类似的方法来执行此操作window onb
使用 Scikit Learn SVM 准备文本分类数据

我正在尝试应用 Scikit learn 中的 SVM 对我收集的推文进行分类因此将有两个类别将它们命名为 A 和 B 目前我将所有推文分类为两个文本文件 A txt 和 B txt 但是我不确定 Scikit Learn SVM
根据日期选择最近 5 行

我已经有一段时间没有接触 PHP 了并尝试选择数据库中最近的 5 个条目并将它们打印到屏幕上我看到不再推荐使用 mysql 命令并使用 PDO gt mysql 代替我的查询是这样的 SELECT id title date auth
Windows堆块头解析和大小计算

如何根据从内存读取的原始字节计算堆块大小我尝试了下面的事情 0 001 gt heap Index Address Name Debugging options enabled 1 00500000 2 00280000 3 008f00
Python中如何获取实例变量？

Python中是否有内置方法来获取所有类实例变量的数组例如如果我有以下代码 class hi def init self self ii foo self kk bar 我有办法做到这一点 gt gt gt mystery method
准备语句是否可以保护您的数据库？

我知道你们中的一些人可能会结束这个问题但我的问题是由你们和你们的回答提出的我正在阅读过去两个小时有关 SQL 注入以及如何保护数据库的问题和解答我看到的大量网页和教程也是如此我发现一半的人声称准备语句确实可以保护您的数据库而另外
Visual Studio 2010：复制类的最简单方法？

有没有一种简单的方法可以用不同的名称复制一个类不确定这是否可以作为最简单的方法但如果您有锐锐你可以使用它的复印类型重构以复制类接口结构并控制副本所在的命名空间并在副本中命名这意味着如果您复制具有 5 个构造函数的类则副本将全
typescript 4.4.4：tsconfig 路径未按预期解析

我的 tsconfig json compilerOptions target ES2018 module CommonJS lib ESNext ESNext AsyncIterable skipLibCheck true sourceM
致命：用户“postgres”的密码身份验证失败

在 ubuntu 中收到此错误消息在 pg hba conf 文件中我尝试在不同时间使用 ident peer trust md5 但没有成功请帮忙在你的 pg hba conf 中 IPv4 local connections T
如何在 Axis2 客户端中正确使用 WS-Addressing？

全部我正在尝试编写一个在 Axis2 1 5 中调用 Web 服务客户端的 Junit 测试但我对如何准确地将其设置为使用 WS Addressing 感到困惑我使用 wsdl2java 生成了一个客户端存根并且使用 axis2 二
itextsharp 测量块宽度/高度

我正在尝试使用 iTextSharp 进行一些精确对齐但我一直达不到要求因为我无法找到一种方法来获取块或段落的宽度高度值如果我创建一个具有特定字体大小和文本的段落那么它的尺寸应该是已知的对吗我知道默认的左右中心对齐对我来
在 ASP.NET Core 中将 Razor 视图渲染为字符串

I use 剃刀引擎用于解析我的 MVC 6 项目中的模板如下所示 Engine Razor RunCompile File ReadAllText fullTemplateFilePath templateName null model
模块 t 导入意外值 null

在将我的应用程序 Angular2 express starter 的一个分支部署到 Heroku 时我遇到了这个奇怪的问题 https totalautosapp herokuapp com 起初我以为是 Heroku 但我将它部署到
这种形式的方法调用仅允许类方法错误

我不断收到此错误在FGetZoneData I have var SelectedDept String implementation procedure TFGetZoneDept GetClick1 Sender TObject va
限制选择列表的初始宽度

我有一个选择列表其中一些客户为他们输入了非常长的选项这破坏了设计我想知道是否有一种方法可以在选择小部件上设置固定宽度但它生成的下拉菜单仍然足够宽以显示所有选项由于您没有指定所需的浏览器支持因此这可能是也可能不是解决方案这适用于
脚本是否有一种相当简单的方法来判断（从上下文）“她”是否是所有格代词？

我正在编写一个脚本来反转一段文本中的所有性别因此所有性别单词都会被交换男人与女人交换她与他交换等等但是存在歧义因为是否应该用他或他的代替她好的让我们像语言学家一样看待这个问题我在这里大声思考 Her
Android，布局中的透明子GLSurfaceView？ [复制]

这个问题在这里已经有答案了可能的重复 Android OpenGL ES 透明背景我想在正常的 2d ui 布局屏幕上显示一些 3d 对象 2d ui 屏幕有背景图像 GLSurfaceView 是内容布局的子级我在 ApiDemos
NSUserDefaults 是否会通过更新 Appstore 中的应用程序而持续存在？

是这样吗当您向 App Store 上的应用程序提交更新时 NSUserDefaults 是否会重置或者是否会重置我的应用程序在更新时崩溃但在完全下载时不会崩溃所以我试图确定更新的会话与新下载的会话中可能有什么不同干杯缺口除
如何使用 dplyr 将累积列添加到 R 数据帧？

我有同样的问题这个帖子但我想用dplyr 使用 R 数据框例如 df lt data frame id rep 1 3 each 5 hour rep 1 5 3 value sample 1 15 如何添加与 id 匹配的累积和列 W
Scrapy process_links 和 process_request 的示例代码

我是 Scrapy 的新手我希望有人能给我一些很好的示例代码说明何时 process links 和 process request 最有用我看到 process links 用于过滤 URL 但我不知道如何编码谢谢你的意思是sc

Scrapy process_links 和 process_request 的示例代码

Scrapy process_links 和 process_request 的示例代码 的相关文章

随机推荐

热门标签

Scrapy process_links 和 process_request 的示例代码的相关文章