在 scrapy 的 start_requests() 中返回项目

2023-11-30

我正在编写一个 scrapy 蜘蛛，它将许多 url 作为输入并将它们分类（作为项目返回）。这些 URL 通过我的爬虫程序提供给蜘蛛程序start_requests() method.

有些网址不需要下载就可以分类，所以我想yield直接Item对于他们来说start_requests()，这是scrapy禁止的。我怎样才能规避这个问题？

我考虑过在自定义中间件中捕获这些请求，这会将它们变成虚假的Response对象，然后我可以将其转换为Item请求回调中的对象，但欢迎任何更干净的解决方案。

我认为使用蜘蛛中间件并覆盖 start_requests() 将是一个好的开始。

在中间件中，您应该循环遍历 start_urls 中的所有 url，并且可以使用条件语句来处理不同类型的 url。

For your special URLs which do not require a request, you can
- 直接调用管道的 process_item()，不要忘记导入管道并从您的网址为此创建一个 scrapy.item
- 正如您所提到的，在请求中将 url 作为元传递，并有一个单独的解析函数，该函数仅返回 url
对于所有剩余的 URL，您可以启动“正常”请求，因为您可能已经定义了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

在 scrapy 的 start_requests() 中返回项目的相关文章

Django：模拟模型上的字段

如何将模拟对象分配给该模型上的用户字段无论如何都要绕过 SomeModel user 必须是 User 实例检查吗 class SomeModel models Model user models ForeignKey User 我不会
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

Unity无法设置ActiveScene

我正在切换场景 SceneManager LoadScene Scene2 Debug Log Current scene SceneManager GetActiveScene name 调试说 Current scene Scene1
不使用 As 的条件类型

我有一个名为movies可以采用定义为以下接口的两种形状的形式 interface BaseMovie id number title string interface MultiSearchResult extends BaseMovie
使用 ggplot2 从两个不同的数据帧创建密度图

我的目标是比较多年来收入等各种社会经济因素的分布以了解特定地区的人口在五年内的变化情况这方面的主要数据来自于公共使用微观数据样本我在用R ggplot2作为我的首选工具在比较两年的数据 2005 年和 2010 年时我有两个数据
Task.Wait 不等待异步方法完成

这是代码 static async Task Main string args var t new Task async gt await AsyncTest t Start t Wait Console WriteLine Main fi
Android：GridView 宽度未换行至内容？

我正在尝试在对话框中显示 GridView 尽管我付出了所有努力 GridView 宽度还是增长到整个屏幕而不是环绕到列下面是描述该问题的布局和图像我为 GridView 设置了背景颜色来说明该问题
使用 cURL 将数据 POST 到表单

我正在尝试使用 cURL 将数据发布到此 URL 上的表单 http dq sdc bsnl co in dq reversePhone seam cid 812363 看到它的来源形式看起来像
如何使用 HTML/Javascript 保存列表元素

我正在创建一个网站用户可以在其中将项目添加到待办事项列表中可以添加项目也可以删除它们我使用 JavaScript 做到了这一点但现在我想在刷新页面时保存列表的当前项目我希望待办事项列表保存当前项目包括用户添加的项目以便重新加载
表达式“变量，变量=值；”

我一直在查看一些 MFC 代码发现了这个表达式它在 OnInitDialog 函数中看起来不是 MFC 特定的变量有一些名称值为 0 int volatile something somethingElse this was gl
Android的drawable目录可以包含子目录吗？

在 Android SDK 文档中使用 drawable my image xml 语法的所有示例都直接寻址存储在我的项目的 res drawable 目录中的图像我想知道在可绘制目录中创建子目录是否明确是不行的例如如果我有以下目录
如何将Setup.exe、Setup.msi 和.NetFramework 必备组件合并到单个安装程序中？

如何将 vs2010 安装项目中的安装文件和必备文件合并在一起在我的发布目录中有3个文件 setup exe Setup1 msi DotNetFX40Client dotNetFx40 Client x86 x64 exe 我需要将这些
外部生成的 SQLite 数据库被 Android 的 SQLiteOpenHelper 视为只读

我有一个使用 SQLite JDBC 连接器生成的 SQLite 数据库here 然后我将此数据库复制到 Android 手机的 SD 卡并尝试使用 SQLiteOpenHelper 打开它我得到以下异常 ERROR SQLiteOp
Codeception 无法点击之前见过的元素

亲爱的 Stackoverflow 的人们大家好目前我正在使用 Selenium 作为 WebDriver 模块使用 Codeception 编写验收测试在我检查子导航是否存在是否完整且有效的测试中我遇到了以下代码 I gt se
如何在 RESTful API 中实现二级身份验证？

我正在为一个相当复杂的 Web 应用程序编写 RESTful API 进一步称为 api mywebapp com 这些要求包括 api mywebapp com 应处理 API 级别身份验证授权客户端应用程序例如移动应用程序用户
实现 IComparable' aria-label='F# -> 为 HashSet<'a> 实现 IComparable'> F# -> 为 HashSet<'a> 实现 IComparable

是否有可能以某种方式实施IComparable for a HashSet lt a gt 原因是我声明了以下记录
有没有办法填充特定值之间的列的缺失值？ [复制]

这个问题在这里已经有答案了假设我在 R 中创建一个数据框如下所示 df1 lt data frame time 1 20 trial c NA NA NA 1 NA NA NA 1 NA NA NA 2 NA NA NA 2 NA NA
在可重用单元格中显示下载进度

我正在尝试在我的集合视图单元格中显示下载进度我当前使用解析进度块它具有单元格的实例并更新进度栏 progressBlock percent in self mainQueue addOperation set the downloadP
有没有简单的方法来防止输入回声？

如何防止输入时出现回声尝试过 getpass 但没有运气在 Windows IDLE 上它不起作用 Python 3 3 2 v3 3 2 d047928ae3f6 May 16 2013 00 03 43 MSC v 1600 32
SMT 求解器中约束强化的效率

解决优化问题的一种方法是使用 SMT 求解器来询问是否存在坏解决方案然后逐步添加更严格的成本约束直到命题不再可满足例如该方法在以下内容中进行了讨论 http www lsi upc edu oliveras espai pape
找出创建满足 m 个条件的长度为 n 的序列 A 的多种方法

找出创建满足 m 个条件的长度为 n 的序列 A 的多种方法该序列 A 应仅包含非负数每个条件由三个整数 i j k 描述表示 max A i A j k 保证序列的每个索引至少在一种情况下存在即存在有限数量的此类序列 n 的最大值
在 scrapy 的 start_requests() 中返回项目

我正在编写一个 scrapy 蜘蛛它将许多 url 作为输入并将它们分类作为项目返回这些 URL 通过我的爬虫程序提供给蜘蛛程序start requests method 有些网址不需要下载就可以分类所以我想yield直接Item对

在 scrapy 的 start_requests() 中返回项目

在 scrapy 的 start_requests() 中返回项目 的相关文章

随机推荐

热门标签

在 scrapy 的 start_requests() 中返回项目的相关文章