Python Scrapy：“runspider”和“crawl”命令有什么区别？

2024-06-19

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令？应该在什么情况下使用它们？

在命令中：

scrapy crawl [options] <spider>

<spider>是项目名称（在settings.py中定义，如BOT_NAME).

并在命令中：

scrapy runspider [options] <spider_file>

<spider_file>是包含蜘蛛的文件的路径。

否则，选项是相同的：

Options
=======
--help, -h              show this help message and exit
-a NAME=VALUE           set spider argument (may be repeated)
--output=FILE, -o FILE  dump scraped items into FILE (use - for stdout)
--output-format=FORMAT, -t FORMAT
                        format to use for dumping items with -o

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--lsprof=FILE           write lsprof profiling stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

Since runspider不依赖于BOT_NAME参数，具体取决于您自定义抓取工具的方式，您可能会发现runspider更灵活。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

Scrapy

Python Scrapy：“runspider”和“crawl”命令有什么区别？的相关文章

从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
Python Scrapy：“runspider”和“crawl”命令有什么区别？

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令应该在什么情况下使用它们在命令中 scrapy crawl options
Vimeo API：获取下载所有视频文件的链接列表

再会我正在尝试从 Vimeo 帐户获取所有视频文件的列表直接下载的链接有没有办法在 1 GET 请求中做到这一点好的如果是API限制的话就100倍我有硬编码脚本我在其中发出 12 个 GET 请求 1100 多个视频根据文
App Engine 上的 Django 与 webapp2 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用另一个方法的签名创建一个新方法

如何从一个类复制方法的签名并在另一个类中创建具有相同签名的代理方法我正在用 python 编写一个 RPC 库服务器支持对服务器端类 C 的远程调用当客户端连接到服务器时它应该为C创建一个具有相同签名的代理类当程序调用代理实例
Python 时间序列聚合

我有一个像这样的数据框 df project ID country prj start prj end revenue profit 2131 USA 201603 201703 100000 30000 5124 UK 201502 20
在 matplotlib 中向颜色条添加标记或线条

我有以下几行代码来生成热图 pcolormesh import matplotlib pyplot as plt import numpy as np vals np linspace np pi 2 np pi 2 101 x y np
Python ImportError：无法导入名称 __version__

我正在尝试使用 requests 和 requests oauthlib 现在只是尝试他们在 requests oauthlib 文档中使用的极其简单的 Twitter 验证凭据示例以确认我已经完成了基础工作我做了 pip instal
Python：从命令行运行时包含库文件夹

我有一个目录结构 root dir src p1 py lib init py util1 py util2 py 我想跑src p1 py它使用lib util1 py使用导入语句import lib util1 as u1 当我使用 P
HTTPError：HTTP 错误 403：禁止

我制作了一个供个人使用的 python 脚本但它不适用于维基百科这项工作 import urllib2 sys from bs4 import BeautifulSoup site http youtube com page urlli
熊猫计算唯一行

我有一个类似于以下内容的 pandas 数据框 ColA ColB 1 1 1 1 1 1 1 2 1 2 2 1 3 2 我想要一个具有相同功能的输出Counter https docs python org 2 library coll
跨多个模块的 Python 日志记录

我正在尝试将日志记录到控制台而不是文件添加到我已经工作了一段时间的代码中阅读了一些内容后我有一个我认为应该可行的模式但我不太确定我哪里出错了我有以下三个文件显然是简化的控制器 py import my module impo
Raspberry pi 3 B+ 中的串行通信

我想在 Raspberry pi 3 B 和 GSM GPRS A6 之间进行通信我尝试过但无法从 Raspberry pi 向 GPRS 模块发送数据现在我知道在较新的操作系统在我的例子中是 Raspbian Stretch 中
Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

我使用内存使用量较高的大数据帧并且我读到如果更改重复值列上的数据类型我可以节省大量内存我尝试了一下确实内存使用量下降了 25 但随后我遇到了我无法理解的性能缓慢问题我对 dtype 类别列进行分组聚合在更改 dtype 之前
什么时候使用 zip 代替 izip 更好？

什么时候使用比较好zip https docs python org 2 library functions html zip代替itertools izip https docs python org 2 library itertool

随机推荐

删除 WebView Android 中不需要的空白

我已经开始使用 WebView 开发应用程序实际上我正在使用 Webview 加载图像我喜欢使用该类的内置缩放控件我可以成功加载图像但我可以看到一些令人恼火的空白我找不到删除它的方法我的图像尺寸为 750 1000 我在下面附上
Java CRC32：与 C# 中的 CRC 不同

我必须将文件与 java 和 C 脚本提供的 CRC32 代码进行比较当我用 java util zip CRC32 计算 CRC32 时结果完全不同我的猜测是 C 脚本的多项式 0x2033 与 zip CRC32 中使用的不一样
在 Scala 中调用 WebSocket 中的方法

我是 scala Play 框架和 Akka 的新手我的函数定义为 def socket WebSocket accept String String request gt ActorFlow actorRef out gt MyWebS
从后台恢复后，Flutter GoogleMap 为空白

我遇到以下问题我的 Flutter 应用程序使用 GoogleMap 地图最初加载得很好但是如果我将应用程序置于后台并稍后恢复地图将保持空白 Google 徽标仍然显示就像未指定 API 密钥时发生的情况一样我的多边形叠加层也不
从嵌套列表创建数组时抑制 Numpy 中的科学记数法

我有一个嵌套的 Python 列表如下所示 my list 3 74 5162 13683628846 64 12783387559 86 1 81 9 55 116 189688622 37 260332262 0 1 97 2 2 7
将 EditText 设置为带有整数的货币

全部我有一个TextWatcher格式化一个EditText货币格式 private String current public void onTextChanged CharSequence s int start int before
Rhino 和 Spidermonkey JavaScript 引擎有什么区别？

我第一次开始学习 Javascript 但是一开始我就坚持了两个可能的选择 Rhino 和 Spidermonkey 请您告诉我什么是一个什么是另一个以便我可以轻松地为自己选择适合我需要的最佳选择如果这对您来说更容易您可以列出两个
如何在 Process.Start 上使用 Microsoft Fakes 程序集

我想嘲笑系统诊断进程启动调用所以我为System集会问题是Start是一个静态方法系统诊断过程所以我没有得到一个能够为 Start 方法挂钩委托的垫片这样做的正确方法是什么因此首先您需要为 Process 类生成 Shi
图像下方不需要的边距

我有一个图像和一个 div 我想将其放置在其下方这是小提琴 http jsfiddle net d3Mne 1 http jsfiddle net d3Mne 1 问题是两者之间存在差距此下边距仅出现在图像中有什么办法可以去除吗 Se
Excel 接受一些字符，而 OpenXml 有错误

我有一个字符串我想使用 C 中的 openxml 组件将其导出到 Excel 文件我的文本有 u001f 字符而 openxml 对此字符有错误错误文本十六进制值 0x1f 是无效字符我将该测试直接复制到 Excel 中没有问
部分预处理 C 或 C++ 源文件？

有没有办法部分预处理C或者C 源文件我所说的部分预处理是指扩展一些但不是全部的 include 指令例如我想扩展 includes 指向我的项目标头但不扩展 includes 指向其他库的标头我尝试通过运行来做到这一点gcc
Electron webContentsexecuteJavaScript：无法在 loadURL 上第二个执行脚本

我正在测试 Electron 特别是使用executeJavaScript 我的项目使用 POST 请求登录网站然后执行一些工作并使用同一会话加载第二个 URL 在第二个 URL 中我需要执行 JS 但我不确定我做错了什么在此示例中
需要按天分割日期时间范围

我有一个需要根据日期时间拆分的表输入表 ID Start End A 2019 03 04 23 18 04 2019 03 04 23 21 25 A 2019 03 04 23 45 05 2019 03 05 00 15 14 所需
在哪里实现 Swift 协议？

在 Swift 中实现协议一致性时我有两个选择具有相同的最终结果在类中实现协议也就是说在类定义的顶部声明一致性并将实现放在类体内或者在扩展中实现协议也就是说完全在类之外编写符合协议的代码这是一个例子 public cl
如何定义与更高类型类型（类型构造函数）绑定的上下文

我尝试过以下方法 def test Option T Ordering value1 Option T value2 Option T val e implicitly Ordering Option T compare value1 va
在 Delphi 中的 SOAP 标头中发送简单字符串

我需要发送这样的东西
为什么这个符号链接创建了两个实例

我有一个用于我的点文件的安装脚本我用来创建一个目录到我的主文件夹的符号链接这些链接执行得很好但创建了第二个符号链接我无法解释为什么项目中的文件夹结构如下所示 install sh scripts shell sh shell in
AWS ELB 和 GoDaddy 域正在运行

我已在 goDaddy com 中注册了一个域并希望将流量发送到 AWS Route53 我创建了一个 ELB 我执行了以下步骤在 Route 53 中为我的 godaddy 域名创建一个托管区域这反过来又为我提供了一条包含 4 个
找不到 OAuth2 参数

我正在尝试使用 OAuth 2 0 来授权 google docs API 根据谷歌给出的例子https developers google com google apps documents list authorizing reques
Python Scrapy：“runspider”和“crawl”命令有什么区别？

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令应该在什么情况下使用它们在命令中 scrapy crawl options

Python Scrapy：“runspider”和“crawl”命令有什么区别？

Python Scrapy：“runspider”和“crawl”命令有什么区别？ 的相关文章

随机推荐

热门标签

Python Scrapy：“runspider”和“crawl”命令有什么区别？的相关文章