从Python运行Scrapy

2024-07-04

我正在尝试从 Python 运行 Scrapy。我正在查看这段代码（source http://doc.scrapy.org/en/0.16/topics/practices.html):

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from testspiders.spiders.followall import FollowAllSpider

spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

我的问题是我对如何调整此代码来运行我自己的蜘蛛感到困惑。我将我的蜘蛛项目称为“spider_a”，它指定要在蜘蛛本身内爬行的域。

我要问的是，如果我使用以下代码运行我的蜘蛛：

scrapy crawl spider_a

如何调整上面的示例 python 代码以实现相同的功能？

只需导入它并传递到crawler.crawl(), like:

from testspiders.spiders.spider_a import MySpider

spider = MySpider()
crawler.crawl(spider)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Debian

Scrapy

从Python运行Scrapy 的相关文章

更改 Django 中的表名称

我读过 Django 中的表名可以使用自定义元选项 https docs djangoproject com en dev ref models options 我想知道如何使用 db table 选项来继续使用应用程序名称但稍微修改模型
如何在列表列表中找到元素和最大的列表？

我有一个列表列表 x 1 2 3 4 5 6 7 8 9 2 2 0 我想得到列表中元素之和最大的列表在这种情况下 7 8 9 我宁愿有一个幻想map or lambda或列表理解方法比for while if loop 此致 max提出
无法访问http://0.0.0.0:8000

我正在按照以下指示进行操作https fenics readthedocs io projects containers en latest introduction html https fenics readthedocs io pro
导入文本文件：没有要从文件中解析的列

我正在尝试从 sys stdin 获取输入这是hadoop 的map reducer 程序输入文件为txt格式数据集预览 196 242 3 881250949 186 302 3 891717742 22 377 1 8788871
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import
pandas 预期第 153 行有 10 个字段，看到 11 个字段，如何再添加一列

我有一个 info txt 文件它看起来像这样 B 19960331 00100000 00000000000000 00000000000000 00000000000000 00000000 00000000000000 000000
使用 bs4 进行 HTML 解析

我正在解析一个 HTMl 页面并且很难弄清楚如何在没有类或 id 的情况下提取某个 p 标签我试图用经纬度到达 p 标签这是我当前的代码 import bs4 from urllib import urlopen as uReq th
python 中的神经网络：决策/分类总是给出 0.5

首先我想说我是一个Python初学者对神经网络也是完全陌生的当我读到它时我非常兴奋并认为我从头开始设置了一些代码参见下面的代码但不知怎的我的代码无法正常工作我猜想存在一些重大错误在算法和编程中但我现在找不到他们所以在
ipython：如何设置终端宽度

当我使用ipython terminal并想要打印一个numpy ndarray它有很多列行会在大约 80 个字符处自动断行即行的宽度为 cca 80 个字符 z zeros 2 20 print z 据推测 ipython 预计我的终
Kivy：如何在树视图中使用 on_key_down 和 on_key_up 键盘事件？

我在用python 2 7 and kivy 1 10 0 当我点击nameTextInput 然后树视图显示我希望选择标签up and down键并且当enter按下键文本被复制所选文本被复制到初始表单就像您单击该项目时当前完成
从子列表中切片元素 - Python

我想从中返回数字 5 list 1 1 2 3 4 5 6 我以为这会起作用但事实并非如此 print list 1 1 1 它返回一个空列表它是索引 1 第二个列表和位置 1 列表中的第二个数字这不应该起作用吗您需要两个单独的操
BeautifulSoup 3.1 解析器太容易崩溃

我在使用 BeautifulSoup 解析一些不可靠的 HTML 时遇到了麻烦事实证明新版本中使用的 HTMLParser 的容忍度低于以前使用的 SGMLParser BeautifulSoup 有某种调试模式吗我正在尝试找出如何阻
包装 np.arrays __pow__ 方法

我只是重新审视我的一些代码以提高性能并遇到了一些奇怪的事情 a np linspace 10 1000 1000000 reshape 1000 1000 timeit np square a 100 loops best of 3 8
添加 prefix_with 子句以插入特定类

我怎样才能定制prefix withSQLAlchemy 中的每个模型类以便每个模型类都可以有不同的插入语句我其实想要OR IGNORE子句添加到某些类中 PS 我对 SQLAlchemy 比较陌生 ORM 没有挂钩它的生成方式inse
如何从python3中的单行输入读取整数数组

我想从 python3 中的单行输入读取整数数组例如将此数组读取到变量列表 1 3 5 7 9 我尝试过的 arr input split 但这不会将它们转换为整数它创建字符串数组 arr input split for i val
id 是 python 中的关键字吗？

我的编辑器 TextMate 显示id使用与我常用的变量名称不同的颜色当用作变量名称时是关键字吗我不想遮蔽任何关键字 id不是一个keyword在Python中但它是一个的名字内置功能 http docs python org li
Python 中的 HTML 解析器 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用Python文档我发现了HTML解析器 http docs python org lib modu
使用 Python 3 在 Mac 上没有名为“_tkinter”的模块

我正在尝试使用 Tkinter 作为 GUI 将我的脚本捆绑到 app 中而执行捆绑的包装器是 Platypus 当我去运行该应用程序时我收到此错误 Traceback most recent call last File Users
Python 解释器优化

假设我有一个字符串x Python 解释器是否足够聪明能够知道 string replace x x 应转换为NOP 我怎样才能找到这个是否有任何参考资料显示解释器能够根据句法分析动态执行哪种类型的优化不 Python 不能对 NOP
您使用哪种 IDE（如果有）构建 python GUI 项目？

是否有任何 IDE 如 VS 支持拖放来构建 python GUI 连接到数据库等尽管我是一个 emacs 爱好者但我发现使用 VS 创建 GUI 更容易仅对于 GUI 我发现 VisualWx http visualwx alter

随机推荐

从 try catch finally 块中返回是不好的做法吗？

所以今天早上我遇到了一些代码如下所示 try x SomeThingDangerous return x catch Exception ex throw new DangerousException ex finally CleanUp
php curl 获取 html 和 js 渲染

php curl 只获取html页面的源代码不执行js脚本我需要我的网站获取已执行所有 JavaScript 的源代码我使用ajax 但无法在页面中添加更多js 因为当我加载另一个页面时脚本会保留我找到了 SpiderMonkey
SQLCMD :r 其中路径是变量

SQLCMD命令是否执行 r支持非常量文字路径吗例如 setvar path1 script sql r path1 SQL01260 A fatal parser error occurred r path1 SQL01260 A fa
是否可以在所有平台上确定性地从 jpeg 文件中读取像素？

我遇到一个问题我发现 JPEG 图像中的像素可能会略有不同具体取决于我用来读取它们的计算机我主要是一名Python程序员我更喜欢使用opencv来读取我的图像但我不反对使用PIL做一些事情或用C读取图像根据这篇文章JPEG 图像
使用 jQuery 和 Bootstrap 可重复使用的下拉菜单

我正在尝试使用最新的 jQuery 3 6 1 和 Bootstrap 5 2 3 构建可重用的下拉菜单但事实证明这很困难我需要使用单击的按钮上指定的数据属性的值动态更新下拉列表的链接我正在看优秀的solution https sta
OpenMP 运行线程但继续 main

我正在尝试使用 OpenMP 进行线程处理因为它是跨平台的但是我不知道如何使并行后的代码在循环运行时继续运行它基本上只是并行执行第一个循环但永远不会执行第二个非并行循环 int main pragma omp parallel wh
do.call(rbind, ...) 是否有更高阶的替代品？

考虑以下数据框A A lt data frame ID c 1 1 1 2 2 2 num c 6 2 8 3 3 1 With A 我想分开ID 然后计算差值num 可以几乎获得所需的结果 do call rbind Map func
PHP 警告：模块“mcrypt”已加载

当我使用 PHP 运行命令时它显示一个错误例如当我跑步时php v查看我的 PHP 版本它显示一个错误然后显示有关 PHP 的信息模块 mcrypt 已加载到第 0 行的未知中 zied ubuntu php v PHP Wa
无法更新firebase版本[重复]

这个问题在这里已经有答案了 C Users Kashish gt npm install g firebase tools npm WARN optional SKIPPING OPTIONAL DEPENDENCY timed out 4
cockplot：调用plot_grid后提取子图

我在用plot grid安排两个图 library ggplot2 library cowplot d data frame x rnorm 100 y rnorm 100 g sample c a b 100 replace T p1 g
使用两列的 T-SQL“不在其中”

我想从表 T1 中选择所有记录其中 A 列和 B 列中的值与表 T2 中的 C 列和 D 列没有匹配的元组 In mysql Where not in 使用两列 https stackoverflow com questions 8435
在 Java 中将 HTML 转换为纯文本

我需要将 HTML 转换为纯文本我对格式的唯一要求是在纯文本中保留新行新行不仅应在以下情况下显示 br 但其他标签例如 tr tr 也通向一条新线用于测试的示例 HTML 页面是 http www article kth se li
TURN 服务器缺少中继候选者

刚刚安装了 coturn 服务器 https github com coturn rfc5766 turn server https github com coturn rfc5766 turn server 看起来我只得到了 STUN 候
fgetpos/fsetpos 和 ftell/fseek 之间有什么区别

使用函数有什么区别fgetpos and fsetpos 并使用函数ftell and fseek 获取和设置文件中的位置什么是fgetpos and fsetpos 有什么好处为什么要使用它们而不是ftell and fseek 以上
模糊不同值

我有一个房地产列表数据库需要返回社区列表现在我正在使用 mysql DISTINCT 它返回所有不同的值我的问题是有很多社区具有相似的名称例如 Park View Sub 1 Park View Park View Sub 2 Pa
Chrome 控制台有没有办法在控制台输出中搜索字符串，即使是折叠的字符串？

我不想只过滤控制台输出而是还要在其中搜索字符串显示或折叠是否可以 CTRL F 无法在折叠的输出中搜索例如如果输出是Array 3 它显示为一棵倒塌的树即使您单击展开以显示有关阵列的详细信息您也无法在其中进行搜索 The Fi
模板元编程 - 使用 Enum Hack 和 Static Const 之间的区别

我想知道在使用模板元编程技术时使用 static const 和 enum hack 之间有什么区别 EX 斐波那契通过 TMP template lt int n gt struct TMPFib static const int val
Capybara Poltergeist/PhantomJS 测试 - 禁用页面上的 javascript

我的项目中有一个是 javascript 密集型的所以我有一个
在 C# 中访问交换电子邮件

你知道有没有办法吗我用过这个图书馆 http www codeproject com KB IP NetPopMimeClient aspx 20访问 pop3 服务器但它不能与 Exchange 服务器一起使用您是否知道任何其他库或
从Python运行Scrapy

我正在尝试从 Python 运行 Scrapy 我正在查看这段代码 source http doc scrapy org en 0 16 topics practices html from twisted internet import

从Python运行Scrapy

从Python运行Scrapy 的相关文章

随机推荐

热门标签