如何用Scrapy爬取整个网站？

2024-02-01

我无法抓取整个网站，Scrapy 只能抓取表面，我想抓取得更深。过去 5-6 个小时一直在谷歌搜索，但没有任何帮助。我的代码如下：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log

class ExampleSpider(CrawlSpider):
    name = "example.com"
    allowed_domains = ["example.com"]
    start_urls = ["http://www.example.com/"]
    rules = [Rule(SgmlLinkExtractor(allow=()), 
                  follow=True),
             Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
    ]
    def parse_item(self,response):
        self.log('A response from %s just arrived!' % response.url)

规则短路，这意味着链接满足的第一个规则将成为应用的规则，第二个规则（带有回调）将不会被调用。

将您的规则更改为：

rules = [Rule(SgmlLinkExtractor(), callback='parse_item', follow=True)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Web

webscraping

Scrapy

如何用Scrapy爬取整个网站？的相关文章

蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

Express 会话未持续

我正在尝试在节点中建立一个基本的会话系统这是我到目前为止所得到的 app js app use express cookieParser stackoverflow app use express session 我在 ajax js 中
JQuery：在整个对象之前插入

下面的代码用于选择特定对象并将其插入到 sharepoint 2010 中员工目录项列表中的所有对象之前如果职位名称在列表中managerTitles 如果此人尚未准备好则将其设为列表中的第一个 if inArray jobTitle3
“UnexpectedTagNameException”和 Element 应该是“select”，但通过 Selenium java 使用“Select”函数却出现“div”错误

在这种形式下下拉选择不起作用在上图中我想选择借贷能力我为它编写代码 public static void main String args throws InterruptedException WebDriver driver
使用 GPUImagePoissonBlendFilter 进行混合

我尝试使用 GPUImage 框架的 GPUImagePoissonBlendFilter 在我的脸部混合应用程序中混合两个脸部这是我的代码 void applyPoissonBlendToImage UIImage rearFace w
在 iOS 中的 Safari 中打开本地 PDF

假设 myURL 指向通过执行以下操作获得的 PDF myURL NSBundle mainBundle URLForResource my withExtension PDF 我可以调用 UIApplication sharedAppli
Python 析构函数未调用

任何人都知道如何让我的析构函数在对象销毁时调用 def del self os unlink self pidfile 场景有一个运行进程的守护进程守护进程收到一个 SIGTERM 并立即向 Process 发送一个 SIGTERM 进
ubuntu下安装pycairo

由于某种原因我无法让 python 找到开罗当我执行 waf 配置时我得到了 Setting top to home user pycairo py2cairo 1 10 0 Setting out to home user pyca
如何验证文本区域中的模式匹配？

当我在 javascript 中使用 textarea checkValidity 或 textarea validity valid 且值无效时这两个总是返回 true 我做错了什么
如何在 Android 应用程序中将图像上传到 FTP 服务器？

是否可以将图像从我的 Android 应用程序上传到 FTP 服务器该图像已经使用相机捕获在桌面应用程序中我们使用 FTP 客户端将任何文件图像上传到实时服务器我们如何在 Android 应用程序中做类似的事情使用这个对我来说效
在蓝牙打印机上打印

我需要在蓝牙打印机上打印我已经有一个用于 Windows 移动平台的程序它通过蓝牙将命令和数据发送到斑马 RW 420 打印机 http www zebra com id zebra na en index products print
如何使用 Spring 的 @Cacheable 和 Aerospike 作为缓存？

我只想用Aerospike作为后备缓存Spring CacheManager 当我不打算使用时我应该使用 spring data aerospikeAerospike作为数据存储但仅作为缓存有没有类似的实现HazelcastCacheMa
使用 .NET Core（API 和 HTTP）创建 Azure AD 应用程序和服务主体

继续我以编程方式创建 Azure 应用程序的探索这从https stackoverflow com a 44753728 1332416 https stackoverflow com a 44753728 1332416 我的核心获得了
所有 C# 转换都会导致装箱/拆箱吗

我很想知道 C 中的所有强制转换是否都会导致装箱如果不是那么所有强制转换都是成本高昂的操作吗示例取自装箱和拆箱 C 编程指南 http msdn microsoft com en us library yz2be5wk aspx i
可以从纯虚函数返回引用吗？

class I public virtual std wstring const GetName const 0 通常实现此接口的客户端将其名称包含在其主体中一切都很好但有时 GetName 的结果是在函数执行期间计算的使用静态变量
Angular2 中使用 [attr.attributeName] 和 [attributeName] 绑定属性之间的区别

我是 Angular2 的新手当 iam 绑定属性时我通常按以下方式进行操作示例1
如何以编程方式判断系统是 R/3 还是 S/4

是否可以通过代码判断当前系统是R 3还是S 4 我需要它因为我有一个返回人力资源相关数据的软件组件的方法但这个组件应该与R 3和S 4系统不同 DATA lv software component mo configuration gt
如何解决 ASP.NET Web API 中的连接超时过期问题？

我使用 ASP NET Web API 从数据库中检索大量数据作为 json 数据列表但在浏览器控制台中收到此错误 Failed to load resource the server responded with a status of
以编程方式更改数据库连接

在 Oracle SQL Developer 中我需要手动切换活动数据库连接假设登录凭据已保存是否有一个命令可以以编程方式连接到不同的数据库我试图避免单击窗口右上角的下拉菜单来选择活动连接也许我应该宁愿每个数据库有一个 SQL 文
使用PHPUnit测试cookie和session，如何？

使用 PHPUnit 可以很容易地测试原始 PHP 代码但是严重依赖 cookie 的代码又如何呢会议可能是一个很好的例子有没有不需要我设置的方法 COOKIE测试期间的数据这感觉像是一种很古怪的做事方式这是代码的常见问题尤其是
如何用Scrapy爬取整个网站？

我无法抓取整个网站 Scrapy 只能抓取表面我想抓取得更深过去 5 6 个小时一直在谷歌搜索但没有任何帮助我的代码如下 from scrapy contrib spiders import CrawlSpider Rule fro

如何用Scrapy爬取整个网站？

如何用Scrapy爬取整个网站？ 的相关文章

随机推荐

热门标签

如何用Scrapy爬取整个网站？的相关文章