Scrapy 仅抓取每个页面的第一个结果

2024-05-13

我目前正在尝试运行以下代码，但它只保留每个页面的第一个结果。知道可能是什么问题吗？

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from firstproject.items import xyz123Item
import urlparse
from scrapy.http.request import Request

class MySpider(CrawlSpider):
    name = "xyz123"
    allowed_domains = ["www.xyz123.com.au"]
    start_urls = ["http://www.xyz123.com.au/",]

    rules = (Rule (SgmlLinkExtractor(allow=("",),restrict_xpaths=('//*[@id="1234headerPagination_hlNextLink"]',))
    , callback="parse_xyz", follow=True),
    )

    def parse_xyz(self, response):
        hxs = HtmlXPathSelector(response)
        xyz = hxs.select('//div[@id="1234SearchResults"]//div/h2')
        items = []
        for xyz in xyz:
            item = xyz123Item()
            item ["title"] = xyz.select('a/text()').extract()[0]
            item ["link"] = xyz.select('a/@href').extract()[0]
            items.append(item)
            return items

Basespider 版本可以很好地抓取首页上的所有所需数据：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from firstproject.items import xyz123

class MySpider(BaseSpider):
    name = "xyz123test"
    allowed_domains = ["xyz123.com.au"]
    start_urls = ["http://www.xyz123.com.au/"]


    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select('//div[@id="1234SearchResults"]//div/h2')
        items = []
        for titles in titles:
            item = xyz123Item()
            item ["title"] = titles.select("a/text()").extract()
            item ["link"] = titles.select("a/@href").extract()
            items.append(item)
        return items

很抱歉审查。出于隐私原因，我不得不审查该网站。

第一个代码按照我希望的方式很好地爬行页面，但是它只提取第一个项目标题和链接。注意：在 google 中使用“inspect element”的第一个标题的 XPath 是：
//*[@id="xyz123SearchResults"]/div[1]/h2/a,
第二个是//*[@id="xyz123SearchResults"]/div[2]/h2/a
第三是//*[@id="xyz123SearchResults"]/div[3]/h2/a etc.

我不确定 div[n] 位是否是杀死它的原因。我希望这是一个简单的修复。

Thanks

 for xyz in xyz:
            item = xyz123Item()
            item ["title"] = xyz.select('a/text()').extract()[0]
            item ["link"] = xyz.select('a/@href').extract()[0]
            items.append(item)
            return items

您确定退货的缩进吗？应该少一个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

screenscraping

Scrapy

Scrapy 仅抓取每个页面的第一个结果的相关文章

当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不

随机推荐

角度引导手风琴数据绑定问题

我有 2 个相同型号的下拉菜单一个位于手风琴内部另一个位于外部外部下拉菜单在 2 路数据绑定方面工作良好但手风琴内部的下拉菜单似乎只有 1 路绑定换句话说在 UI 中选择并不会设置模型值我找到了一个建议here https s
如何将多个文件上传到Firebase？

有没有办法将多个文件上传到 Firebase 存储它可以在一次尝试内上传单个文件如下所示 fileButton addEventListener change function e Get file var file e target
分层对象和 AutoFixture

我已经实现了一个用于存储标签的类标签集合必须是分层的所以我的类是 public class Tag public int Id get set public int Description get set public Tag Pare
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
分发 IronPython 应用程序

我正在考虑使用 IronPython 开发一个小型应用程序但是我想将我的应用程序分发给非技术人员因此理想情况下我希望能够为他们提供我的应用程序的标准快捷方式以及安装 IronPython 所需的说明第一的如果可能的话我什至希望我的
如何从 MacOS X Dock 启动脚本？

我知道我可以将应用程序固定到扩展坞并从那里启动它们但是有没有办法将不是 MacOS 意义上的应用程序的程序例如 bash 脚本固定到扩展坞上您可以将任何文件拖到 Dock 的右侧栏垃圾箱和文件夹所在的位置然后单击它来执行它
使用 POJO 仅更新 JOOQ 记录中已更改的字段

我想使用 POJO 作为源来更新 JOOQ 记录中已更改的字段 Record from Object http www jooq org javadoc 3 8 x org jooq Record html from java lang O
Android：等待 firebase valueEventListener

我正在尝试使用信号量来等待我的 firebase valueEventListener 我有一个用户信息活动其中包含用户必须填写的 6 个不同字段当用户保存他她的信息时我想进行全有或全无类型的检查某些用户信息不能重复例如用户
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
如何在android 4.2中显示选项菜单

我正在尝试在我的测试应用程序中创建菜单选项当我将清单中的主题设置为默认时我可以看到菜单菜单显示在顶部如果我将清单中的主题设置为 NoTitleBar 我看不到菜单选项我想在清单中设置主题 NoTitleBar 时获取菜单如何修复
Django 模型 - 外键作为主键

我有以下2张表在 models py 中 class Foo models Model uuid models CharField UUID primary key True default uuid4 and class FooExt
发生未处理的异常：工作区中未设置配置“生产”

您好在 Angular 8 中创建了一个项目最初它仅支持一种默认语言 US EN 然后我应用了本地化在准备生产构建的本地化之前我曾经给出以下命令 ng build prod base href Windchill com qiwkC
IE.navigate2 因保护模式关闭而失败

我正在从 Excel VBA 自动化 IE8 Excel 2010 Windows 7 Set IE CreateObject InternetExplorer Application IE Navigate2 URL 如果 URL 是处于
我的 unix 脚本出了什么问题

bin bash while echo n Player s name read name name ZZZ do searchresult grep name playername if searchresult 0 then echo
Elastic Beanstalk 添加多个 ssl 证书

我有一个 Docker Django api 应用程序可以从多个域 abc xyx com 或 def lmn com 调用我已从 Elastic beanstalk 中的配置控制台成功添加了 abc xyz com 的 ssl 证书
Clojure：让作用域和函数返回值

我在弄清楚如何使用 let 形式时遇到了一些麻烦在下面的示例中我想在本地绑定值 cols 以便稍后在函数中处理它然而我注意到如果我使用 let 函数 sel opt tmp 将返回 nil 值而不是列表 defn sel opt
C++ 中何时需要或需要“显式专业化”？

我正在阅读 C 入门 gt 函数冒险 gt 模板 gt 显式专业化为了说明显式专业化的原因用途举例说明了一个案例考虑一个可以交换任何类型的交换模板函数 int double struct etc 但有一个具体的struct job您
买入和卖出信号在图表上相差甚远

我尝试根据以下策略生成的信号绘制图表但我从脚本中观察到的是蜡烛的信号产生点不同如果有人知道这一点请帮助我作为参考我附上了下面的快照 1 买入信号快照 https i stack imgur com RLtoP png 2 卖出信号
在 Chrome 中，我可以直接进入设备模式而不使用 DevTools 吗？

铬的设备模式 https developers google com web tools chrome devtools device mode emulate mobile viewports hl en非常适合测试响应式布局但是似乎
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext

Scrapy 仅抓取每个页面的第一个结果

Scrapy 仅抓取每个页面的第一个结果 的相关文章

随机推荐

热门标签

Scrapy 仅抓取每个页面的第一个结果的相关文章