如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？

2024-06-25

我正在尝试编写一个爬行蜘蛛来爬行网站的 RSS 提要，然后解析文章的元标记。

第一RSS页面是显示RSS类别的页面。我设法提取链接，因为标签位于标签中。它看起来像这样：

        <tr>
           <td class="xmlLink">
             <a href="http://feeds.example.com/subject1">subject1</a>
           </td>   
        </tr>
        <tr>
           <td class="xmlLink">
             <a href="http://feeds.example.com/subject2">subject2</a>
           </td>
        </tr>

单击该链接后，它会为您带来该 RSS 类别的文章，如下所示：

   <li class="regularitem">
    <h4 class="itemtitle">
        <a href="http://example.com/article1">article1</a>
    </h4>
  </li>
  <li class="regularitem">
     <h4 class="itemtitle">
        <a href="http://example.com/article2">article2</a>
     </h4>
  </li>

正如你所看到的，如果我使用标签，我可以再次获得 xpath 的链接我希望我的爬虫转到该标签内的链接并为我解析元标签。

这是我的爬虫代码：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from tutorial.items import exampleItem


class MetaCrawl(CrawlSpider):
    name = 'metaspider'
    start_urls = ['http://example.com/tools/rss'] # urls from which the spider will start crawling
    rules = [Rule(SgmlLinkExtractor(restrict_xpaths=('//td[@class="xmlLink"]')), follow=True),
        Rule(SgmlLinkExtractor(restrict_xpaths=('//h4[@class="itemtitle"]')), callback='parse_articles')]

    def parse_articles(self, response):
        hxs = HtmlXPathSelector(response)
        meta = hxs.select('//meta')
        items = []
        for m in meta:
           item = exampleItem()
           item['link'] = response.url
           item['meta_name'] =m.select('@name').extract()
           item['meta_value'] = m.select('@content').extract()
           items.append(item)
        return items

然而，这是我运行爬虫时的输出：

DEBUG: Crawled (200) <GET http://http://feeds.example.com/subject1> (referer: http://example.com/tools/rss)
DEBUG: Crawled (200) <GET http://http://feeds.example.com/subject2> (referer: http://example.com/tools/rss)

我在这里做错了什么？我一遍又一遍地阅读文档，但我觉得我一直忽略了一些东西。任何帮助，将不胜感激。

EDIT:添加： items.append(item) 。原帖里忘记了。EDIT:：我也尝试过，结果是相同的输出：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from reuters.items import exampleItem
from scrapy.http import Request

class MetaCrawl(CrawlSpider):
    name = 'metaspider'
    start_urls = ['http://example.com/tools/rss'] # urls from which the spider will start crawling
    rules = [Rule(SgmlLinkExtractor(allow=[r'.*',], restrict_xpaths=('//td[@class="xmlLink"]')), follow=True),
             Rule(SgmlLinkExtractor(allow=[r'.*'], restrict_xpaths=('//h4[@class="itemtitle"]')),follow=True),]


    def parse(self, response):       
        hxs = HtmlXPathSelector(response)
        meta = hxs.select('//td[@class="xmlLink"]/a/@href')
        for m in meta:
            yield Request(m.extract(), callback = self.parse_link)


    def parse_link(self, response):       
        hxs = HtmlXPathSelector(response)
        meta = hxs.select('//h4[@class="itemtitle"]/a/@href')
        for m in meta:
            yield Request(m.extract(), callback = self.parse_again)    

    def parse_again(self, response):
        hxs = HtmlXPathSelector(response)
        meta = hxs.select('//meta')
        items = []
        for m in meta:
            item = exampleItem()
            item['link'] = response.url
            item['meta_name'] = m.select('@name').extract()
            item['meta_value'] = m.select('@content').extract()
            items.append(item)
        return items

您返回的是空的items，您需要附加item to items.
你也可以yield item在循环。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

webcrawler

Scrapy

如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？的相关文章

pandas 读取列中带有额外逗号的 csv

我正在阅读一个基本的 csv 文件其中各列用逗号分隔列名称如下 userid username body 但是正文列是一个可能包含逗号的字符串显然这会导致一个问题 pandas 会抛出一个错误 CParserError Error
查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
Python TypeError：不支持的操作数类型 -：“int”和“function”

我是 Python 初学者正在做一项作业我不断得到TypeError unsupported operand type s for int and function 即使在研究了错误并应用了建议的修复之后我并不是在寻找任何人给我一个解
Django表单中的隐藏字段不在cleaned_data中

我有这个表格 class CollaboratorForm forms Form user forms CharField label Username max length 100 canvas forms IntegerField wi
使用 Python 访问内存映射文件

我希望利用激战 2 中的内存映射文件该文件旨在链接到 Mumble 以获得位置音频该文件包含有关字符坐标的信息和其他有用的信息我已经能够使用此脚本访问坐标信息 import mmap import struct last while
Plotly：如何在堆叠条形图顶部显示值的总和以及各个条形值？

我正在尝试在 Python 中的 Plotly Express 中添加每个堆叠条形顶部的总计以及各个条形值 import plotly express as px df px data medals long fig px bar df x
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
如何为 PyYAML 编写代表程序？

我想要一个自定义函数来序列化任意 python 对象就像 json dump 函数有一个名为 default 的可选参数如果对象不是 json 可序列化的它应该是 json 转储器将调用的函数我只是想从 json 包中执行相当于此操
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
如何在 Google App Engine (Python) 中定义配置变量/常量？

我是 python GAE 的新手想知道如何快速定义和使用全局设置变量所以说你 git 克隆我的 GAE 应用程序然后打开config yaml 添加更改设置应用程序就全部连接起来如下所示 config yaml or whate
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
将列表列表替换为“压缩”列表列表，同时保持顺序

我有一个列表列表如我所附的代码所示如果有任何共同值我想链接每个子列表然后我想用列表的精简列表替换列表的列表例子如果我有一个清单 1 2 3 3 4 I want 1 2 3 4 如果我有 4 3 1 2 3 I want 4 3
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
VSCode IntelliSense 认为 Python 'function()' 类存在

VSCode IntelliSense 正在完成一个名为的 Python 类function 这似乎不存在例如这似乎是有效的代码 def foo value return function value foo 0 But functio
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector

随机推荐

如何定义自定义浮点型 numpy dtypes (C-API)

我有一个自定义浮点数据类型它使用两个 64 位浮点双精度类模拟 128 位浮点dd real来自量子点库 http crd legacy lbl gov dhbailey mpdist 我想从 C 将 ndarray 导出到 pyth
将属性字符串中的正则表达式匹配替换为 Objective-C 中的图像

我的目标是在 Parse com 中存储属性字符串的信息我决定为我的图像提出一种属性文本编码通过替换任何字符串来工作 X 与相应的图像放在大括号中例如 Picture of 2 colorless mana X 应该产生一个属性字符串
汇编器堆栈对齐（或使用 PUSH 更好的未对齐示例）

首先我了解或者我认为我了解堆栈未对齐的问题但我知道就像定义一样将 16 位值推入 32 位宽的堆栈可能会导致堆栈未对齐但我不明白的是这是怎么发生的因为PUSH and POP检查段描述符处的 D 标志 1 递增递减 32
子文件夹中的控制器和视图

我正在使用 ASP NET MVC 4 开发一个 Web 应用程序我想按以下方式组织我的控制器和视图 Controller Admin LessonController cs ExerciseController cs HomeContr
AWS Lambda 无法连接到 Parameter Store

我有一个AWSLambda java 我尝试进行测试以检索存储在 Parameter Store 中的密码这是我的一段代码 GetParameterRequest parameterRequest new GetParameterRequ
“child pid 10708 exit signal Segmentation failure (11)”错误的根本原因是什么？

我越来越child pid 10708 exit signal Segmentation fault 11 错误其根本原因是什么以及如何解决 php ini 内存与此有关吗我正在使用带有 php 的 apache2 服务器提前致谢完
使用 Firebase Storage 和 Firebase Firestore 创建离线第一个应用程序的最佳方式是什么？ #AskFirebase

首先我是 Firebase 新手我找不到展示如何使用 Firebase Storage 和 Firebase Firestore 创建离线优先移动应用的教程或示例我使用 Firestore 来保存有关项目的数据 id 名称图像我使用
std::stringstream 作为函数的参数

我有一个std vector
后台服务在奥利奥中不起作用

如果我也杀死应用程序实例我想在后台运行我的应用程序但在我杀死我的应用程序后该服务也停止工作这是我的代码请任何人帮助我解决我的问题我按照此链接在后台运行但如果删除实例它就不起作用如果实例也被删除谁能告诉我如何运行后台服务
printf 格式（%d 与 %u）

有什么区别 d and u当打印指针地址时例如 int a 5 check the memory address printf memory address d n a prints memory address 12 printf me
如何将 ROW_NUMBER() 分配给列？

看完之后这个问题 https stackoverflow com questions 1293390 sql to output line number in results of a query 我还有一个类似的问题有没有一种简单的方法
Powershell 将字符串转换为 System.Net.IPAddress

我是 powershell 新手我正在尝试自动创建 DHCP 预留到目前为止我可以像这样获取 IP 地址 IP GEt VM ComputerName HVCOMPUTERNAME VMName HVNAME Get VMNetwor
Rack 应用程序中的 Rails.root 等效项是什么？

我很熟悉Rails root在 Rails 中它会告诉您当前应用程序的目录这有时非常方便现在我正在开发一个 Rack 应用程序 Rails 就基于该应用程序我如何找到Rails root相当于机架应用程序谢谢这将返回字符串中的根
查找表或视图的依赖对象

背景在 PostgreSQL 中删除或替换对象时如果存在依赖关系则删除将失败不指定CASCADE Problem 数据库返回的错误信息没有列出依赖对象示例解决方案该查询可能类似于 SELECT FROM informatio
当数据大小超过 500 万时，在 mongoDb 中从 java 调用 find() 查询会变慢

我的应用程序在从 java 的 mongoDb 中执行 find 操作时遇到性能问题当数据大小超过 500 万时需要花费大量时间有时搜索单个文档需要数千毫秒任何意见都将受到赞赏 java查找查询 db test find flag
JPA 和枚举类型

我将一个枚举类型字段用于 JPA 实体 Enumerated value EnumType STRING private Temperament temperament Temperament MINEUR PUR 我的枚举在我的实体内声明
程序解释期间高效的增量哈希计算

我想写一个递归记忆Scheme解释器在求值过程中的任何时刻解释器都应该能够检测到它何时接收到之前见过的一对表达式和环境作为参数简单记忆eval and apply效率低下每次调用时都需要在哈希表中查找参数eval apply 这需要
该捆绑包无效 - 您的存档包含不允许的路径：（“AppThinning.plist”）

我们用 Xcode 9 制作了一个存档我们使用 Xcode 9 导出此存档我们使用 Application Loader 成功将应用程序上传到 iTunes Connect 然而不久之后我们收到了这样的消息该捆绑包无效您的存档包
如何使用应用程序跟踪 SMB 中的文件？

我用 PHP 构建了一个应用程序它显示用户主目录中的所有文件该目录也可以通过 samba 访问因此您可以从 Windows Mac 和 Linux 中的本机资源管理器访问它我想给每个文件一个 ID 以便我可以为每个文件分配标签你会
如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？

我正在尝试编写一个爬行蜘蛛来爬行网站的 RSS 提要然后解析文章的元标记第一RSS页面是显示RSS类别的页面我设法提取链接因为标签位于标签中它看起来像这样 tr td class xmlLink a href http feeds

如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？

如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？ 的相关文章

随机推荐

热门标签

如何正确使用Rules、restrict_xpaths来用scrapy抓取和解析URL？的相关文章