Scrapy Spider 不关注链接

2023-12-02

我正在编写一个 scrapy 蜘蛛来从主页上抓取今天的《纽约时报》文章，但由于某种原因它不跟踪任何链接。当我实例化链接提取器时scrapy shell http://www.nytimes.com，它成功提取了文章网址列表le.extract_links(response)，但我无法获取抓取命令（scrapy crawl nyt -o out.json）抓取除主页以外的任何内容。我有点无计可施了。是因为主页没有从解析函数中生成文章吗？任何帮助是极大的赞赏。

from datetime import date                                                       

import scrapy                                                                   
from scrapy.contrib.spiders import Rule                                         
from scrapy.contrib.linkextractors import LinkExtractor                         


from ..items import NewsArticle                                                 

with open('urls/debug/nyt.txt') as debug_urls:                                  
    debug_urls = debug_urls.readlines()                                         

with open('urls/release/nyt.txt') as release_urls:                              
    release_urls = release_urls.readlines() # ["http://www.nytimes.com"]                                 

today = date.today().strftime('%Y/%m/%d')                                       
print today                                                                     


class NytSpider(scrapy.Spider):                                                 
    name = "nyt"                                                                
    allowed_domains = ["nytimes.com"]                                           
    start_urls = release_urls                                                      
    rules = (                                                                      
            Rule(LinkExtractor(allow=(r'/%s/[a-z]+/.*\.html' % today, )),          
                 callback='parse', follow=True),                                   
    )                                                                              

    def parse(self, response):                                                     
        article = NewsArticle()                                                                         
        for story in response.xpath('//article[@id="story"]'):                     
            article['url'] = response.url                                          
            article['title'] = story.xpath(                                        
                    '//h1[@id="story-heading"]/text()').extract()                  
            article['author'] = story.xpath(                                       
                    '//span[@class="byline-author"]/@data-byline-name'             
            ).extract()                                                         
            article['published'] = story.xpath(                                 
                    '//time[@class="dateline"]/@datetime').extract()            
            article['content'] = story.xpath(                                   
                    '//div[@id="story-body"]/p//text()').extract()              
            yield article

我已经找到了解决我的问题的方法。我做错了两件事：

我需要子类化CrawlSpider而不是Spider如果我想让它自动抓取子链接。
使用时CrawlSpider，我需要使用回调函数而不是覆盖parse。根据文档，覆盖parse breaks CrawlSpider功能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy Spider 不关注链接的相关文章

在 python 中 pickling 数据时出现内存错误

我正在尝试使用 python 中提供的 dump 命令将字典转储为 pickle 格式字典的文件大小约为 150 mb 但仅转储 115 mb 的文件时会出现异常例外情况是 Traceback most recent call last
xlsxwriter 错误：AttributeError：“工作簿”对象没有属性“add_format”

我正在使用 xlsxwriter 进行一些简单的条件格式化但是当我运行下面的代码时出现此错误 AttributeError Workbook object has no attribute add format 我已经更新了 xlsxwr
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
张量流 - 向量中的前 k 个值到二进制向量

假设我有一个带有值的向量 0 4 1 2 8 7 0 2 如何获得前 k 个值的二进制向量 k 3 0 1 0 0 1 1 0 0 in 张量流 TensorFlow 的tf math top k https www tensorflow
Python 中 Matlab 'fscanf' 的等价物是什么？

Matlab函数fscanf 似乎很强大 python 或numpy 中是否有相同的等效项具体来说我想从文件中读取矩阵但我不想迭代每一行来读取矩阵类似的东西来自 matlab 用于读取 2D 1000x1000 矩阵 matrix
使用unittest时如何知道每次测试花费的时间？

Unittest 仅显示运行所有测试所花费的总时间但不单独显示每个测试所花费的时间使用unittest时如何添加每个测试的计时我想目前不可能 http bugs python org issue4080 http bugs pyth
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
Python列表错误还是我错了？

我构建了一个 3 级嵌套列表 run on Python 3 2 3 32 bit on Win 7 L2 list 0 for i in range 2 L3 list L2 for i in range 3 L4 list L3 for
在未运行 python 中的函数的情况下检查了非本地语句[重复]

这个问题在这里已经有答案了以前我认为当我们定义一个函数时该函数可能是错误的但python在执行之前不会检查它 x 100 def f x 1 0 return x print x gt gt gt 100 然而当我学习的时候nonl
2D 矩阵上的 Numpy where()

我有一个像这样的矩阵 t np array 1 2 3 foo 2 3 4 bar 5 6 7 hello 8 9 1 bar 我想获取行包含字符串 bar 的索引在一维数组中 rows np where t bar 应该给我索引 0 3
使用缓存时计算“页面浏览量”或“点击量”

我有一个叫做show board 在其中除其他外我增加了一个字段Board views每次运行时加 1 以计算页面浏览量问题是当我在该视图上使用 cache page 装饰器时 Board views仅在每次生成新的缓存视图时才会增加
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
如何在我的 heroku 应用程序上安装软件包？

我有一个使用 Shortuuid 的应用程序 https pypi python org pypi shortuuid 0 1 https pypi python org pypi shortuuid 0 1 当我使用 runapp py
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决
评估 df 每行中的日期时间函数是否落在另一个 df 中的日期时间范围内

我是 python 新手需要一些帮助来解决有关日期时间函数的问题 I have df a其中有一列标题为time 我正在尝试创建一个新专栏id在这个df a 我想要id根据时间是否包含在某个时间范围内来确定的列df b date 和 da

随机推荐

设置与 pyplot.scatter 中的颜色匹配的图例

假设我的数据按以下方式组织 x values 6 2 3 6 7 3 3 2 2 7 y values 1 5 3 2 5 4 3 1 2 8 colours 1 1 0 1 1 labels a a b a c 我想用这个做一个散点图 a
将字符串保存到 .setting 变量

我试图从我的FolderBrowserDialog SelectedPath 中保存一个字符串变量使用断点我可以看到该字符串已正确加载到 SelectedPath 上但我无法将该字符串保存到 settings 文件中有什么帮助吗 p
MySQL 更新递增（非自动递增）列值

我有一个有 4 列的表其中一列称为顺序 Order 不是自动递增的但另一列 mapping id 是自动递增的其他列包括 quiz id 和 question id 我想将 order 的所有值更改为与 Question id 字段
Airflow 1.10 - 调度程序启动失败

我刚刚痛苦地安装了 Airflow 1 10 感谢我之前的帖子在这里我们有一个正在运行的 ec2 实例我们的队列是 AWS Elastic Cache Redis 我们的元数据库是 AWS RDS for PostgreSQL 当我们使
使用 AdWords 关键字生成器 API 时生成意外输出

当使用 Google Adwords API 关键字生成器时这个例子我假设我会得到一些与我所做的查询相关的关键字太空巡航相反我得到以下信息 Keyword with space cruise f125bcf7 text and av
如何在 PL/pgSQL 中获取动态生成的字段名的值

示例代码精简了演示问题的基本要素 CREATE OR REPLACE FUNCTION mytest4 RETURNS TEXT AS DECLARE wc row wc files ROWTYPE fieldName TEXT BEGIN
如何对由 numpy.void 数字组成的 numpy.ndarray 进行切片？

所以事情是这样的我有变量x这是一个numpy ndarray 这个结构的大小是1000 如果我这样做x 0 然后我得到一个numpy void 共 4 个数字如果我做x 1 然后我得到另一个numpy void 也是 4 个数字等等
KafkaException：类不是 org.apache.kafka.common.serialization.Deserializer 的实例

我想实现发送和接收 Java 序列化对象的 Kafka 生产者我试过这个制作人 Configuration public class KafkaProducerConfig Value value kafka bootstrapAddr
使用 RTTI 获取/设置子属性

给出下面的代码片段使用GetPropValue MyComponent MySubComponent Prop1 引发 EPropertyError 异常如何使用 GetPropValue SetPropValue 检索或设置 SubP
将 Yahoo Weather API 与 JSON 和脚本标记结合使用

我正在尝试使用 JavaScript 获取雅虎天气我最初做了一个代理但发现很笨拙所以可以从以下位置获取 JSON 响应http weather yahooapis com forecastjson w 9807 并且我知道脚本标记可以
Google Weather API - 解析和修改数据

这个问题不再是最新的谷歌在2012年关闭了非官方天气API 我想在朋友的网页上添加一些天气预报当我地址为 http www google com ig api weather koprivnica croatia hl hr 浏览器使用
为什么 Windows 上的控制台动画如此慢？（有没有办法提高速度？）

好吧我很无聊所以想在控制台窗口中制作动画现在当我设置第一个位时我注意到它非常慢大约需要 333 毫秒才能充满整个屏幕我想知道是否有办法至少获得约 20 fps 这是我的代码 include
在 Sublime Text 编辑器中构建 Ruby 时出错

puts Hello World 当我单击 CTRL B 工具 gt 构建时我在控制台中收到以下错误 Errno 2 没有这样的文件或目录 cmd u rvm bin rvm auto ruby u home ubuntu rails
生成给定百分位数的分布

我想在 R 中生成一个分布给出以下内容分数和百分位数排名 x lt 1 10 PercRank lt c 1 7 12 23 41 62 73 80 92 99 PercRank 1例如 1 的数据有value score lt 1 x
套接字编程 - 为什么 Web 服务器即使在接受连接后仍然使用侦听端口 80 与客户端通信？

通常 Web 服务器通过端口 80 侦听任何传入连接因此我的问题是套接字编程的一般概念不应该是端口 80 用于侦听传入连接但是服务器接受连接后它将使用另一个端口例如端口 12345 与客户端通信但是当我查看wireshark
grails log4j 根据文件不同的附加程序

我想根据模块记录到不同的附加程序我有 3 个附加程序控制台一个用于记录控制器和服务的滚动文件以及另一个用于记录作业中某些内容的滚动文件我想仅记录其滚动文件的作业代码并仅使用其他滚动文件记录控制器和服务这是我的 grails l
将序列映射到数组时，Automapper 返回对同一对象的引用

我有一个扩展方法IEnumerable
如何在 Qt Designer 中推广的 QVideoWidget 中播放视频？

我是 Qt 的初学者但根据一些教程我在 qt 设计器中创建了一个 UI 它将显示实时流视频我读过为了添加视频我需要将小部件升级为 QVideoWidget 然后我将 ui 转换为 py 文件以使用 python 语言访问它问题是
Serilog 未记录到 Elasticsearch

按照此处的 Serilog Elasticsearch 教程进行操作 https github com serilog serilog sinks elasticsearch handling errors 什么都不起作用我看过其他相关的
Scrapy Spider 不关注链接

我正在编写一个 scrapy 蜘蛛来从主页上抓取今天的纽约时报文章但由于某种原因它不跟踪任何链接当我实例化链接提取器时scrapy shell http www nytimes com 它成功提取了文章网址列表le extract

Scrapy Spider 不关注链接

Scrapy Spider 不关注链接 的相关文章

随机推荐

热门标签

Scrapy Spider 不关注链接的相关文章