CrawlSpider 与 Splash

2023-12-03

我的蜘蛛有一些问题。我使用 scrapy 的splash 来获取由JavaScript 生成的“下一页”的链接。从第一页下载信息后，我想从以下页面下载信息，但 LinkExtractor 功能无法正常工作。但看起来 start_request 函数不起作用。这是代码：

class ReutersBusinessSpider(CrawlSpider):
   name = 'reuters_business'
   allowed_domains = ["reuters.com"]
   start_urls = (
       'http://reuters.com/news/archive/businessNews?view=page&page=1',
   )

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse, meta={
                'splash': {
                    'endpoint': 'render.html',
                    'args': {'wait': 0.5}
                }
            })
    def use_splash(self, request):
        request.meta['splash'] = {
                'endpoint':'render.html',
                'args':{
                    'wait':0.5,
                    }
                }
        return request

    def process_value(value):
        m = re.search(r'(\?view=page&page=[0-9]&pageSize=10)', value)
        if m:
            return urlparse.urljoin('http://reuters.com/news/archive/businessNews',m.group(1))


    rules = (
        Rule(LinkExtractor(restrict_xpaths='//*[@class="pageNext"]',process_value='process_value'),process_request='use_splash', follow=False),
        Rule(LinkExtractor(restrict_xpaths='//h2/*[contains(@href,"article")]',process_value='process_value'),callback='parse_item'),
    )



    def parse_item(self, response):
        l = ItemLoader(item=PajaczekItem(), response=response)

        l.add_xpath('articlesection','//span[@class="article-section"]/text()', MapCompose(unicode.strip), Join())
        l.add_xpath('date','//span[@class="timestamp"]/text()', MapCompose(parse))
        l.add_value('url',response.url)
        l.add_xpath('articleheadline','//h1[@class="article-headline"]/text()', MapCompose(unicode.title))
        l.add_xpath('articlelocation','//span[@class="location"]/text()')
        l.add_xpath('articletext','//span[@id="articleText"]//p//text()', MapCompose(unicode.strip), Join())

        return l.load_item()

Logs:

2016-02-12 08:20:29 [scrapy] INFO: Spider opened 2016-02-12 08:20:29 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-02-12 08:20:29 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-02-12 08:20:38 [scrapy] DEBUG: Crawled (200) <POST localhost:8050/render.html>; (referer: None)
2016-02-12 08:20:38 [scrapy] DEBUG: Filtered offsite request to 'localhost': <GET http://localhost:8050/render.html?page=2&pageSize=10&view=page%3E;
2016-02-12 08:20:38 [scrapy] INFO: Closing spider (finished)

哪里有错误？感谢帮助。

快速浏览一下，您没有使用splash 调用start_request 属性...例如，您应该使用SplashRequest。

def start_requests(self):
    for url in self.start_urls:
        yield SplahRequest(url, self.parse, meta={
            'splash': {
                'endpoint': 'render.html',
                'args': {'wait': 0.5}
            }
        })

假设您已经正确设置了 Splash，即在设置中启用了必要的中间位置并指向正确的 /url 也使它们能够正确启动和 HTTP 缓存...不，我还没有运行您的代码应该很好现在去

编辑：顺便说一句...它不是下一页不是 js 生成的

所以......除非有任何其他原因你使用splash，我认为没有理由在文章请求的初始解析中使用它一个简单的for循环，例如......

for next in response.css("a.control-nav-next::attr(href)").extract():
    yield scrapy.Request(response.urljoin(next), callback=self.parse...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

slash

CrawlSpider 与 Splash 的相关文章

如何使用 .pth 文件添加 Python 导入路径

如果我将 pth 文件放入 site packages 中则会给出一个ImportError 我不知道如何通过创建 pth 文件来导入指在Python中导入 https stackoverflow com questions 69728
如何生成大型网站的图形站点地图[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想为我的网站生成图形站点地图据我所知有两个阶段抓取网站并分析链接关系提取树形结构生成视觉上
更改 numpy 数组的结构强制给定值

如何缩小栅格数据的比例4 X 6大小成2 X 3如果 2 2 像素内的任何元素包含 1 则大小强制选择 1 否则选择 0 import numpy as np data np array 0 0 1 1 0 0 1 0 0 1 0 0 1
如何计算查询集中每个项目的两个字段的总和

假设我有以下模型结构 class SomeModel Model base price DecimalField commision DecimalField 我不想存储total price在我的数据库中为了数据一致性并希望将其计算为ba
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
在 Python 中使用类作为命名空间是个好主意吗

我正在将一堆相关的东西放入一个类中主要目的是将它们组织到命名空间中 class Direction north 0 east 1 south 2 west 3 staticmethod def turn right d return tu
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
如何解决CDK CLI版本不匹配的问题

我收到以下错误此 CDK CLI 与您的应用程序使用的 CDK 库不兼容请将CLI升级到最新版本云程序集架构版本不匹配支持的最大架构版本为 8 0 0 但发现为 9 0 0 发出后cdk diff命令我确实跑了npm instal
如何在python mechanize中设置cookie

向服务器发送请求后 br open http xxxx br select form nr 0 br form MESSAGE 1 2 3 4 5 br submit 我得到了响应标题其中包含 set cookie Set Cookie
如何不断地将 STDOUT 发送到我的 python TCP 服务器？

我有简单的 python echo 服务器它使用套接字并向客户端回显随机数我有另一个程序每 2 秒将值打印到标准输出如果它只是一个脚本我可以像这样重定向 stdout python script py 并像这样在脚本中获取它da
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
Django - 使 ModelForm（ImageField 的）仅接受某些类型的图像

我将 Pillow 2 3 0 与 Django 一起使用并且在 models py 中有一个 ImageField 如下所示 class UserImages models Model user models ForeignKey Us
Django：显示管理员验证错误的自定义错误消息

我正在使用 Django 1 2 4 我有一个模型其中有一个需要验证的字段当验证失败时我想向用户显示自定义错误消息模型编辑是在管理界面中完成的这就是我目前正在做的事情 def clean fields self exclude N
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
访问影子 DOM 中的元素

是否有可能查找 Shadow DOM 中的元素与蟒蛇硒示例用例我有这个input with type date
“yield item”与 return iter(items) 相比有何优点？

在下面的示例中 resp results 是一个迭代器版本1 items for result in resp results item process result items append item return iter items
Pandas 2 个字段中唯一值的数量

我正在尝试查找覆盖 2 个字段的唯一值的数量例如一个典型的例子是姓氏和名字我有一个数据框当我执行以下操作时我只获取每列的唯一字段数在本例中为最后一个和第一个不是复合体 df Last Name First Name nu
如何从Python枚举类中获取所有值？

我正在使用 Enum4 库创建一个枚举类如下所示 class Color Enum RED 1 BLUE 2 我要打印 1 2 作为某处的列表我怎样才能实现这个目标您可以执行以下操作 e value for e in Color
使用 python/scipy 进行 voronoi 和 lloyd 松弛

如何使用 Qhull 确定哪些 voronoi 单元按索引是正确的由现有顶点组成我正在尝试使用 LLoyds 算法和 scipy spatial Voronoi 它是 Qhull 的包装器生成的输入来执行约束松弛就代码而言

随机推荐

错误代码1安装Scrapy

我正在尝试安装 Python 的 Scrapy 模块我正在使用命令 pip install Scrapy 但我收到以下错误 Command Library Frameworks Python framework Versions 2 7
openGL 是如何得出公式 F_depth 的，这就是窗口视口变换吗

point no 1 after transforming points via the projection matrix we end up with the point in the range 1 1 but in the dept
创建实用程序类型以便从两个元组创建对象

我有两个基本元组 const tuples1 a b c as const const tuples2 1 2 3 as const 我想创建一个将两者结合起来的对象 const ResultMerge a 1 b 2 c 3 我使用 Ty
C# 是否可以在静态函数内调用非静态函数？

是否可以在 C 中的静态函数内调用使用公共非静态类的非静态函数 public class MyProgram private Thread thd new Thread myStaticFunction public AnotherClas
在模块类中找到重复的 android.support.v4.app.INotificationSideChannel 类？

我正在开发一个新闻应用程序但我从 gradle 控制台收到以下错误 androidx core core 1 0 1 and classes jar com android support support compat 28 0 0 Du
主动控制更改事件 - MS Access

我正在寻找一个 MS Access 表单事件它可以检查表单上的活动控件是否已更改为另一个控件当它执行时会运行一个小脚本该函数必须是仅在表单处于活动状态例如单击表单等时运行的函数但是 Form Click 不起作用因为它在某种
如何处理在 iOS 5 及更低版本上运行的应用程序的identifierForVendor

在过去的几天里我听说 Apple 正在采取措施以便使用正在运行的设备的 UDID 标识符的应用程序将被 Apple App Store 拒绝这是我读过这篇文章的地方他们建议开发人员使用identifierForVender这是在 i
以编程方式确定 iPhone 是否越狱

如何以编程方式确定 iPhone iPod 是否越狱运行软件的破解副本捏媒体可以检测手机是否越狱或者运行的软件是否被破解有人知道他们是怎么做到的吗有图书馆吗 Here是检测您的应用程序是否被破解的方法之一简而言之破解通常需
Facebook API，如何获取好友的关系状态（单身、已婚等...）？

有人可以帮助我使用 Facebook API 如何获取朋友的关系状态单身已婚等谢谢你的帮助您只需要获取访问令牌即可用户关系 call https graph facebook com YOURFRIEND ID并检查返回的 JSON
有没有好的C语言集合库？ [复制]

这个问题在这里已经有答案了可能的重复 C 容器类库我们必须维护甚至开发遗留系统的 C 代码是否有好的集合库可以支持 Java C 新版本样式集合 Hashtable HashSet 等当然没有对象但是有结构体 HashTabl
DacFx DeploymentPlanExecutor OnExecute 未调用

我正在尝试编写一个自定义程序DeploymentPlanExecutor使用 Microsoft 的 DacFx 3 0 但OnExecute 方法从未被调用如果我使用相同的DeploymentPlanModifier反而 OnExecu
Flask 管理：向嵌入文档内的 SelectField 添加动态选择

我在嵌入文档中有一个字符串字段并将该字段覆盖为选定字段覆盖后我添加一个空的选择列表作为所选字段的参数问题是在表单访问中我们尝试向所选字段添加一些动态选择但由于某种原因这失败了我们如何添加一些动态选择我需要使用某种预处理器
百分比值的小数格式？

我想要的是这样的 String Format Value 0 0 8526 其中是该格式提供程序或我正在寻找的任何内容应该结果 Value 85 26 我基本上需要它来进行 wpf 绑定但首先让我们解决一般格式问题
Android“无法添加窗口 - 令牌 null 不适用于应用程序”异常

当我尝试打开对话框时出现以下 Android 异常有人可以帮助我了解发生了什么事以及如何解决这个问题吗 android view WindowManager BadTokenException Unable to add window
如何将每个换行符转换/替换为“
”？

set tabstop 4 set shiftwidth 4 set nu set ai syntax on filetype plugin indent on 我试过这个 content gsub r n br 但是当我单击视图显示按钮
将日期字符串转换为不同的格式

我有一个包含格式为日期的字符串YYYY MM DD 您建议我如何将其转换为格式DD MM YYYY以最好的方式这就是我天真的做法 import java util public class test public static void
在 grid.arrange 中保留或设置文本标签与绘图大小之间的比例

我正在尝试安排使用创建的 2 个图ggplot2并希望这些图的大小为正方形并且一个挨着另一个旁边有共同的图例以便图像非常适合纵向风格的页面问题是当我使用grid arrange为了安排格罗布标签和图例变得很小而情节空间却很大 g
JFormattedTextField 格式化百分比数字？

我想使用 JFormattedTextField 将浮点数格式化为百分比值允许输入 0 到 100 转换为 0 0f 1 0f 始终显示百分号并不允许任何无效字符现在我已经尝试了一些 NumberFormat getPercentIns
boost::asio::read 函数挂起

如果有人可以帮助我我无法理解 boost asio read 函数在 boost asio 中的工作原理在 boost 的示例中他们在接收消息之前声明缓冲区大小这是没有意义的我如何知道在读取消息之前要读取多少字节我尝试了这段代码
CrawlSpider 与 Splash

我的蜘蛛有一些问题我使用 scrapy 的splash 来获取由JavaScript 生成的下一页的链接从第一页下载信息后我想从以下页面下载信息但 LinkExtractor 功能无法正常工作但看起来 start reques

CrawlSpider 与 Splash

编辑：顺便说一句...它不是下一页不是 js 生成的

CrawlSpider 与 Splash 的相关文章

随机推荐

热门标签