Scrapy Splash不会执行lua脚本

2024-03-04

我遇到了一个问题，我的 Lua 脚本拒绝执行。 ScrapyRequest 调用返回的响应似乎是 HTML 正文，而我期待的是文档标题。我假设 Lua 脚本从未被调用，因为它似乎对响应没有明显影响。我已经翻阅了很多文档，但似乎不太明白这里缺少什么。有没有人有什么建议？

from urlparse import urljoin

import scrapy
from scrapy_splash import SplashRequest


GOOGLE_BASE_URL = 'https://www.google.com/'
GOOGLE_QUERY_PARAMETERS = '#q={query}'
GOOGLE_SEARCH_URL = urljoin(GOOGLE_BASE_URL, GOOGLE_QUERY_PARAMETERS)

GOOGLE_SEARCH_QUERY = 'example search query'


LUA_SCRIPT = """
function main(splash)
    assert(splash:go(splash.args.url))
    return splash:evaljs("document.title")
end
"""

SCRAPY_CRAWLER_NAME = 'google_crawler'
SCRAPY_SPLASH_ENDPOINT = 'render.html'
SCRAPY_ARGS = {
    'lua_source': LUA_SCRIPT
}


def get_search_url(query):
    return GOOGLE_SEARCH_URL.format(query=query)


class GoogleCrawler(scrapy.Spider):
    name=SCRAPY_CRAWLER_NAME
    search_url = get_search_url(GOOGLE_SEARCH_QUERY)

    def start_requests(self):

        response = SplashRequest(self.search_url,
            self.parse, endpoint=SPLASH_ENDPOINT, args=SCRAPY_ARGS)

        yield response


    def parse(self, response):
        doc_title = response.body_as_unicode()
        print doc_title

SplashRequest 的“endpoint”参数必须为“execute”才能执行 Lua 脚本；示例中为“render.html”。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

ScrapySplash

splashjsrender

Scrapy Splash不会执行lua脚本的相关文章

使用 ArcGIS 安装的 Python 2.7 安装 pip

我正在尝试在 Windows 8 1 上安装 Scrapy for Python 2 7 我知道我首先需要安装 pip 由于我通过ArcGIS 10 2安装了Python 我认为我需要在C Python27 ArcGIS10 2 lib s
Scrapy、privoxy 和 Tor：SocketError：[Errno 61] 连接被拒绝

我将 Scrapy 与 Privoxy 和 Tor 一起使用这是我之前的问题Scrapy 与 Privoxy 和 Tor 如何更新 IP https stackoverflow com questions 45009940 scrapy
将 Scrapy 与经过身份验证（登录）的用户会话一起使用

In the Scrapy 文档 https doc scrapy org en latest topics request response html using formrequest from response to simulate
使用来自同一 URL 的多个 POST 数据进行抓取

我已经创建了一个蜘蛛它可以收集具有匹配电话号码的公司名称列表然后将其保存到 CSV 文件中然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的
Scrapy 不会抓取所有页面

这是我的工作代码 from scrapy item import Item Field class Test2Item Item title Field from scrapy http import Request from scrapy
Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构

我有一系列定义网站结构的链接从这些链接下载图像时我想同时将下载的图像放置在类似于网站结构的文件夹结构中而不仅仅是重命名它如中所回答 Scrapy图片下载如何使用自定义文件名 https stackoverflow com quest
Scrapy从div中获取href

我开始在一个小项目中使用Scrapy 但无法提取链接每次找到该类时我只得到而不是 url 我错过了一些明显的东西吗 sel Selector response for entry in sel xpath div class reci
为什么我的 scrapy 蜘蛛没有遵循我的项目解析函数中的请求回调？

我正在抓取一个网站来检查各种产品的库存状态不幸的是这需要实际单击产品页面上的添加到购物车并检查下一页的消息以确定是否有库存即它需要解析两个响应我跟着优秀的文档 http doc scrapy org en latest topi
使用 scrapy 抓取多个页面

我正在尝试使用 scrapy 抓取多个网页页面的链接如下 http www example com id some number 在下一页中末尾的数字减少了1 所以我正在尝试构建一个蜘蛛它可以导航到其他页面并抓取它们我的代码如下 i
“download_slot”在 scrapy 中如何工作

我在 scrapy 中创建了一个脚本来解析author name来自其着陆页的不同帖子然后将其传递到parse page方法使用meta关键字以打印post content随着author name同时我用过下载槽在元关键字中据称该关
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行

我google了半天还是没能搞定也许你有一些见解我尝试不是从终端而是从脚本启动我的抓取工具这在没有规则的情况下运行良好只需产生正常的解析函数即可一旦我使用规则并将 callback parse 更改为 callback parse
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看
如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

我需要在Scrapy中运行一些多线程多处理工作因为我有一些使用阻塞调用的库并在完成后将请求放回Scrapy引擎我需要这样的东西 def blocking call self html do some work in blocking
scrapy中如何处理302重定向

我在抓取网站时收到来自服务器的 302 响应 2014 04 01 21 31 51 0200 ahrefs h DEBUG Redirecting 302 to
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

我有以下 Python 代码来启动 APScheduler TwistedScheduler cronjob 来启动蜘蛛使用一只蜘蛛不是问题而且效果很好然而使用两个蜘蛛会导致错误 twisted internet error Rea
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut

随机推荐

使用 CreateProcessAsUser 启动 url

最近我遇到了一个问题我需要从提升的应用程序打开网页我需要以非提升方式打开浏览器所以我环顾四周发现这个解决方案 https stackoverflow com a 287072 127602 这肯定会解决我的问题除了CreatePr
windows批处理文件eq此时出乎意料

我正在编写一个 Windows 批处理脚本来安装服务首先我需要查找该服务是否已经存在如果服务存在它必须检查状态如果状态正在运行则必须停止并删除服务这是我的代码 test bat 我正在从命令行运行它 for F tokens
操作栏中的自定义主页图标 Sherlock

我正在尝试使用设置主页图标的自定义图标ActionBarSherlock 库 http actionbarsherlock com 我尝试使用设置自定义布局abHomeLayout我的自定义主题中的属性但这对我不起作用唯一的方法如何设
FieldValue.increment 不起作用，但添加“操作数”

我正在使用 firebase 数据库和一个带有新功能的简单函数FieldValue increment https firebase google com docs reference js firebase firestore Field
在 JavaScript 中执行继承

现在虽然我知道您不能像在 C 中那样执行继承但我在互联网上看到它提到这是可能的如果无法使用纯 JavaScript 代码那么是否可以使用Ext JS http en wikipedia org wiki Ext JS如果是这样怎么办
伊莎贝尔的文件准备

我想获得与相关的 LaTeX 代码这个理论 https github com rjraya Isabelle blob master curves Hales thy 以前的答案仅提供文档的链接让我描述一下我做了什么我去了目录Hales
Eclipse PDT 插件安装

我尝试在 Eclipse 中安装 PDT 插件但出现错误 Cannot complete the install because one or more required items could not be found Software
Firebase 身份验证 - 过期的 api 密钥

我正在开发一个无服务器客户端应用程序它使用 Firebase 身份验证和 Google 的其他服务一切都很顺利突然 FB 登录身份验证停止工作当尝试登录用户时我会收到一个 400 BADREQUEST 其正文如下 error co
使用 Socket.IO 发送数据的频率是多少？

我正在创建一个 Web 应用程序需要频繁地将少量数据每个套接字 3 个整数值从服务器发送到客户端并且我想看看是否有使用更新客户端的最大频率套接字IO https socket io 我希望能够实现至少 50 个套接字连接每个连接每
在Delphi XE2上使用MSBuild编译运行时包时出现编译错误

我正在将我们的构建服务器 Jenkins 升级到Delphi XE2 编译运行时包时出现以下错误 ComponentsR vrc 61 error RC2135 file not found ComponentsR Icon4 ico 此运
drawViewHierarchyInRect:afterScreenUpdates: 延迟其他动画

在我的应用程序中我使用drawViewHierarchyInRect afterScreenUpdates 为了获得我视野中的模糊图像使用AppleUIImage类别UI图像效果 https developer apple com do
如何检测 WebView 页面何时尝试关闭？

我有一个 WebView 我正在其中加载 facebook sharer php 页面此页面没有任何形式的确认它只是在用户共享或取消后关闭窗口由于它被加载到网络视图中因此本身没有什么可以关闭的因此我需要检测尝试关闭的窗口并对
预压缩的 gzip 在 Chrome 上崩溃，为什么？

我在我的网站上提供预压缩的 CSS 和 JS 文件以及 IE6 8 和 FF 与我的 htaccess 文件完美配合 Compressed files RewriteCond HTTP Accept Encoding gzip AddEn
将库从 Java 移植到 Python

我即将将一个小型库从 Java 移植到 Python 并需要一些建议小型几千行代码我研究了一点 Java 代码并注意到两种语言中常见的一些设计模式然而肯定存在一些仅适用于 Java 的习惯用法单例等这些习惯用法在 Pytho
传单测量转换的精确度

map layerPointToLatLng map latLngToLayerPoint L latLng 40 687 73 9035 结果是纬度 40 686886382151116 经度 73 90228271484375 不精确
为什么我需要在setup.py中包含子包

我有一个名为的 python 包mltester其中包含两个子包 actions dialogs 和一个主脚本ml tester py 结构如下
Application Insights 显示在实时指标中，但不显示在日志分析中

So I created a Class library that configures microservices s Application Insights These are the Application Insights con
在 SQL Server 2008 中使用 select where 查找一列上的重复项

我试图从表中选择一列中有重复项的行但也根据另一列限制行它似乎工作不正常 select Id Terms from QueryData where Track Y and Active Y group by Id Terms having
在 Solr 6.6 中配置 shardsWhitelist

需要帮助在 Solr 6 6 中配置 shardsWhitelist 我在 Solr xml 中有以下行
Scrapy Splash不会执行lua脚本

我遇到了一个问题我的 Lua 脚本拒绝执行 ScrapyRequest 调用返回的响应似乎是 HTML 正文而我期待的是文档标题我假设 Lua 脚本从未被调用因为它似乎对响应没有明显影响我已经翻阅了很多文档但似乎不太明白这里缺少

Scrapy Splash不会执行lua脚本

Scrapy Splash不会执行lua脚本 的相关文章

随机推荐

热门标签

Scrapy Splash不会执行lua脚本的相关文章