如何发送Scrapy中启用的JavaScript和Cookies？

2023-12-20

我正在使用 Scrapy 抓取一个网站，该网站需要启用烹饪和 java 脚本。我认为我不必实际处理 javascript。我所需要的只是假装 javascript 已启用。

这是我尝试过的： 1) 通过以下设置启用 Cookie

COOKIES_ENABLED = True
COOKIES_DEBUG = True

2）使用cookies下载中间件

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400,
    'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware':700
}

3) 发送 'X-JAVASCRIPT-ENABLED': 'True'

DEFAULT_REQUEST_HEADERS={
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'X-JAVASCRIPT-ENABLED': 'True'
}

但他们都没有和我一起工作。您能提出任何想法或给我一些指导吗？

提前感谢您的回复。

你应该试试Splash https://splash.readthedocs.org/en/latest/JS 引擎scrapyjs https://github.com/scrapinghub/scrapyjs。以下是如何在蜘蛛项目中进行设置的示例：

SPLASH_URL = 'http://192.168.59.103:8050'
DOWNLOADER_MIDDLEWARES = {
    'scrapyjs.SplashMiddleware': 725,
}

抓取中心 http://crawlera.com/与 Scrapy 背后的公司是同一家公司特殊情况 http://scrapinghub.com/splash/运行你的蜘蛛并启用启动。

然后产量SplashRequest代替Request在你的蜘蛛中像这样：

import scrapy
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
    start_urls = ["http://example.com", "http://example.com/foo"]

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, self.parse,
                endpoint='render.html',
                args={'wait': 0.5},
            )

    def parse(self, response):
        # response.body is a result of render.html call; it
        # contains HTML processed by a browser.
        # …

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

screenscraping

mechanize

Scrapy

如何发送Scrapy中启用的JavaScript和Cookies？的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
scrapy LinkExtractors 最终会得到唯一的链接吗？

所以我有一个包含很多文章和页码的页面现在如果我想提取一篇文章我会使用 Rule LinkExtractor allow article html callback parse article 对于页面我使用这个规则规则 LinkE
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

Highcharts 未渲染：React+Typescript+Highcharts

尝试使用反应来调出高图表我有多个 fetch api 调用为了说明我只添加了 2 个我将使用其数据在 UI 中呈现某些内容在此示例中 data1 用于呈现表格 data2 用于呈现高图我将这些调用的输出存储在状态对象中当我调用
如何仅通过一个帐户访问我的多语言-MediaWiki？

我有几个不同语言的维基如下所示 de myPage org en myPage org es myPage org 我必须使用不同的帐户名和密码登录每个帐户一旦我更改子域我就会被注销登录信息不会被我带走我在 1 台服务器上使用 3
iPhone 3gs 的 AVCaptureSession 仅获取一帧

我有一段代码它设置来自相机的捕获会话以使用 OpenCV 处理帧然后使用从帧生成的 UIImage 设置 UIImageView 的图像属性当应用程序启动时图像视图的图像为零并且不会显示任何帧直到我将另一个视图控制器推入堆栈然后
查找字符串之间的差异

我有以下函数它获取源和修改后的字符串并将其中更改的单词加粗 def appendBoldChanges s1 s2 Adds b b tags to words that are changed l1 s1 split l2 s2 sp
错误：在Chart.yaml中找到，但在charts/目录中丢失：mysql

我在requirements yaml中添加了mysql Helm依赖下载mysql图表 helm dependency update Hang tight while we grab the latest from your chart
无法让 CORS 适用于 ASP.NET Core Web API

我有两个本地运行的应用程序一种是 ASP NET Core Web API http 本地主机 8081 http localhost 8081 提供 JSON 响应另一个是 Javascript 应用程序 http 本地主机 8080
为什么 Scala 需要递归函数的返回类型？

在下面的代码片段中我有一个递归函数调用用于在网络调用失败时促进重试 Amazon SimpleDB 有时会返回 503 并需要重试当我尝试编译时 Scala 抱怨recursive method simpledb update nee
各种编译器上的 RDRAND 和 RDSEED 内在函数？

英特尔 C 编译器和或 GCC 是否支持以下内容就像 MSVC 自 2012 年 2013 年以来所做的那样 include
TypeScript 条件类型抱怨类型不可分配

我试图了解 TypeScript 条件类型的工作原理这是我的代码存在类型错误 interface MyType name string const testFunc
GHC.IO 中的“ioToST”和“unsafeIOToST”有什么区别

差异和预期用途有何用途ioToST and unsafeSTToIO定义于GHC IO http hackage haskell org package base 4 7 0 2 docs src GHC IO html Coercions
Rails has_many 通过表单，在连接模型中带有复选框和额外字段

我正在尝试解决一个非常常见的正如我所想的任务一共有三种型号 class Product lt ActiveRecord Base validates name presence true has many categorization
Django ORM 相当于此 SQL..从相关表派生的计算字段

我有以下模型结构 class Master models Model name models CharField max length 50 mounting height models DecimalField max digits 10
java try-with-resource 不适用于 scala

在 Scala 应用程序中我尝试使用 java nio try with resource 构造从文件中读取行 Scala 版本 2 11 8Java 版本 1 8 try Stream
Karate API json 响应 - 如何验证有时出现有时不在 API 响应中的密钥的存在

我需要帮助来验证响应中是否存在一个密钥 API 的响应如下所示 persons id 27 source personId 281 emailAddress email protected cdn cgi l email protectio
Netbeans 中服务器库和类库之间的区别？

Netbeans 中的服务器库和类库有什么区别 A 服务器库指的是应用程序或Web应用程序库例如servlet api jar中的库Tomcat或 jboss all jar 中JBoss while a 类库指的是标准服务器库范围之外的
jQuery 在滚动时加载更多数据

我只是想知道仅当 div loading 可见时如何才能在滚动上实现更多数据通常我们会查找页面高度和滚动高度以查看是否需要加载更多数据但下面的例子有点复杂下图是完美的例子下拉框中有两个 loading div 当用户滚动内容时无
使用opencv查找没有角的矩形

I have an image where I want to find contours but the contours in my image don t have corners Are there some tricks I ca
如何创建在线 JavaScript 编辑器？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在学习 JavaScript 然而做一些实验并不是那么方便您必须创建一个 HTML 模板文件然后将 JavaScript 代码嵌
MVC4 - 提交期间的部分视图模型绑定

我有视图模型它有另一个子模型来渲染部分视图如下 public class ExamResultsFormViewModel public PreliminaryInformationViewModel PreliminaryInform
如何发送Scrapy中启用的JavaScript和Cookies？

我正在使用 Scrapy 抓取一个网站该网站需要启用烹饪和 java 脚本我认为我不必实际处理 javascript 我所需要的只是假装 javascript 已启用这是我尝试过的 1 通过以下设置启用 Cookie COOKIES

如何发送Scrapy中启用的JavaScript和Cookies？

如何发送Scrapy中启用的JavaScript和Cookies？ 的相关文章

随机推荐

热门标签

如何发送Scrapy中启用的JavaScript和Cookies？的相关文章