为什么 Scrapy 返回一个 Iframe?

2023-12-01

我想爬行这个网站通过Python-Scrapy

我试试这个

class Parik(scrapy.Spider):
    name = "ooshop"
    allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]

    def __init__(self, idcrawl=None, proxy=None, *args, **kwargs):
        super(Parik, self).__init__(*args, **kwargs)
        self.start_urls = ['http://www.ooshop.com/courses-en-ligne/Home.aspx']

    def parse(self, response):
        print response.css('body').extract_first()

但我没有第一页,我有一个空的 iframe

2016-09-06 19:09:24 [scrapy] DEBUG: Crawled (200) <GET http://www.ooshop.com/courses-en-ligne/Home.aspx> (referer: None)
<body>
<iframe style="display:none;visibility:hidden;" src="//content.incapsula.com/jsTest.html" id="gaIframe"></iframe>
</body>
2016-09-06 19:09:24 [scrapy] INFO: Closing spider (finished)

该网站受到网站安全服务 Incapsula 的保护。它为您的“浏览器”提供了一个挑战,在获得特殊的 cookie 来让您访问网站本身之前,它必须执行该挑战。

幸运的是,绕过它并不难。安装胶囊破碎机并安装其下载器中间件:

DOWNLOADER_MIDDLEWARES = {
    'incapsula.IncapsulaMiddleware': 900
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Scrapy 返回一个 Iframe? 的相关文章

  • Matplotlib 标准化颜色条 (Python)

    我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图 它有效 它绘制了它应该绘制的内容 但不幸的是我无法设置颜色条范围 问题是我有很多图 并且需要所有图都具有相同的颜色条 相同的最小值和最大值 相同的颜色 我复制并粘贴了在
  • 打印 scrapy 请求的“响应”

    我正在尝试学习 scrapy 在遵循教程的同时 我正在尝试进行细微的调整 我想简单地从请求中获取响应内容 然后我会将响应传递到教程代码中 但我无法发出请求并获取响应内容 建议就好 from scrapy http import Respon
  • 如何使用pycaffe重构caffe网络

    我想要的是 加载网络后 我将分解一些特定的图层并保存新的网络 例如 原网 数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
  • 如何用 python 和 sympy 解决多元不等式?

    我对使用 python 和 Sympy 还很陌生 并且遇到了使用 sympy 解决多元不等式的问题 假设我的文件中有很多函数 如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
  • 获取单个方程的脚本

    在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出 输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
  • 如何将条目中的部分文本加粗并更改其背景颜色?

    我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件 我想将其文本的一部分加粗并更改其背景颜色 但我不知道我该怎么做 如果我使用文本小部件 我可以只使用标签 但看起来它们不能与条目小部件一起使用 此代码使用文本小部件
  • 将一个时间序列插入到 pandas 中的另一个时间序列中

    我有一组定期测量的值 说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
  • python中函数变量的作用域

    假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
  • 当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

    我想绘制一个 pandas 系列 其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
  • 行为:如何从另一个文件导入步骤?

    我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架 使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征 例
  • Python int 太大,无法放入 SQLite

    我收到错误 OverflowError Python int 太大 无法转换为 SQLite INTEGER 来自以下代码块 该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
  • 负整数的Python表示

    gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
  • Python Flask 是否定义了路由顺序?

    在我看来 我的设置类似于以下内容 app route test def test app route
  • 是否可以写一个负的python类型注释

    这可能听起来不合理 但现在我需要否定类型注释 我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载 而 mypy 不理解我 我的功能看起来像这样 overload
  • 使用 Doc2vec 后如何解释 Clusters 结果?

    我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式 例如 v1 v100 之后 我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
  • Plotly:如何避免巨大的 html 文件大小

    我有一个 3D 装箱模型 它使用绘图来绘制输出图 我注意到 绘制了 600 个项目 生成 html 文件需要很长时间 文件大小为 89M 这太疯狂了 我怀疑可能存在一些巨大的重复 或者是由单个项目的 add trace 方法引起的 阴谋 为
  • Scrapy 蜘蛛无法工作

    由于到目前为止没有任何效果 我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作 创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
  • Pandas 在特定列将数据帧拆分为两个数据帧

    I have pandas我组成的 DataFrameconcat 一行由 96 个值组成 我想将 DataFrame 从值 72 中分离出来 这样 一行的前 72 个值存储在 Dataframe1 中 接下来的 24 个值存储在 Data
  • 如何对字符串列表进行排序?

    在 Python 中创建按字母顺序排序的列表的最佳方法是什么 基本回答 mylist b C A mylist sort 这会修改您的原始列表 即就地排序 要获取列表的排序副本而不更改原始列表 请使用sorted http docs pyt
  • PyQt 中的线程和信号问题

    我在 PyQt 中的线程之间进行通信时遇到一些问题 我使用信号在两个线程 发送者和监听者 之间进行通信 发送者发送消息 期望被监听者接收 但是 没有收到任何消息 谁能建议可能出了什么问题 我确信这一定很简单 但我已经环顾了几个小时但没有发现

随机推荐

  • 空对象引用上的 android.content.Context.getContentResolver()'

    我似乎无法弄清楚为什么我会得到一个空指针 这是我调用来获取数据的 AsyncTask 它将它传递给 JSON 解析器并返回一个对象数组 然后它被传递到我的 DBHelper 在那里它通过 ContentResolver 传递到我的数据库 p
  • 自动重新调整 ylim 和 xlim

    我正在使用 matplotlib 在 Python 中绘制数据 我正在根据一些计算更新绘图的数据 并希望 ylim 和 xlim 自动重新缩放 相反 比例是根据初始图的限制设置的 MWE 是 import random import mat
  • 使用 SurfaceTexture 和 OpenGL 修改相机输出

    我试图通过 openGL 过滤器运行来自相机硬件的流 然后将其显示在 GLSurfaceView 中来过滤来自相机硬件的流 当 openGL 去渲染该帧时 LogCat 反复吐出错误 unnamed 3314 0 updateTexImag
  • 如何使用 Django Rest_auth 创建自定义登录视图?

    我正在努力创建自定义登录API与电话号码使用django rest auth包裹 我只是在使用rest auth views LoginView在我的代码中生成令牌以进行令牌身份验证 这是我的序列化器 class LoginUserSeri
  • 使用 MapReduce 通过 BFS 遍历图的有效方法是什么?

    这是招聘人员问我的面试问题 问题基本上是计算所有节点到每个节点的最短路径 我的解决方案如下 初始化所有可能的边 没有反向 A B 与 B A 相同 每个节点将表示为以下 src cost current list dest src 和 de
  • Visual Studio 2015 损坏的 Razor 智能感知

    安装并修复我的后VS2015例如 我仍然无法让智能感知 服务器端 在我的 MVC 视图中工作 当我在会话中第一次打开时 我会收到消息提示提醒 cshtml文件并寻址到 Activitylog 文件 在 ActivityLog xml 简短版
  • 比较 csv 文件中的值

    我正在比较两个 csv 文件中的不同值 如果没有匹配项 我想在管理系统中添加 或更新 我的设备 output1 csv 名称 ip 主系统 Test1 10 56 7 13 Test2 10 56 4 14 Test3 10 56 5 15
  • 更新 AVPlayerLooper 上的 timeRange 属性的推荐方法

    我正在构建AVPlayerLooper示例代码Apple 提供了专门利用他们为您提供的示例 AVPlayerLooper 设置PlayerLooper swift LooperViewController swift 以及Looper sw
  • “循环取消切换”优化不起作用

    听说Java支持 Loop Unswitching 所以简单在JMH中测试了一下 我以为 JIT 之后它们会完全一样 为什么是这样 private final int TIMES 1 000 000 private boolean bool
  • 从 openfire-4.1.1 获取存档消息(XEP-0313 MAM - 聊天历史记录)时出现错误

    Openfire 版本 4 1 1 支持 XEP 0313 MAM Smack 版本 4 2 0 rc2 SNAPSHOT 具有 XEP 0313 MAM 支持 监控服务版本 1 5 4 在 Openfire 中安装监控服务插件后 我还启用
  • 如何在C#中使用MeasureString设置表格列宽?

    我有一个非常简单的 我希望是基本的 问题 我正在为我公司的网站修改一些 C 代码 该代码在固定列中为我绘制了一个表格 其数据是从数据库中提取的 表格每列的高度是固定的 当前 我需要更改它 因此如果字符串具有一定的长度 因此换行 则第二行文本
  • 如何处理树枝数组?

    我正在配置一个树枝模板 我如何处理这个数组 a 3 i 0 s 6 Balkon i 1 s 9 M bleret i 2 s 4 Pool 用树枝代码 这是一个序列化数组 称呼unserialize on it
  • 如何向组合框和列表中的选项添加标签?

    我阅读了以下文档 http docs oracle com javafx 2 ui controls combo box htm并且我没有找到任何与我的需求类似的东西 我一直在寻找一种将我的选项分组到组合框中的方法 假设我的组合框是持续时间
  • 将 HashMap 的键和值组合成 Set

    我有一个HashMap
  • 如何使用 Alamofire 快速发布请求 json 正文?

    我需要在 json 正文中为我的应用程序后端发出 POST 请求 但响应返回失败 我假设我的 json 格式或编码是错误的 但我无法弄清楚问题是什么 我尝试了很多不同的解决方案 但未能找到有效的解决方案 谁能看到我的代码的哪一部分导致了失败
  • 如何转义 echo " 以存储在文件中?

    我知道 echo blah blah gt file txt作品 然后echo gt file txt也有效 但是 如果我只想回显一个怎么办 双引号 在文件中 echo gt file txt不起作用 是否可以用一行命令来完成它 Windo
  • 在 Appmaker 中下载文件

    我在 Appmaker 中创建了一个应用程序 我想从 Appmaker 中的云端硬盘表下载某些报告 为此 我目前正在使用 Drive API 创建电子表格 我还想添加下载功能 允许用户在本地计算机中下载电子表格 我已经对 Appscript
  • 将方法名称作为回调传递 VS.用匿名函数包装它

    我有一个按钮 test var obj name John test function console log name this name test on click obj test 这将记录一个空字符串 记录 typeof this
  • QT对话框关闭并删除

    我有一个 MainWindow 和 Type 类 主窗口中的按钮使用以下代码向插槽发送信号 dialog new QDialog this Ui type typeui typeui setupUi dialog dialog gt sho
  • 为什么 Scrapy 返回一个 Iframe?

    我想爬行这个网站通过Python Scrapy 我试试这个 class Parik scrapy Spider name ooshop allowed domains http www ooshop com courses en ligne