为什么 Scrapy 返回一个 Iframe？

2023-12-01

我想爬行这个网站通过Python-Scrapy

我试试这个

class Parik(scrapy.Spider):
    name = "ooshop"
    allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]

    def __init__(self, idcrawl=None, proxy=None, *args, **kwargs):
        super(Parik, self).__init__(*args, **kwargs)
        self.start_urls = ['http://www.ooshop.com/courses-en-ligne/Home.aspx']

    def parse(self, response):
        print response.css('body').extract_first()

但我没有第一页，我有一个空的 iframe

2016-09-06 19:09:24 [scrapy] DEBUG: Crawled (200) <GET http://www.ooshop.com/courses-en-ligne/Home.aspx> (referer: None)
<body>
<iframe style="display:none;visibility:hidden;" src="//content.incapsula.com/jsTest.html" id="gaIframe"></iframe>
</body>
2016-09-06 19:09:24 [scrapy] INFO: Closing spider (finished)

该网站受到网站安全服务 Incapsula 的保护。它为您的“浏览器”提供了一个挑战，在获得特殊的 cookie 来让您访问网站本身之前，它必须执行该挑战。

幸运的是，绕过它并不难。安装胶囊破碎机并安装其下载器中间件：

DOWNLOADER_MIDDLEWARES = {
    'incapsula.IncapsulaMiddleware': 900
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

iframe

webscraping

Scrapy

webcrawler

为什么 Scrapy 返回一个 Iframe？的相关文章

Matplotlib 标准化颜色条 (Python)

我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图它有效它绘制了它应该绘制的内容但不幸的是我无法设置颜色条范围问题是我有很多图并且需要所有图都具有相同的颜色条相同的最小值和最大值相同的颜色我复制并粘贴了在
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
如何使用pycaffe重构caffe网络

我想要的是加载网络后我将分解一些特定的图层并保存新的网络例如原网数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
如何用 python 和 sympy 解决多元不等式？

我对使用 python 和 Sympy 还很陌生并且遇到了使用 sympy 解决多元不等式的问题假设我的文件中有很多函数如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

我想绘制一个 pandas 系列其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
Python Flask 是否定义了路由顺序？

在我看来我的设置类似于以下内容 app route test def test app route
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
Plotly：如何避免巨大的 html 文件大小

我有一个 3D 装箱模型它使用绘图来绘制输出图我注意到绘制了 600 个项目生成 html 文件需要很长时间文件大小为 89M 这太疯狂了我怀疑可能存在一些巨大的重复或者是由单个项目的 add trace 方法引起的阴谋为
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
如何对字符串列表进行排序？

在 Python 中创建按字母顺序排序的列表的最佳方法是什么基本回答 mylist b C A mylist sort 这会修改您的原始列表即就地排序要获取列表的排序副本而不更改原始列表请使用sorted http docs pyt
PyQt 中的线程和信号问题

我在 PyQt 中的线程之间进行通信时遇到一些问题我使用信号在两个线程发送者和监听者之间进行通信发送者发送消息期望被监听者接收但是没有收到任何消息谁能建议可能出了什么问题我确信这一定很简单但我已经环顾了几个小时但没有发现

随机推荐

空对象引用上的 android.content.Context.getContentResolver()'

我似乎无法弄清楚为什么我会得到一个空指针这是我调用来获取数据的 AsyncTask 它将它传递给 JSON 解析器并返回一个对象数组然后它被传递到我的 DBHelper 在那里它通过 ContentResolver 传递到我的数据库 p
自动重新调整 ylim 和 xlim

我正在使用 matplotlib 在 Python 中绘制数据我正在根据一些计算更新绘图的数据并希望 ylim 和 xlim 自动重新缩放相反比例是根据初始图的限制设置的 MWE 是 import random import mat
使用 SurfaceTexture 和 OpenGL 修改相机输出

我试图通过 openGL 过滤器运行来自相机硬件的流然后将其显示在 GLSurfaceView 中来过滤来自相机硬件的流当 openGL 去渲染该帧时 LogCat 反复吐出错误 unnamed 3314 0 updateTexImag
如何使用 Django Rest_auth 创建自定义登录视图？

我正在努力创建自定义登录API与电话号码使用django rest auth包裹我只是在使用rest auth views LoginView在我的代码中生成令牌以进行令牌身份验证这是我的序列化器 class LoginUserSeri
使用 MapReduce 通过 BFS 遍历图的有效方法是什么？

这是招聘人员问我的面试问题问题基本上是计算所有节点到每个节点的最短路径我的解决方案如下初始化所有可能的边没有反向 A B 与 B A 相同每个节点将表示为以下 src cost current list dest src 和 de
Visual Studio 2015 损坏的 Razor 智能感知

安装并修复我的后VS2015例如我仍然无法让智能感知服务器端在我的 MVC 视图中工作当我在会话中第一次打开时我会收到消息提示提醒 cshtml文件并寻址到 Activitylog 文件在 ActivityLog xml 简短版
比较 csv 文件中的值

我正在比较两个 csv 文件中的不同值如果没有匹配项我想在管理系统中添加或更新我的设备 output1 csv 名称 ip 主系统 Test1 10 56 7 13 Test2 10 56 4 14 Test3 10 56 5 15
更新 AVPlayerLooper 上的 timeRange 属性的推荐方法

我正在构建AVPlayerLooper示例代码Apple 提供了专门利用他们为您提供的示例 AVPlayerLooper 设置PlayerLooper swift LooperViewController swift 以及Looper sw
“循环取消切换”优化不起作用

听说Java支持 Loop Unswitching 所以简单在JMH中测试了一下我以为 JIT 之后它们会完全一样为什么是这样 private final int TIMES 1 000 000 private boolean bool
从 openfire-4.1.1 获取存档消息（XEP-0313 MAM - 聊天历史记录）时出现错误

Openfire 版本 4 1 1 支持 XEP 0313 MAM Smack 版本 4 2 0 rc2 SNAPSHOT 具有 XEP 0313 MAM 支持监控服务版本 1 5 4 在 Openfire 中安装监控服务插件后我还启用
如何在C#中使用MeasureString设置表格列宽？

我有一个非常简单的我希望是基本的问题我正在为我公司的网站修改一些 C 代码该代码在固定列中为我绘制了一个表格其数据是从数据库中提取的表格每列的高度是固定的当前我需要更改它因此如果字符串具有一定的长度因此换行则第二行文本
如何处理树枝数组？

我正在配置一个树枝模板我如何处理这个数组 a 3 i 0 s 6 Balkon i 1 s 9 M bleret i 2 s 4 Pool 用树枝代码这是一个序列化数组称呼unserialize on it
如何向组合框和列表中的选项添加标签？

我阅读了以下文档 http docs oracle com javafx 2 ui controls combo box htm并且我没有找到任何与我的需求类似的东西我一直在寻找一种将我的选项分组到组合框中的方法假设我的组合框是持续时间
将 HashMap 的键和值组合成 Set

我有一个HashMap
如何使用 Alamofire 快速发布请求 json 正文？

我需要在 json 正文中为我的应用程序后端发出 POST 请求但响应返回失败我假设我的 json 格式或编码是错误的但我无法弄清楚问题是什么我尝试了很多不同的解决方案但未能找到有效的解决方案谁能看到我的代码的哪一部分导致了失败
如何转义 echo " 以存储在文件中？

我知道 echo blah blah gt file txt作品然后echo gt file txt也有效但是如果我只想回显一个怎么办双引号在文件中 echo gt file txt不起作用是否可以用一行命令来完成它 Windo
在 Appmaker 中下载文件

我在 Appmaker 中创建了一个应用程序我想从 Appmaker 中的云端硬盘表下载某些报告为此我目前正在使用 Drive API 创建电子表格我还想添加下载功能允许用户在本地计算机中下载电子表格我已经对 Appscript
将方法名称作为回调传递 VS.用匿名函数包装它

我有一个按钮 test var obj name John test function console log name this name test on click obj test 这将记录一个空字符串记录 typeof this
QT对话框关闭并删除

我有一个 MainWindow 和 Type 类主窗口中的按钮使用以下代码向插槽发送信号 dialog new QDialog this Ui type typeui typeui setupUi dialog dialog gt sho
为什么 Scrapy 返回一个 Iframe？

我想爬行这个网站通过Python Scrapy 我试试这个 class Parik scrapy Spider name ooshop allowed domains http www ooshop com courses en ligne

为什么 Scrapy 返回一个 Iframe？

为什么 Scrapy 返回一个 Iframe？ 的相关文章

随机推荐

热门标签

为什么 Scrapy 返回一个 Iframe？的相关文章