scrapy的深入使用：

2023-10-29

1.区分正常的debug和scrapy中的debug

2.scrapy shell的使用

scrapy shell是scrapy提供的一个终端工具，能够通过它查看scrapy中对象的属性和方法，以及测试xpath

使用方法：

scrapy shell https://www.sixstaredu.com/course/explore

在终端输入上述命令后，能够进入python的交互式终端，此时可以使用：

response.xpath()：直接测试xpath规则是否正确

response.url：当前响应的url地址

response.request.url：当前响应对应的请求的url地址

response.headers：响应头

response.body：响应体，也就是html代码，默认是byte类型r

esponse.requests.headers：当前响应的请求头

3.settings设置

3.1 为什么项目中需要配置文件

在配置文件中存放一些公共变量，在后续的项目中方便修改，如：本地测试数据库和部署服务器的数据库不一致

3.2 配置文件中的变量使用方法

变量名一般全部大写
导入即可使用

3.3 settings.py中的重点字段和含义

USER_AGENT 设置ua

ROBOTSTXT_OBEY 是否遵守robots协议，默认是遵守

CONCURRENT_REQUESTS 设置并发请求的数量，默认是16个

DOWNLOAD_DELAY 下载延迟，默认无延迟

COOKIES_ENABLED 是否开启cookie，即每次请求带上前一次的cookie，默认是开启的

DEFAULT_REQUEST_HEADERS 设置默认请求头，这里加入了USER_AGENT将不起作用

SPIDER_MIDDLEWARES 爬虫中间件，设置过程和管道相同

DOWNLOADER_MIDDLEWARES 下载中间件

LOG_LEVEL 控制终端输出信息的log级别，终端默认显示的是debug级别的log信息

LOG_LEVEL = "WARNING"

LOG_FILE 设置log日志文件的保存路径，如果设置该参数，终端将不再显示信息

LOG_FILE = "./test.log"

4.pipeline的深入使用

4.1 pipeline中常用的方法：

process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

4.2 管道文件的修改

在pipelines.py代码中完善

import json
from pymongo import MongoClient

class SixstarFilePipeline(object):
    def open_spider(self, spider):  # 在爬虫开启的时候仅执行一次
        if spider.name == 'Sixstar':
            self.f = open('json.txt', 'a', encoding='utf-8')

    def close_spider(self, spider):  # 在爬虫关闭的时候仅执行一次
        if spider.name == 'Sixstar':
            self.f.close()

    def process_item(self, item, spider):
        if spider.name == 'Sixstar':
            self.f.write(json.dumps(dict(item), ensure_ascii=False, indent=2) + ',\n')
        return item  # 不return的情况下，另一个权重较低的pipeline将不会获得item

class SixstarMongoPipeline(object):
    def open_spider(self, spider):  # 在爬虫开启的时候仅执行一次
        if spider.name == 'Sixstar':
            con = MongoClient(host='127.0.0.1', port=27017) # 实例化mongoclient
            self.collection = con.Sixstar.teachers # 创建数据库名为Sixstar,集合名为teachers的集合操作对象

    def process_item(self, item, spider):
        if spider.name == 'Sixstar':
            self.collection.insert(dict(item)) # 此时item对象需要先转换为字典,再插入
        # 不return的情况下，另一个权重较低的pipeline将不会获得item
        return item

注意：

不同的pipeline可以处理不同爬虫的数据，通过spider.name属性来区分
不同的pipeline能够对一个或多个爬虫进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存
同一个管道类也可以处理不同爬虫的数据，通过spider.name属性来区分

4.4 pipeline使用注意点

使用之前需要在settings中开启
pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过
有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值
pipeline中process_item的方法必须有，否则item没有办法接受和处理
process_item方法接受item和spider，其中spider表示当前传递item过来的spider
open_spider(spider) :能够在爬虫开启的时候执行一次
close_spider(spider) :能够在爬虫关闭的时候执行一次
上述俩个方法经常用于爬虫和数据库的交互，在爬虫开启的时候建立和数据库的连接，在爬虫关闭的时候断开和数据库的连接

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

scrapy的深入使用：的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

List1_Excise

List和Set集合的上层接口是 A java util Map B java util Collection C java util List D java util Set ArrayList类的底层数据结构是 A A 数组结构 B 链
输入函数input

目录函数介绍基本使用返回值类型转换函数介绍作用接收来自用户的输入返回值类型同输入值类型即str 值的存储使用赋值符号即对输入值进行存储基本使用变量 input 输入的提示语 name input 你的名字是什么 p
Node.js开发框架Express.js做一个简单的Web应用以及代码详解

目录 Express js的主要特性搭建 Node js 开发环境 Express js的使用方法端口和URL的定义和作用 Express js的应用场景注意后续技术分享第一时间更新以及更多更及时的技术资讯和学习技术资料将在公
[Python人工智能] 十二.循环神经网络RNN和LSTM原理详解及TensorFlow编写RNN分类案例

从本专栏开始作者正式开始研究Python深度学习神经网络及人工智能相关知识前一篇讲解了TensorFlow如何保存变量和神经网络参数通过Saver保存神经网络再通过Restore调用训练好的神经网络本文将详细讲解循环神经网络RN
开源Go语言数值算法库 An open numerical library purely based on Go programming language

目录关于 goNum https github com chfenger goNum 安装环境安装方法算法许可证书致谢关于goNum goNum是一款完全以Go语言为基础的开源数值算法库它可以使你像调用其它go函数一样使用其进
使用CSS实现国际象棋棋盘

系列文章目录 CSS3实现半透明边框 1 CSS3实现多重边框 2 CSS3如何调整背景图片大小 3 CSS3背景定位 4 CSS3设置条纹背景 5 使用CSS实现国际象棋棋盘系列文章目录前言一直角三角形拼成正方形二使用步骤
c++：异常处理机制

什么是异常 1 异常是一种程序控制机制与函数机制独立和互补函数是一种以栈结构展开的上下函数衔接的程序控制系统而异常是另一种控制结构它依附于栈结构却可以同时设置多个异常类型作为网捕条件从而以类型匹配在栈机制中跳跃回馈异常的设计
用栈实现算数表达式求值（C语言（基础版））

要求输入以为结束的算数表达式包括并求值 1 基础的栈结构书写包括创建栈判断栈是否为空以及数据的压栈和出栈可参考MOOC上陈越姥姥的相关数据结构课程 include
红帽认证-RHCE

目录 RHCE认证考的是 ansible的内容重要信息配置一安装和配置Ansible 二创建和运行Ansible 临时命命三安装软件包四使用RHEL系统角色五使用Ansible Galaxy 安装角色六创建使用角色
PostgreSQL解锁表

PostgreSQL解锁表一查看单表加锁情况二取消一个长时间执行的sql 2 1 终止查询但是连接留在原地 2 2 终止查询同时杀死连接三查看锁表的详细信息一查看单表加锁情况 SELECT relation regcla
转眼已走在成为程序猿的路上

考完研没有回家直接找地方实习虽不是太累可还是不能和上学相比宿舍只剩孤身一人转眼四年加油吧梦在前方
Pytorch raise NotImplementedError NotImplementedError

我以为是我的网络搭建出错结果竟是输入格式出错如果出现这个问题一般是forward这块出错我是拼写出错是forward 修改过后正常还有可能是tap缩进的时候出错 def没有对齐如果报错可以先查查格式
网络安全的基础知识

1 什么是防火墙什么是堡垒主机什么是DMZ 防火墙是在两个网络之间强制实施访问控制策略的一个系统或一组系统堡垒主机是一种配置了安全防范措施的网络上的计算机堡垒主机为网络之间的通信提供了一个阻塞点也可以说如果没有堡垒主机网络间将
kafka接收消费消息

三 kafka接收消费消息本节教程在window下演示如果是在linux上学习的同学可以将命令的前缀进行替换即可比如 window 下的命令前缀 bin windows kafka topics bat 则linux下的命令前缀为
2023 年你应该知道的 10 个开源项目

精心策划的 2023 年 GitHub 上最有趣的开发工具和项目列表 1 NetBeans NetBeans 是一个开源的集成开发环境因其支持多种编程语言和平台而受到开发人员的欢迎动图 2 OpenCV OpenCV 是一个用于图像和视
latex 矩阵_数学作业小工具 MATLAB 到 LaTex

代码总是能解放生产力在做数学作业的时候会发现用Word LaTex写矩阵感觉麻烦同时有时也会因为各种各样的原因写错或者看错所以我写了一个简单的小脚本可以把MATLAB里的矩阵变成LaTeX代码直接放到Word或者LaTex编辑器就可
Spring Boot 是什么，有什么用。

见 http www csdn net article a 2016 05 12 15838098 maven Java web bootstrap dataTable app开发QQ群 566862629 希望更多人一起帮助我学习首先
计算机视觉二局部图像描述子 SIFT算法

目录一 SIFT算法 1 基本介绍 SIFT算法可以解决的问题 2 相关概念 1 尺度空间理论 2 高斯模糊 3 高斯金字塔 4 关键点检测 DOG 5 关键点方向分配 6 关键点描述 7 关键点匹配二 STFL算法的实现 1 SIFT
MATLAB算法实战应用案例精讲-【数据分析】时序异常检测（附实战应用案例）

目录前言算法原理算法思想时序异常检测方法 1 统计方法 2 预测方法机器学习 lt
scrapy的深入使用：

1 区分正常的debug和scrapy中的debug 2 scrapy shell的使用 scrapy shell是scrapy提供的一个终端工具能够通过它查看scrapy中对象的属性和方法以及测试xpath 使用方法 scrapy s

scrapy的深入使用：

scrapy的深入使用： 的相关文章

随机推荐

热门标签

scrapy的深入使用：的相关文章