python爬虫十三：详细了解scrapy

2023-10-27

1、Scrapy log信息的认知

在这里插入图片描述

2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent)
2019-01-19 09:50:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.9.0, Python 3.6.5 (v3
.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0i  14 Aug 2018), cryptography 2.3.1, Platform Windows-10-10.0
.17134-SP0  ### 爬虫scrpay框架依赖的相关模块和平台的信息
2019-01-19 09:50:48 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tencent', 'NEWSPIDER_MODULE': 'tencent.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MO
DULES': ['tencent.spiders'], 'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/53
7.36'}  ### 自定义的配置信息哪些被应用了 
2019-01-19 09:50:48 [scrapy.middleware] INFO: Enabled extensions: ### 插件信息
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2019-01-19 09:50:48 [scrapy.middleware] INFO: Enabled downloader middlewares: ### 启动的下载器中间件
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-01-19 09:50:48 [scrapy.middleware] INFO: Enabled spider middlewares: ### 启动的爬虫中间件
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-01-19 09:50:48 [scrapy.middleware] INFO: Enabled item pipelines: ### 启动的管道
['tencent.pipelines.TencentPipeline']
2019-01-19 09:50:48 [scrapy.core.engine] INFO: Spider opened ### 开始爬去数据
2019-01-19 09:50:48 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-01-19 09:50:48 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2019-01-19 09:50:51 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://hr.tencent.com/robots.txt> (referer: None)  ### 抓取robots协议内容
2019-01-19 09:50:51 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://hr.tencent.com/position.php?&start=#a0> (referer: None)  ### start_url发起请求
2019-01-19 09:50:51 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'hr.tencent.com': <GET https://hr.tencent.com/position.php?&start=>  ### 提示错误，爬虫中通过yeid交给引擎的请求会经过爬虫中间件，由于请求的url超出allowed_domain的范围，被offsitmiddleware 拦截了
2019-01-19 09:50:51 [scrapy.core.engine] INFO: Closing spider (finished) ### 爬虫关闭
2019-01-19 09:50:51 [scrapy.statscollectors] INFO: Dumping Scrapy stats: ### 本次爬虫的信息统计
{'downloader/request_bytes': 630,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 4469,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 1, 19, 1, 50, 51, 558634),
 'log_count/DEBUG': 4,
 'log_count/INFO': 7,
 'offsite/domains': 1,
 'offsite/filtered': 12,
 'request_depth_max': 1,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 1, 19, 1, 50, 48, 628465)}
2019-01-19 09:50:51 [scrapy.core.engine] INFO: Spider closed (finished)

2、Scrapy shell

Scrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath表达式
使用方法win+r输入cmd输入scrapy shell+ 想爬取的网站地址如下C:\Users\Administrator>scrapy shell http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=0
会有很多信息主要关注的是

response.url:当前相应的URL地址
response.request.url:当前相应的请求的URL地址
response.headers:响应头
response.body:响应体，也就是HTML代码，默认是byte类型
response.requests.headers:当前响应的请求头

3、scrapy的流程

在这里插入图片描述

3.1

在这里插入图片描述

3.2

在这里插入图片描述

3.3

在这里插入图片描述

3.4

在这里插入图片描述

3.5

在这里插入图片描述

4、scrapy setting的说明和配置

配置文件存放一些公共的变量(比如数据库的地址，账号密码等)
方便自己和别人修改，引用就按照导入模块的规则写就好了
一般用全大写字母命名变量名 SQL_HOST = ‘192.168.0.1’
详情参考：setting详细说明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫学习

python爬虫十三：详细了解scrapy 的相关文章

脚本关

第9题提交验证码后发现所以用burpsuite改脚本把电话号码改成他所要求的在扔回去就能出现key
基于springboot+vue+fastdfs的文件简易管理系统

文件系统的实现描述技术栈运用后端技术栈 springboot mybatis 数据库 mysql 5 7 前端 vue cli3 0 axios element ui 分布式文件存储系统 FastDFS 功能实现前台前台展示用户上传
微信小程序滑动穿透解决方案

微信小程序滑动穿透解决方案微信小程序弹窗滑动会穿透导致底层也会跟着滑动在网上找了好多方法都没有解决滑动穿透问题后来在开发中做滑动的时候用到了scroll view 后改用这个标签尝试了一下果然解决了滑动穿透的问题出现滑动穿透的原
常见的Java框架有哪些？

Java语言仍然是当下程序猿们最爱使用的热门编程语言之一想要进入这个行业 Java可以为你引路很多初学的人可能没有系统的了解过Java框架都有哪些今天为大家整理一下常见的Java框架都有什么 Java框架 1 Spring框架 S
matlab 多输入多输出神经网络

构建训练样本集 inputn input train outputn output train 构建BP神经网络 net newff inputn outputn 21 21 tansig tansig trainbr 网络参数 net t
STM32 之十供电系统及内部参照电压（VREFINT）使用及改善ADC参考电压，内部参照电压的具体方法，只有在STM32F0x芯片的参考手册中才能找到，其他MCU的参考手册都是很简单的说明

STM32 之十供电系统及内部参照电压 VREFINT 使用及改善ADC参考电压 ZCShouEXP 2018 12 21 10 50 33 16404 收藏 32 展开问题今天在使用 STM32F407 的 ADC 时遇到一个问题

随机推荐

char *，char **，char a[ ]，char *a[]

1 字符数组 C语言中规定数组代表数组所在内存位置的首地址也是 str 0 的地址即str str 0 而printf s str 为什么用首地址就可以输出字符串因为还有一个关键在C语言中字符串常量的本质表示其实是一个地址这是许多
2022年年终总结，不忘初心，砥砺前行

从2019年开始第一次在csdn写个人年终总结不知不觉已经坚持了三年今年是第四次写年终总结其实在前几个周自己写过一个年终总结不过那是每年公司年要求每个人都要写的一个工作述职来总结过去一年自己给公司所做的贡献以及存在的问题还有未
MySQL优化篇：执行计划explain中key_len计算方式

概述 key len表示索引使用的字节数根据这个值可以判断索引的使用情况特别是在使用联合索引的时候判断该索引有多少部分被使用到非常重要 key len的长度计算公式很重要 key len越小说明索引效果越好准备结构和数据在MyS
IDEA 2016免费下载（附安装教程）

下载地址软件名称 IntelliJ IDEA 2016 软件大小 790MB 安装环境 Windows 下载链接 https pan baidu com s 1Hy0bVzh9uemWMnhRgx8HkA 提取码 geek 建议复制粘
QT之Layout类

这个类是用来布局的它有各种各样既定风格的盒子往这个盒子里添加控件这些控件就会按照这个盒子的风格来找到自己的位置举个例子一个水平盒子往里面添加控件是按照从左往右的顺序依次添加 QHBoxLayout layout 首先创建一个水平
IDEA中编译及运行ssm（非maven）项目

一直用springboot框架所有回顾下ssm项目环境配置及启动 1 导入项目 2 配置项目环境 2 1然后添加项目自带的jar包 2 2添加 tomcat server服务器要不运行时代码会报错缺少依赖选择自己电脑上的tomcat
写一篇关于chatGPT的心得体会

这次使用ChatGPT训练的大型语言模型让我真正感受到了自然语言处理的强大能力 ChatGPT可以根据用户输入的文本快速生成准确流畅的回复拥有丰富的语义表达能力可以识别各种语句的结构和意义快速建立起人机之间的交互它不仅可以帮助
MobaXterm插件连接Linux虚拟机

一前言在VirtualBox里面打开的虚拟机系统界面是非常小的而且看不到鼠标的光标显示无法去随意点击和进行文件的手动操作所以老师这里有一个可以连接虚拟机的插件 MobaXterm插件这个就相当于是手机的投屏器可以放大系统界面
微信小程序开发架构——JavaScript的基本概述和 JavaScript在 Nodejs、小程序中、浏览器中的使用方法

轻量是指在入门JavaScript语言时候觉得JavaScript 没有其它语言学习起来那么重解释性是指所编写的JavaScript语言它在运行时机器会把JavaScript语言翻译成机器语言 JavaScript语法接近于Java
数字图像字符识别——数字识别

本文简单介绍图片字符识别的原理主要识别图片中的数字其他字符识别原理类似大家应该知道对于人类来说可以很容易理解一张图片所表达的信息这是人类视觉系统数万年演变进化的结果但对于计算机这个诞生进化不到百年的新星要让它理解一张图像上
如何从头手写一个富文本编辑器(解析slate源码，连载)

背景最近文档很火老板也要我也很感兴趣于是入坑学习实践了一番一眨眼就是一年过去了项目初见成效但是发现困难和挑战也越来越棘手于是深入研究改编了一下源码为后面重写源码做准备我们的项目的成果截图镇宅一下文章末尾有demo源码
聊聊2017 OWASP Top 10

关于OWASP Top10 OWASP项目最具权威的就是其十大安全漏洞列表 OWASPTop 10 OWASP Top 10不是官方文档或标准而只是一个被广泛采用的意识文档被用来分类网络安全漏洞的严重程度目前被许多漏洞奖励平台和企业
moduleName is declared but its value is never read.ts(6133)报错解析

问题重现当使用ts语法导入第三方库时比如koa模块这时会发现出现这个错误这个错误因为没有默认导出问题原因一般我们使用ts导入其他模块时都会有一个声明文件不明白可以看我另外一篇博客我们进入声明文件中可以发现模块是通过expo
使用Easyexcel对Excel进行读写操作

1 概述 EasyExcel是一个基于Java的简单省内存的读写Excel的开源项目在尽可能节约内存的情况下支持读写百M的Excel github地址 GitHub alibaba easyexcel 快速简洁解决大文件内存溢出的j
ES6模块

项目目录 node modules package json server js public index html index js math js babelrc dist 搭建验证环境 npm init y npm install s
小程序中使用for循环,并动态添加class

前言小程序中使用for循环并动态添加class 实现效果实现代码 index wxml中
考研高数数二一元函数积分学内容框架

完整的思维导图链接 https zhimap com m NojzfjkC
第46讲 Android Camera2 API AWB自动白平衡

本讲是Android Camera专题系列的第46讲我们介绍Android Camera2 API专题的AWB自动白平衡包括如下内容为什么要做白平衡什么是自动白平衡 Android Camera颜色处理流程 AWB模式 AWB Lo
Java运算符优先级顺序

Java运算符优先级顺序图集说明 1 算数运算符补充两个单目运算符正号 10 10 单目运算符负号 n 10 n 10 1 除法规则若两个操作数都是整型结果也是整型除数不能为0 若两个操作数有一个是浮点型结果是浮点型 Sy
python爬虫十三：详细了解scrapy

1 Scrapy log信息的认知 2019 01 19 09 50 48 scrapy utils log INFO Scrapy 1 5 1 started bot tencent 2019 01 19 09 50 48 scrapy

python爬虫十三：详细了解scrapy

1、Scrapy log信息的认知

2、Scrapy shell

3、scrapy的流程

3.1

3.2

3.3

3.4

3.5

4、scrapy setting的说明和配置

python爬虫十三：详细了解scrapy 的相关文章

随机推荐

热门标签