Python爬虫——Scrapy框架使用实例及执行过程

2023-05-16

文章目录

Python爬虫——Scrapy框架使用实例及执行过程
- 1、Scrapy框架使用实例
- 2、Scrapy框架执行过程

Python爬虫——Scrapy框架使用实例及执行过程

1、Scrapy框架使用实例

1、创建scrapy项目

scrapy项目名：scrapy_02_tc

scrapy startproject scrapy_02_tc

2、创建爬虫文件

爬虫文件名：tc_test

要访问的域名：https://gz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_D

scrapy genspider tc_test https://gz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_D

3、编写爬虫程序

修改配置文件：settings.py

ROBOTSTXT_OBEY = False
USER_AGENT = Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36

在 tc_test.py 文件中编写爬虫程序：

import scrapy


class TcTestSpider(scrapy.Spider):
    name = 'tc_test'
    allowed_domains = ['https://gz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_D']
    start_urls = ['https://gz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_D']

    def parse(self, response):

        # 使用xpath解析
        span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]
        print(span.extract())
        print(span.extract_first())  # 提取列表中第1个文本内容

Selector（选择器）：Scrapy 提供的数据提取方法，Selector 基于 lxml ，支持 XPath 选择器、CSS 选择器以及正则表达式，功能全面，解析速度和准确度非常高。

extract()：提取selector对象的文本内容
extract_first()：提取selector列表中的第1个文本内容

response 属性：

response.text：获取响应对象的字符串格式数据
response.body：获取响应对象的二进制格式数据

2、Scrapy框架执行过程

Scrapy框架执行过程图如下：

在这里插入图片描述

Scrapy框架执行过程步骤描述：

①：spiders把待爬取的 URL传递给引擎
②：引擎再把url传递给调度器
③：调度器将url生成请求对象放入指定队列中，再从队列中取出第一个请求交给引擎
④：引擎再把请求传递给下载器
⑤：下载器向互联网发送请求下载数据（response对象）
⑥：然后下载器先把数据传递给引擎，引擎再把数据传递给spiders
⑦：spider用xpath处理、分析，并提取出所需要的数据，得到解析结果，然后传递给引擎
⑧：引擎判断解析结果是数据还是url，如果是数据，就把数据传递给管道，由管道进行保存；如果是url，则交给调度器

上述Scrapy框架执行过程会一直循环，直到没有要爬取的 URL 时才会停止。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

框架使用实例及执行过程

Python爬虫——Scrapy框架使用实例及执行过程的相关文章

Python获取正确时区的当前时间[重复]

这个问题在这里已经有答案了现在我用 import datetime print datetime datetime now strftime X 将当前时间显示为字符串问题是我的计算机正在运行Europe Berlin时区这里不考虑
如何打印脚本的每一行，因为它仅针对正在运行的顶级脚本运行？

python 跟踪模块将允许您运行一个脚本打印每一行代码因为它在脚本和所有导入的模块中运行如下所示 python m trace trace myscript py 有没有办法做同样的事情但是only打印顶级调用即仅打印以下行my
从 Python 中的 message_from_string() 获取发件人地址

有人可以告诉我如何在Python中从email message from string 获取发件人地址吗谢谢我试过 message email message from string email text from message Fr
Django 营业时间

我想添加诊所的营业时间我已经对此进行了调查在 Django 中实现开放时间的任何现有解决方案 https stackoverflow com questions 8128143 any existing solution to imp
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
Python正则表达式替换引号中的文本（引号本身除外）

例如我有一个测试字符串 content I opened my mouth Good morning I said cheerfully 我想使用正则表达式删除双语音标记之间的文本但不删除语音标记本身所以它会返回 I opened m
Plotly：如何设置文本格式（下划线、粗体、斜体）

使用注释时我尝试在绘图中为文本添加下划线我使用添加注释 import plotly graph objects as go g go FigureWidget make subplots rows 1 cols 1 g update l
在添加数据之前使用 Python gdata 清除工作表中的行

我有一个 Google 电子表格我使用 python 脚本和 gdata 库填充值如果我多次运行脚本它会将新行附加到工作表中我希望脚本在填充之前首先清除行中的所有数据这样每次运行时我都会有一组新的数据脚本我尝试过使用 Updat
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
从 SUDS 中的 SOAP 响应中提取 Cookie

我必须使用具有多种服务的 API 所有这些都需要来自下面的身份验证的 JSESSION cookie 然而当我调用下一个服务时它不会保留 cookie 因此会拒绝它们 from suds client import Client url
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

构建hash表和两种处理冲突方法

hash表定义 hashing定义了一种将字符组成的字符串转换为固定长度 xff08 一般是更短长度 xff09 的数值或索引值的方法 xff0c 称为散列法 xff0c 也叫哈希法由于通过更短的哈希值比用原始值进行数据库搜索更快 xff
用hash_map统计出现次数最多的前N个URL

海量数据统计频率最高词汇的常规办法之一是先通过一个hash函数处理数据然后取模N xff0c 拆分为N个小文件 xff0c 对每一个小文件进行词频统计和排序处理 xff0c 然后归并N个小文件取频率最大的M个数下面程序是利用hash ma
C++与java语法的异同整理

文章目录 Java与C 43 43 与基础语法异同java的认知 amp java与C 43 43 的异同C 43 43 中的虚函数和JAVA中的抽象方法区别C 43 43 虚函数与JAVA中抽象函数比较关于接口与抽象类 xff1a Jav
微信公众平台-股票行情查询

微信公众平台股票行情查询 php实现的获取上证 xff0c 深证 A B股实时行情的接口 xff0c 只实现了文本消息回复 xff0c K线图可以在图文消息中加上接口url地址就可以显示 xff0c 具体的接口地址网上可以找 xff0c
PELCO-D与PELCO-P协议介绍

一般控制协议都由硬件或软件商编制在程序里面 xff0c 我们只需要通过相关的控制设备来进行操作但是作为一个从事监控行业的技术人员 xff0c 往往会遇到除了电脑和协议转换器以外根本没有任何控制设备的情况 xff0c 此时 xff0c 协议
ROS 问题（topic types do not match、topic datatype/md5sum not match、msg xxx have changed. rerun cmake）

1 topic types 不匹配使用 roslaunch 命令 roslaunch carla ros bridge carla ros bridge with example ego vehicle launch 启动官方 demo
Ubuntu中查看安装的Python版本以及不同版本之间切换

查看系统中已安装的所有Python版本使用 ls 命令来查看你的系统中都有那些 Python 的二进制文件可供使用 xiyou 64 span class token property xiyou virtual machine span
Ubuntu Python 多版本安装

概述由于 Python 3 有几次较为跳跃的更新 xff0c 导致大量使用 Python 3 作为开发工具的软件会对 Python 3 的版本进行严格限制 xff0c 如限制使用 Python 3 8 Python 3 9 版本这要求开
怒爬某 Hub 资源就为撸了一个鉴黄平台

来源 xff1a 码匠笔记公号黄色已经是我们所不容然而却防不胜防的 xff0c 尤其是对于做内容的工具和平台 xff0c 所以花了30分钟搭建了一个鉴黄平台 xff0c 分享给大家数据准备找了 N 多资源都不能解决问题 xff0c 于
ROSERROR : datatype/md5sum

出错原因是 xff1a 自定义消息 xff0c 发送话题的消息类型和接受话题的消息类型不一样但是我的代码真的是一样的所以 xff0c 解决办法是 xff1a 清空工作空间的build devel文件夹 xff0c 重新编译运行成功 x
学习使用 ArUco 标记

在本文中 xff0c 我们将研究使用 Python 和 OpenCV 检测和估计 ArUco 标记的方向首先 xff0c 我们将从生成 ArUco 标记开始你可以使用特定网站一个一个地创建单个标签 xff0c 也可以使用我的程序生成整个
TCP协议中的序列号

TCP 协议工作在OSI的传输层 xff0c 是一种可靠的面向连接的数据流协议 xff0c TCP之所以可靠 xff0c 是因为它保证了传送数据包的顺序顺序是用一个序列号来保证的响应包内也包括一个序列号 xff0c 表示接收方准备好这个
c++开发过程中遇到的问题及解决方案

xfeff xfeff 问题一 xff1a 1 gt JForm obj error LNK2019 无法解析的外部符号 34 public virtual thiscall JFC JForm JForm void 34 1JForm 6
Digest Auth 摘要认证

Digest Auth 摘要认证 1 非常规方式转载 xff1a https blog csdn net qq 25391785 article details 86595529 public static void postMethod
嵌入式C语言基础知识--位操作

目录大小端模式 xff1a 字节高低位 xff1a LSB和MSB xff1a 高位先行msb 低位先行lsb xff1a 串口传输是低位先行 IIC传输是高位先行字节序比特序大端模式小端模式高字节序低字节序 MSB LSB
qt 绘制流程图案例收集

参考 C 43 43 中的例子 xff1a Qt Qt5 11 1 Examples Qt 5 11 1 widgets graphicsview diagramscene The Diagram Scene example is an a
获得GPS数据的两种方法 1.读串口

获得GPS数据一般可通过两种方法 xff0c 读串口及调用gpsapi函数串口作为硬件设备 xff0c 不能同时被两个程序占用 xff0c gpsapi函数几个应用程序可同时共享端口 1 xff0e 读串口先找出 gps 使用的串口号
机器人履带底盘的悬挂和传动

我爸是坦克 xff01 一个履带机器人一前言曾经调研过机器人履带底盘的设计和构造 xff0c 整理一下备忘本文主要关注自己比较难理解的履带底盘悬挂机构和摇臂式履带底盘传动机构其中履带底盘的悬挂涉及到克里斯蒂悬挂 xff08 Chr
Python爬虫——Scrapy 的基本使用

文章目录 Python爬虫 Scrapy 的基本使用1 创建 Scrapy 爬虫项目2 Scrapy 创建爬虫文件3 Scrapy 运行爬虫文件 Python爬虫 Scrapy 的基本使用 Scrapy 框架中创建项目查看配置信息 xff
Python爬虫——Scrapy框架使用实例及执行过程

文章目录 Python爬虫 Scrapy框架使用实例及执行过程1 Scrapy框架使用实例2 Scrapy框架执行过程 Python爬虫 Scrapy框架使用实例及执行过程 1 Scrapy框架使用实例 1 创建scrapy项目 scrap

Python爬虫——Scrapy框架使用实例及执行过程

文章目录

Python爬虫——Scrapy框架使用实例及执行过程

1、Scrapy框架使用实例

2、Scrapy框架执行过程

Python爬虫——Scrapy框架使用实例及执行过程 的相关文章

随机推荐

热门标签

Python爬虫——Scrapy框架使用实例及执行过程的相关文章