Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例）

2023-11-05

采用selenium界面抓取信息，需要渲染界面，并且也是单线程操作，效率极低，一晚上只爬去了一个工行的数据。

突然想到了分布式爬虫

安装 Scrapy

pip版本过于老旧不能使用，需要升级pip版本，输入python -m pip install --upgrade pip，升级成功

安装scrapy命令：pip install Scrapy

因为scrapy框架基于Twisted,所以先要下载其whl包安装

地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索 twisted 根据自己的版本下载

进行安装 xxxxxxxx是包的名字进入whl包所在的路径，执行下面命令

pip install xxxxxxx.whl

scrapy的使用

首先，在我们进行第一步——Scrapy的安装时，无论通过什么方式安装，都要进行验证，在验证时输入Scrapy命令后，会得到系统给出的类似于文档的提示，其中包括了Scrapy的可执行命令

（1）首先创建已给爬虫文件夹，cmd中打开这个文件夹的目录

（2）在终端输入指令：scrapy startproject Bank 进行项目创建。scrapy startproject是创建项目的命令，后面跟的是项目名称。该指令执行后的结果如下图所示

reptile文件夹中，被创建几个文件夹和py文件，这就表示一个项目初步创建成功。

（3） cd spiders ，进入spiders文件夹内

（4）在终端中输入scrapy genspider bankSpider icvio.cn，这个命令是指定要爬取的网站的域名，命令格式为：scrapy genspider taobaoSpider + 目标网站的域名。执行效果如图所示：

至此，一个初步得scrapy项目就已经创建成功，下面我们了解一下这个框架的每个部分的功能：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

四. 开始前的准备工作。

在第二部分，我们初步创建了一步Scrapy项目，在自动创建的文件夹中，有着如图所示的几个文件：

它们的作用分别是：

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件,负责对爬虫返回数据的处理

settings.py:爬虫程序设置,主要是一些优先级设置,优先级越高,值越小

scrapy.cfg:内容为scrapy的基础配置

值得注意的是，在学习阶段，我们要明白几点设置文件setting中的几处配置代码，它们影响着我们的爬虫的效率：

(一)修改ROBOTSTXT_OBEY

ROBOTSTXT_OBEY = True
这行代码意思是：是否遵守爬虫协议，学习阶段我们要改为False

因为默认为 True，就是要遵守 robots.txt 的规则， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在 Scrapy 启动后，会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。查看 robots.txt 可以直接网址后接 robots.txt 即可。

SPIDER_MIDDLEWARES = {

'Bank.middlewares.WxzSpiderMiddleware': 800,

}

(二)、在 scrapy.cfg 同级目录下创建 pycharm 调试脚本 run.py，内容如下：

# -*- coding: utf-8 -*-

from scrapy import cmdline

cmdline.execute("scrapy crawl bankspider".split())

（三）settings.py 里添加 USER_AGENT。

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36"

(四)不需要模拟登陆，settings.py 里的 COOKIES_ENABLED ( Cookies中间件) 设置禁用状态。

COOKIES_ENABLED = False

第五步: 定义 Item，编写 items.py 文件。

class BankItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 银行名称
    yhmc = scrapy.Field()
    # 联行号
    lhh = scrapy.Field()
    # 电话
    dh = scrapy.Field()
    # 地址
    dz = scrapy.Field()
    # 省份
    sf = scrapy.Field()

第六步: 查看HTML源码，使用XPath helper爬虫插件一起查看需要爬取的字段的 xpath 路径。

编写bankSpider.py文件

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例）的相关文章

Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
如何使 Django ManyToMany “直通”查询更加高效？

我使用的是 ManyToManyField 和 through 类这会在获取事物列表时产生大量查询我想知道是否有更有效的方法例如这里有一些描述书籍及其几位作者的简化类它们通过角色类定义编辑器插画家等角色 class Per
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
使用 python-docx 在 docx 文件中查找所有“正常”样式且字体大小不是 11 的文本

到目前为止我的实现 from docx api import Document import pandas as pd from docx shared import Pt texts sizes document Document new
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
Learning_rate 不是合法参数

我正在尝试通过实现 GridSearchCV 来测试我的模型但我似乎无法在 GridSearch 中添加学习率和动量作为参数每当我尝试通过添加这些代码来执行代码时我都会收到错误这是我创建的模型 def define model op
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

游戏笔记本电脑推荐多功能游戏本你见过吗？

本来安排了一个国庆假期旅游计划但是计划往往赶不上变化被好朋友给放鸽子了想着刚好我新买的游戏本到了作为一个游戏宅所以就打算呆在家玩玩游戏算了结果不玩不知道一玩上就爱不释手现在甚至想将这款游戏笔记本电脑推荐给大家它的名字叫
Windows主机信息搜集

注意一切内容仅用于信息技术分享切勿用于其他用途一切后果与作者无关前言通过命令执行使用cs拿到了内网的一台主机接下来我们进行内网的信息搜集 1 内网环境分析内网渗透在拿到webshell的时候想办法获取系统信息拿到系统权限
四个/24地址块，试进行最大可能的聚合

由于四个地址块前两个字节都相同只需将每个地址块的第三个字节转换为二进制 212 56 132 0 24 212 56 10000100 0 212 56 133 0 24 212 56 10000101 0 212 56 134 0 24
C#控件命名规范

类型前缀示例 Adrotator adrt adrtTopAd BulletedList blst blstCity Button btn btnSubmit Calendar cal calMettingDates CheckB
nginx: [emerg] could not build the server_names_hash

手头有块板子上面起了nginx配置了多个域名启动的时候发现报错 nginx emerg could not build the server names hash you should increase server names has
pandas中的时间序列

一夯实基础 datetime 模块中的数据类型 date 以公历形式存储日历日期年月日 time 将时间存储为时分秒毫秒 datetime 存储日期和时间 timedelta 表示两个datetime值之间的差日秒毫秒 1 获取当
无效数据处理攻略：如何从源头开始预防无效数据带来的风险

数据处理在现代社会中变得越来越重要而对于数据的可靠性和准确性我们始终非常关注然而即使在对数据进行了精心管理的情况下无效数据依然可能存在并可能对数据分析和决策带来不良影响因此处理无效数据变得愈发重要一什么是无效数据在处理
app数据分析体系 - 用户粘性 DAU，MAU 和月人均活跃天数

用户粘性指标 DAU MAU 月均活跃天数 DAU 和 MAU 日活跃用户占月活跃用户的比例越高表明用户对App的使用粘性越高 DAU 即 Daily Active User 指日活跃用户数 MAU 即 Monthly Active Us
后端进阶之路——深入理解Spring Security配置（二）

前言作者主页雪碧有白泡泡个人网站雪碧的个人网站推荐专栏 java一站式服务前端炫酷代码分享 uniapp 从构建到提升从0到英雄 vue成神之路解决算法一个专栏就够了架构咱们从0说数据流通的精妙之道后端进阶之路文章
A/B测试是什么？面试官把我问懵了！

什么是A B测试 A B测试是为 web 或 app 界面或流程制作两个 A B 或多个版本在同一时间维度分别让组成成分相同相似的访客群组目标人群随机的访问这些版本收集各群组的用户体验数据和业务数据最后分析评估出最好版本
Golang 枚举详解

什么是枚举枚举 Enumeration 是一种常见的编程概念它定义了一组命名常量我们知道在 Go 语言中定义常量是这样的形式 const A a B b 开发者可以使用枚举创建复杂的有限的常量集这些常量集具有有意义的名称和唯一的值
将 Bean 注入 Spring 容器的方法

这里写目录标题 1 Configuration Bean 2 Componet ComponentScan 3 Import 注解导入 3 1 Import 直接导入类 3 2 Import ImportSelector接口 3 3 Imp
Microsoft Visual Studio 2013产品激活密钥

win7 win8 win10系统下Visual Studio 2013各个版本的密钥 Visual Studio Ultimate 2013 KEY BWG7X J98B3 W34RT 33B3R JVYW9 Visual Studio
unity3D 物体跟随移动

脚本挂载移动的物体上 public class Player MonoBehaviour public float Speed 4 Use this for initialization void Start Update is calle
c++打怪小游戏——修仙之路1.5

这次我们要出示的程序是修仙之路1 5版本的这个程序在c 打怪小游戏修仙之路1 0多加了好几个功能这次我们在这个程序中多加了一些代码我们为下面的优化多准备一个头文件 include
MAVEN在IDEA中的应用

idea集成maven插件 settings gt 输入maven gt 选择本地maven安装路径配置文件以及本地仓库的路径创建非web的maven工程创建工程 gt 选择maven 下一步之后填写项目的坐标类似于全类名下一步之
Zotero win10/mac/iPad三台设备同步

刚入坑Zotero 发现同步功能很强大刚好手上有三台设备就试着捣鼓了下最终结果不错记录一下参考来源 https sspai com post 64283 少数派用 Zotero 坚果云搞定多设备文献管理 https blog c
虚拟机中linux_server搭建

linux server environment 1 Installation in vmware workstation 1 1 steps 略普通的虚拟机系统安装模式 2 linux 中存储设备的使用 linux 中所有存储设备都是通
华为云服务器无法ssh连接&&可以公网ip访问

基本是SSH服务没有打开的原因在华为的配置里面默认打开了22号端口但是需要修改ssh配置文件首先从华为云服务管理界面远程登录进去然后会看到然后登陆之后修改ssh的配置文件 sudo vi etc ssh sshd config 将
Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例）

采用selenium界面抓取信息需要渲染界面并且也是单线程操作效率极低一晚上只爬去了一个工行的数据突然想到了分布式爬虫安装 Scrapy pip版本过于老旧不能使用需要升级pip版本输入python m pip instal

Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例）

Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例） 的相关文章

随机推荐

热门标签

Scrapy 爬虫完整案例—从小白到大神（银行网点信息为例）的相关文章