scrapy爬虫框架详解，爬取某网站小游戏案例实战

2023-05-16

文章目录

scrapy介绍
- 名词介绍：
- scrapy工作流程：
- 使用方法：
项目实战

scrapy介绍

名词介绍：

引擎（engine）
scrapy的核心，负责模块之间的衔接
调度器（scheduler）
存放我们要爬取的URL地址，可以看成一个URL容器，它决定着我们下一步要去爬取哪个URL
爬虫（spider）
主程序吧，大部分代码在这里写，主要负责解析response中的数据解析，拿到我们想要的数据
管道（pipeline）
数据存放的地方，管道可以有多个，按照优先级来，数越小，优先级越高
下载器（download）
负责发送request请求，将结果直接打包成可以解析的数据，交给爬虫

scrapy工作流程：

爬虫（spider）从其实url构造成requests对象传递给调度器
引擎（engine）从调度器中获取到request对象交给下载器
由下载器（downloader）获取到页面源代码，在交给引擎
引擎将获取到的原码交给spider ，spider对数据进行解析（parse）并返还给引擎

使用方法：

1.在终端里移动到项目所在地址
scrapy startproject 【项目名字】 # 使用scrapy创建项目
2.cd到刚才的项目里面，创建目标
scrapy genspider 【名字】【目标URL】

项目实战

主程序里面：

import scrapy


class Game4399Spider(scrapy.Spider):
    name = "game4399"
    allowed_domains = ["4399.com"]
    start_urls = ["http://4399.com/flash"]

    def parse(self, response):
        # print(response.text)  # 页面源代码
        # response.json(), response.cs
        # 需要用extract单独提取内容
        # 一次性提取
        # name = response.xpath('//*[@id="skinbody"]/div[8]/ul/li/a/b/text()').extract()
        # print(name)
        # 分块提取
        lis = response.xpath('//ul[@class="n-game cf"]/li')
        for li in lis:
            # 使用extract_first()提取第一项，没有不取，代替[0],防止报错
            name = li.xpath('./a/b/text()').extract_first()
            link = 'http://www.4399.com' + li.xpath('./a/@href').extract_first()
            # print(name)
            # 因为列表比较耗内存，所以这里转成字典
            dic = {
                "name": name,
                "link": link,
            }
            # 用yield将数据传递给管道pipeline
            yield dic  # 如果返回的是数据，直接可以认为给了管道pipeline

setting里面把不需要的日志取消显示，只显示错误信息就够用了，把这行加上去

# 日志级别：DEBUG, INFO, WARNING, CRITICAL , 依次递增
LOG_LEVEL = 'ERROR'

还要在里面打开项目管道，scrapy默认是关闭的，找到这几行代码，取消注释即可

ITEM_PIPELINES = {
   "game.pipelines.GamePipeline": 300,
   # key:管道的路径 value:管道的优先级，越小优先级越高，管道可有多个，mysql，MangoDB等
   # 创建一个新的管道
   "game.pipelines.NewPipeline": 200,
}

pipelines里面的代码：

# 管道默认是不生效的，需要去设置中打开
class GamePipeline:  # 类名可以自定义
    def process_item(self, item, spider):  # 处理数据的专用方法，不可随意更改，item：数据，spader：爬虫
        # print(item)
        # print(spider.name)
        return item

class NewPipeline:  # 使用自定义的管道，优先级200
    def process_item(self, item, spider):
        item['love'] = 'OK'
        return item

最后执行scrapy crawl [项目名字]
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scrapy爬虫框架详解，爬取某网站小游戏案例实战的相关文章

手把手教您完成Elasticsearch数据迁移

您可以通过Logstash reindex和OSS等多种方式在Elasticsearch之间迁移数据本文以阿里云Elasticsearch xff08 简称ES xff09 为例 xff0c 介绍阿里云Elasticsearch间数据迁移
Solr集群数据迁移至Elasticsearch

Elasticsearch是一款非常强大的搜索引擎 xff0c 可以让你在海量的数据中快速找到想要的内容例如 xff0c 代码搜索 xff1a 可以帮助您找到相应的代码仓库 xff0c 还可以实现代码级的搜索及高亮显示 xff1b 网上s
k8s创建Deployment报错：no matches for kind “Deployment“ in version “extensions/v1beta1“

报错类型 xff1a root 64 master kubectl create f lzb test yaml error unable to recognize 34 lzb test yaml 34 no matches for ki
3分钟学会使用Elasticsearch跨集群复制功能（CCR）

当您需要将本地Elasticsearch集群中的索引数据迁移到一个远程集群中 xff0c 或者将一个远程集群中的索引数据迁移到本地集群 xff0c 可通过跨集群复制CCR xff08 Cross Cluster Replication xf
通过Elasticsearch和rsbeat实时分析Redis slowlog

Redis是目前流行的高性能key value数据库 xff0c 但如果使用不当 xff0c 很容易出现慢查询慢查询过多或者一个时间较长 xff08 例如20s xff09 的慢查询会导致操作队列 xff08 Redis是单进程 xff0
通过Monstache实时同步MongoDB数据到Elasticsearch

当您的业务数据存储在MongoDB中 xff0c 并且需要进行语义分析和大图展示时 xff0c 可借助Elasticsearch实现全文搜索语义分析可视化展示等本文介绍如何通过Monstache将MongoDB数据实时同步至Elast
【必入】云虚拟主机怎么屏蔽指定的IP地址

解决方法可通过下面2种方法屏蔽指定的IP地址 xff0c 具体操作步骤请点击此链接 xff1a https help aliyun com knowledge detail 36226 html 通过 htaccess文件屏蔽指定的IP地
通过ES-Hadoop实现Spark读写Elasticsearch数据

ES Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具 xff0c 可以让数据在Elasticsearch和Hadoop之间双向移动 xff0c 无缝衔接Elasticsearch与Hadoop服务 xff0
通过Uptime实时监控云Elasticsearch服务

Heartbeat支持通过HTTP HTTPS TCP和ICMP服务 xff0c 定期检测网络端点状态 xff0c 并将采集的检测数据 xff0c 输出到Kibana的Uptime应用中 xff0c 实时监控应用程序及服务的可用性和响应时间
网站URL路径中“#”“？”“&”号的作用是什么

虽然在搜索引擎蜘蛛抓取的过程中 xff0c 对于网站URL路径中出现的 xff1f amp 等符号 xff0c 会严重影响蜘蛛的抓取可是在网站URL结构当中的动态路径中 xff0c xff1f amp 也是经常出现的特殊符号 xff0c
vscode调试C++ 以及 cMake编写

vscode对C 43 43 程序进行调试 cMake 简单的CMakeLists 1 先编写hello cpp span class token macro property span class token directive hash
【嵌入式10】stm32CubeMX+Keil使用HAL库点灯,并使用逻辑分析仪观察周期

stm32CubeMX 43 Keil使用HAL库点灯并使用逻辑分析仪观察周期一题目要求二 STM32CubeMX简介1 利用CubeMX新建工程点亮LED灯1 xff09 前期准备2 xff09 新建工程 2 界面讲解3 配置引脚4
[HPM] Error occurred while trying to proxy request /account/login/ from localhost:3000 to http://127

span class token brackets span class token punctuation span span class token variable HPM span span class token punctuat
k8s创建Deployment报错：missing required field “selector“ in io.k8s.api.apps.v1.DeploymentSpec

报错类型 xff1a root 64 master kubectl create f lzb test yaml error error validating 34 lzb test yaml 34 error validating dat
IDEA修改maven为本地版本后无法下载jar包

试过了网上的各种方法 xff0c 例如 xff1a 修改settings reload project等 xff0c 都无效 xff0c 本地仓库依然没有根据pom文件下载对应的jar包 xff0c 这个时候我们可以看看我们本地安装的mav
创建第一个Tauri项目 rust桌面应用程序

给你们看看GitHub tauri apps create tauri app Rapidly scaffold out a new tauri app project 在项目开始之前 xff0c 请确保你的rust安装好了 xff0c 软
Hanoi(汉诺)塔问题.是一个递归方法解题的典型例子。

问题是这样的 xff1a 古代有一个梵塔 xff0c 塔内有3个座A B C 开始A座上有64个盘子 xff0c 盘子大小不等 xff0c 大的在下 xff0c 小的在上有一个老和尚想把这个64个塔盘子从A座移到C座 xff0c 但规定只
HTML入门学习

基本标签文档声明 span class token doctype span class token punctuation lt span span class token doctype tag DOCTYPE span span c
manjaro+Windows10双系统安装

1 下载manjaro KDE系统文件在manjaro官网或者清华大学开源软件镜像站选择一个版本下载 2 安装光盘刻录软件rufus并制作启动盘 TODO 3 为新系统分配磁盘空间 TODO 4 关闭Windows快速启动和安全模式 TO
Python代码写好了怎么运行？为大家详细讲讲如何运行Python代码

Python代码写好了怎么运行 xff1f 相信问这样问题的朋友一定是刚刚入门Python的初学者本文就来为大家详细讲讲如何运行Python代码一般来讲 xff0c 运行Python代码的方式有两种 xff0c 一是在Python交互式

随机推荐

微信公众号定时推送消息

先上一波效果图 xff01 一微信公众号测试平台地址 xff1a http mp weixin qq com debug cgi bin sandboxinfo action 61 showinfo amp t 61 sandbox i
C++10个数字冒泡排序个人

这里的冒泡排序就是一个指针从数组的0到8 xff0c 如果指针指向的数字比指针指的下一个数大 xff0c 两个数交换 xff0c 重复操作10遍 xff0c 就可以把一个一串不规则的数字 xff0c 排序成从小到大了要求 xff1a 1
Windows 80端口被占用的解决方法

本来想用小皮做测试 xff0c 结果打开服务 xff0c 出现80端口被占用 xff0c 下面开始解决这个问题先在CMD中输入netstat ano命令来查看是哪个进程占用80端口 xff1b 显示是PID为4的进程正在占用80端口 xf
MD5加密工具类（实战版）

MD5加密工具类 xff08 实战版 xff09 提示 xff1a 这里可以添加系列文章的所有文章的目录 xff0c 目录需要自己手动添加例如 xff1a 第一章 Python 机器学习入门之pandas的使用提示 xff1a 写完文章
ACM暑假集训总结1

百度之星第三场Discount 题目描述学皇来到了一个餐馆吃饭他觉得这家餐馆很好吃 xff0c 于是就想办个会员一共有 nn 种会员充值卡套餐 xff0c 假设学皇这餐饭的消费为 aa 元 xff0c 选择第 ii 种套餐 xff0c
为k8s-master节点添加/移除污点taints

手动部署的k8s集群需要为master节点手动设置taints 设置taint 语法 kubectl taint node node key 61 value effect 其中 effect 可取值 NoSchedule PreferN
电脑声音无法找到输出设备咋整啊？

前言用CSDN好久哒 xff0c 我这破电脑从买到现在经历重重波折 xff0c 重装系统 xff0c office下载出问题以及下载专业软件安装出错等等 xff0c 经过广大网友朋友们的帮助 xff0c 都一一解决 xff0c 每次去店里
Rust 五分钟了解,三十分种入门

Rust 快速入门初始化项目基础变量常量数据类型函数注释控制流所有权移动克隆所有权与函数返回值与作用域引用与借用可变引用 Slice 类型其他类型的 slice 结构体方法枚举Option 枚举模式匹配match通配模式和占位符
求1-100内的素数个数。
使用for语句计算 1到20内奇数阶乘和：S=1！+3！+5！+7！+9！+......+19!
一根长度133m材料，需要截成19m和23m的短料，求两种短料各切多少根，才可以剩余的材料最少
输入10个同学C语言考试分数，统计不及格人数和全部同学平均分

include lt stdio h gt int main double a 10 sum 61 0 var int i k 61 0 printf 请输入10名学生的成绩 xff1a for i 61 0 i lt 10 i 43 43
JAVA 核心知识点篇之算法：概述，总结

JAVA 算法 1 1 二分查找1 2 冒泡排序算法1 3 插入排序算法1 4 快速排序算法希尔排序算法1 1 归并排序算法1 2 桶排序算法1 3 基数排序算法算法 xff08 二 xff09 xff1a 补充 1 1 二分查找又叫折
计算机复习题库11-15

1如下所述的那一项是OSI参考模型数据链路层的功能 A 在信道上传输原始的比特流实现传输数据所需要的机械电气功能性及过程等手段 B 检查网络拓扑已决定传输报文的最佳路由 C 检测并纠正可能出现的错误使之对网络层显现一条无错线路并
Anaconda使用（一）使用Navigator或者prompt创建虚拟环境

入门 conda是一个功能强大的环境管理器 xff0c 可以有效避免python各个版本和库之间产生的冲突问题安装问题 Navigator Navigator是conda中的一个图形化用户界面 xff0c 可以在类似Web的界面中使用co
Django终端运行报错：ImportError: DLL load failed while importing _sqlite3: 找不到指定的模块。

在pycharm运行没问题 xff0c 但是在终端cmd或Powershell就会出错 xff0c 如下 xff1a Traceback most recent call last File 34 manage py 34 line 22
Vue对Axios网络请求进行封装

一为什么要对网络请求进行封装 xff1f 因为网络请求的使用率实在是太高了 xff0c 我们有的时候为了程序的一个可维护性 xff0c 会把同样的东西放在一起 xff0c 后期找起来会很方便 xff0c 这就是封装的主要意义二如何进行
51单片机实现倒计时

51单片机实现倒计时文章目录 51单片机实现倒计时实验环境仿真图代码实现成果图实验环境软件 Keil5 43 Proteus7 元件 AT89C51 1 xff0c RESPACK 8 1 xff0c 7S3G COM CATHODE
stm32外部中断模式控制灯亮灭

文章目录前言一丶通过STMCube配置项目1 引脚配置如图2 配置EXIT3 配置SYS4 配置GPIO5 代码创建出勾上这个6 创建项目二通过KEil配置代码1 打开生成的项目 xff0c 找到stm32f1xx it c2 找到E
scrapy爬虫框架详解，爬取某网站小游戏案例实战

文章目录 scrapy介绍名词介绍 xff1a scrapy工作流程 xff1a 使用方法 xff1a 项目实战 scrapy介绍名词介绍 xff1a 引擎 xff08 engine xff09 scrapy的核心 xff0c 负责模块之