【scrapy】scrapy爬取数据指南

2023-11-14

scrapy是爬虫界常用的基于Python爬虫框架，但是网上找了很多这类的文章，发现有多处错误，故为了让刚想尝试爬虫的蜘蛛们少走点坑，故把最新的方法奉上。
在此之前，请先更新你的pip版本，并安装scrapy , pymysql。

pip install scrapy
python3 -m pip install pymysql

首先我的目录结构是这样的，你可以使用如下命令进行初始化

scrapy startproject SpiderObject
//参考：https://blog.csdn.net/skullfang/article/details/78607942

1.编写items.py

import scrapy

class MovieItem(scrapy.Item):
    name = scrapy.Field()
    movieInfo = scrapy.Field()
    star = scrapy.Field()
    number = scrapy.Field()
    quote = scrapy.Field()
    pass

2.编写MovieSpider.py

# -*- coding: utf-8 -*-
from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from SpiderObject.items import MovieItem

import requests
import time

class MovieSpider(Spider):
     # 爬虫名字
    name = 'MovieSpider'
     # 反爬措施
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    url = 'https://movie.douban.com/top250'
     # start_urls = ['movie.douban.com']

    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)

    def parse(self, response):
        item = MovieItem()
        selector = Selector(response)
        movies = selector.xpath('//div[@class="info"]')
        for movie in movies:
            name = movie.xpath('div[@class="hd"]/a/span/text()').extract()
            message = movie.xpath('div[@class="bd"]/p/text()').extract()
            star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
            number = movie.xpath('div[@class="bd"]/div[@class="star"]/span/text()').extract()
            quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()
            if quote:
                quote = quote[0]
            else:
                quote = ''
            item['name'] = ''.join(name)
            item['movieInfo'] = ';'.join(message).replace(' ', '').replace('\n', '')
            item['star'] = star[0]
            item['number'] = number[1].split('人')[0]
            item['quote'] = quote
            yield item
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        time.sleep(3)
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url + str(nextpage), headers=self.headers, callback=self.parse)

3.编写pipelines.py与mysql数据库进行连接

import pymysql

class MoviePipeline(object):
    def __init__(self):
        # 连接数据库
        self.conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='root',
                                    db='DOUBANDB',charset='utf8')
        # 建立游标对象
        self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Movie')
        self.conn.commit()

    def process_item(self, item, spider):

        try:
            self.cursor.execute("insert into Movie (name,movieInfo,star,number,quote) \
            VALUES (%s,%s,%s,%s,%s)", (item['name'],item['movieInfo'],item['star'],
                                      item['number'],item['quote']))
            self.conn.commit()

        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s" % (item['name'],item['movieInfo'],item['star'],
                                              item['number'],item['quote']))
            return item

4.设置settings.py

这里写图片描述

5.搭建mysql数据库

我们通过代码自动访问mysql数据库，
前提是你要先开启mysql连接，并在127.0.0.1下新建数据库DOUBANDB，如图所示：
这里写图片描述

如何用代码自动添加并设计Movie表结构呢：
新建conn_sql.py

import pymysql

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='DOUBANDB', charset='utf8')

cursor = db.cursor()

cursor.execute('DROP TABLE IF EXISTS MOVIE')

sql = """CREATE TABLE MOVIE(
          id INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '自增 id',
          name VARCHAR(1024) NOT NULL COMMENT '电影名',
          movieInfo VARCHAR(1024) DEFAULT NULL COMMENT '电影简介',
          star VARCHAR(20) NOT NULL COMMENT '评分',
          number VARCHAR(1024) NOT NULL COMMENT '评价人数',
          quote VARCHAR(1024) NOT NULL COMMENT '简评',
          createtime DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '添加时间'
          )"""

cursor.execute(sql)

db.close()

6.执行爬取并存入

只需要执行一行代码：

scrapy crawl MovieSpider

7.结果

这里写图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

爬虫

【scrapy】scrapy爬取数据指南的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

PCB天线设计

PCB天线概述什么是PCB天线顾名思义就是在PCB上印制了一根走线可以将其画成直线走线反转的F形走线蛇形或圆形走线等长度为四分之一波长就基本可以形成天线将电信号辐射出去或接收信号设计指标在上一期文章深入解读无线通信中的
二叉树建立

结束二叉树输入如何结束创建二叉树的输入那把二叉树补全前序输入 AB C 中序 B A C 后序 B CA 输出结果如下代码如下 include
前端性能优化：7.页面渲染优化

本文将主要关注浏览器获取到资源后进行渲染部分的相关优化内容 7 1 页面渲染性能页面渲染阶段对性能体验的应i昂与资源加载阶段同样重要而对于设计高交互频次的应用来说可能更加重要本节将整个渲染过程划分为五个串行阶段进行概述优化渲染的实
大众点评校招助理产品经理-笔试题分析（下）

针对大众点评网的任何一个产品的一个需要改进的点信息数据或功能体验都行给出你的分析和改进规划希望尽可能的全面深入详细 1 改进产品版本与使用机型使用版本大众点评Android客户端V5 2版本机型 HTC Desire HD
memset in C++ and C

definition memset是计算机中C C 语言函数将s所指向的某一块内存中的前n个字节的内容全部设置为ch指定的ASCII值第一个值为指定的内存地址块的大小由第三个参数指定这个函数通常为新申请的内存做初始化工作其返回值
Failed to execute goal org.apache.maven.plugins:maven-checkstyle-plugin

idea编译项目时出现如下报错 ERROR Failed to execute goal org apache maven plugins maven checkstyle plugin 3 0 0 check validate on p
k8s学习笔记（二）：k8s的组件介绍

文章目录 k8s组件介绍架构图角色控制平面组件 Control Plane Components kube apiserver 端口容器 etcd 端口容器 kube scheduler 容器端口 kube controller
Postman脚本——断言测试

pm对象提供了测试相关功能 pm test testName String specFunction Function Function 测试函数 pm expect assertion Function Assertion 允许在响应数据
[552]python实现聚类算法(6种算法）

1 Mean shift 1 概述 Mean shift 即均值迁移的基本思想在数据集中选定一个点然后以这个点为圆心 r为半径画一个圆二维下是圆求出这个点到所有点的向量的平均值而圆心与向量均值的和为新的圆心然后迭代此过程
AI炼丹技巧

目录样本不平衡 1 什么是样本不平衡问题 2 样本不平衡会对我们模型的训练带来哪些影响呢 3 在机器学习中解决样本不平衡问题有哪些通用的解决策略 4 在深度学习中有哪些解决样本不平衡的方法 5 从模型评价指标的角度重新审视训练好的模型
计算机中丢失msvcp140.dll怎么解决？分享三个解决方法

当我们在运行某些应用程序时可能会遇到缺少msvcp140 dll 或找不到msvcp140 dll 的错误提示这意味着我们的系统缺少这个重要的动态链接库文件 msvcp140 dll丢失会造成很多软件无法正常启动运行下面小编就分享
全网最全！Python爬虫requests库教程(附案例)

1 requests 库简介 Requests 是一个为人类设计的简单而优雅的 HTTP 库 requests 库是一个原生的 HTTP 库比 urllib3 库更为容易使用 requests 库发送原生的 HTTP 1 1 请求无需手
【MySQL高级篇笔记-性能分析工具的使用 (中) 】

此笔记为尚硅谷MySQL高级篇部分内容目录一数据库服务器的优化步骤二查看系统性能参数三统计SQL的查询成本 last query cost 四定位执行慢的 SQL 慢查询日志 1 开启慢查询日志参数 2 查看慢查询数目 3
常见的排序算法及其复杂度分析

1 常见算法分类十种常见排序算法一般分为以下几种非线性时间比较类排序交换类排序快速排序和冒泡排序插入类排序简单插入排序和希尔排序选择类排序简单选择排序和堆排序归并排序二路归并排序和多路归并排序线性时间非比较类排序计数
黑盒测试与白盒测试的区別

黑盒测试与白盒测试是软件测试中两种不同的测试方法它们的主要区别在于测试者对被测试软件的了解程度下面我们将详细介绍这两种测试方法的特点和适用场景一黑盒测试黑盒测试又称为功能测试是针对被测试软件的功能进行测试的一种测试方法测试者
linux 进程几种状态,linux进程状态

linux系统最常用的命令莫过于ps 经常要用其查看linux的进程和线程情况此文我们着重来看进程进程又分为以下几种状态 1 运行正在运行或在运行队列中等待 2 中断休眠中受阻在等待某个条件的形成或接受到信号 3 不可中断收到
Kotlin Coroutines Flow 系列(一) Flow 基本使用

一 Kotlin Flow 介绍 Flow 库是在 Kotlin Coroutines 1 3 2 发布之后新增的库官方文档给予了一句话简单的介绍 Flow cold asynchronous stream with flow build
C# socket异步通信服务器和客户端

本文章向大家介绍C socket异步通信服务器和客户端主要包括C socket异步通信服务器和客户端使用实例应用技巧基本知识点总结和需要注意事项具有一定的参考价值需要的朋友可以参考一下服务器代码只要客户端连接进来就会接收到Se
Qt之QTableView 保持滚动条自动滚动到底部

在使用QTableView添加数据时当数据量超出显示范围时会自动的打开滚动条如果设置了在需要时打开滚动条属性而默认的是滚动条一直是保持在最顶部但是有些时候我们添加数据时是需要查看添加的最新结果的所以一般都会把滚动条滚动到最新数据那
【scrapy】scrapy爬取数据指南

scrapy是爬虫界常用的基于Python爬虫框架但是网上找了很多这类的文章发现有多处错误故为了让刚想尝试爬虫的蜘蛛们少走点坑故把最新的方法奉上在此之前请先更新你的pip版本并安装scrapy pymysql pip inst