Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

2023-11-18

scrapy数据持久化存储（基于终端指令）：

上节我们爬取到了内容，那么我们怎么做持久化存储呢？

直接在parse方法中进行 with open() as f ?

如果是这样的话，那我们就没必要使用框架了。

scrapy框架中，我们封装好了持久化存储

import scrapy

class DuanziSpider(scrapy.Spider):
    name = 'duanzi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://duanzixing.com/段子/']

    def parse(self, response):
        article_list = response.xpath('/html/body/section/div/div/article')
        for article in article_list:
            title = article.xpath('./header/h2/a/@title').extract_first()
            note = article.xpath('./p[2]/text()').extract_first()

这是我们上节课获取数据的爬虫文件源码，我们该怎样利用框架进行持久化存储title和note呢？

基于终端指令的持久化存储

这种方法的实现：该种方式只可以将parse方法的返回值存储到本地制定后缀的文本文件中。
执行指令：scrapy crawl spiderName -o filePath

那么我们先创建个列表存储数据，并返回：

def parse(self, response):
    all_data = []
    article_list = response.xpath('/html/body/section/div/div/article')
    for article in article_list:
        title = article.xpath('./header/h2/a/@title').extract_first()
        note = article.xpath('./p[2]/text()').extract_first()
        dic = {
            'title': title,
            'note': note
        }
        all_data.append(dic)
    return all_data

存储只需一条终端指令：

scrapy crawl duanzi -o duanzi.txt

在这里插入图片描述

我们发现报错了！~ 错误解释是只能保存json、csv等格式文件

那么久来保存下csv格式的

scrapy crawl duanzi -o duanzi.csv

在这里插入图片描述

然后我们就看到保存成功了！.

关注Python涛哥！学习更多Python知识！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

HK32F030MF4P6 实现PAout（xx）/PAin（xx）

需要将此代码加进程序中即可 ifdef cplusplus extern C endif typedef struct u16 bit0 1 u16 bit1 1 u16 bit2 1 u16 bit3 1 u16 bit4 1 u16 b
保姆级python入门教程(非常详细)，从零基础入门到精通，从看这篇开始！

一初聊Python 文末有惊喜福利 1 为什么要学习Python 在学习Python之前你不要担心自己没基础或脑子笨我始终认为只要你想学并为之努力就能学好就能用Python去做很多事情在这个喧嚣的时代很多技术或概念会不断兴
华为OD机试 - 找出两个整数数组中同时出现的整数（Java ）

题目描述现有两个整数数组需要你找出两个数组中同时出现的整数并按照如下要求输出有同时出现的整数时先按照同时出现次数整数在两个数组中都出现并目出现次数较少的那个进行归类然后按照出现次数从小到大依次按行输出没有同时出现的整数时
什么是Ntrip？Ntrip协议简介

文章目录 Ntrip通讯协议1 0 Ntrip是什么 Ntrip系统组成 NtripServer NtripClient 4 1 获取源列表 4 2 获取差分数据其他资料 Ntrip通讯协议1 0 Ntrip是什么 NTRIP是在互联网上
可能是把Docker的概念讲的最清楚的一篇文章

编者的话本文只是对Docker的概念做了较为详细的介绍并不涉及一些像Docker环境的安装以及Docker的一些常见操作和命令 Docker是世界领先的软件容器平台所以想要搞懂Docker的概念我们必须先从容器开始说起如果你想和更多
【Python开发】Flask中的单点登录解决方案

Flask中的单点登录解决方案 1 SSO 和 CAS 单点登录 Single Sign On SSO 就是通过用户的一次性鉴别登录当用户在身份认证服务器上登录一次以后即可获得访问单点登录系统中其他关联系统和应用软件的权限同时这种实现
win10下载与安装mysql详细步骤

下载mysql 下载地址 https dev mysql com downloads mysql 5 1 html downloads 下载完以后解压到自己想要安装的目录下文件如下图所示配置环境右击此电脑选中属性点击高级系
Buuctf Exec

打开该靶机发现该页面为一个ping页面输入127 0 0 1测试发现和电脑cmd上ping的结果差不多分析一下ping小技巧的区别 A B 简单的拼接 A B之间无制约关系 A B A执行成功然后才会执行B A B A的输出作
SQL语句用法大全

SQL Structured Query Language 是一个对数据库进行增删改查的语言不过这玩意儿还是挺难理解的所以我就写了这篇文章希望能帮助到您为了方便阐述我做了以下表格作为数据表进行演示 ABOUT NAME char
java读取含有合并行的excel

excel格式如下代码如下 package com example demo excel import org apache poi hssf usermodel HSSFWorkbook import org apache poi ss
mongodb分片集群搭建

1 本次搭建使用三台centos7主机搭建伪集群关闭防火墙和selinux服务 2 mongodb架构相当于9个分片节点 3个路由节点 3个配置节点主机信息如下图所示主机名称主机ip地址端口服务 A 10 1 60 114 20
[PCB]这里带你了解何为PCB？

现在我们的生活已经遍地是电子智能设备如手机电脑电视等打开这些设备的后盖都会见到一块布满元器件的板子如电脑主板手机主板等这些都是PCB板的一种如下如所示一 PCB的概念 PCB 的中文名称为印制电路板他是Printed
1.6. 从键盘输入一个3位整数，请编写程序计算三位整数的各位数字之和，并输出到屏幕上，要求输出占4列，右对齐。

num int input 请输入一个三位整数 bai num 100 shi num 10 bai 10 ge num 100 bai 10 shi sum ge bai shi print 4d sum
Tiny4412 LCD驱动（DRM+设备树）

0 前言 Tiny4412 LCD驱动 DRM 无设备树所用linux 3 5 0没有使用设备树和当前主流嵌入式Linux开发有一定的差距实用性不大因此我将内核升级到了最新稳定版linux 5 11 12 本文对该版本内核中的Tin
webservcie生成客户端代码报错----javax.xml.ws.soap.SOAPFaultException: Cannot create a secure XMLInputFactory

javax xml ws soap SOAPFaultException Cannot create a secure XMLInputFactory 这个问题困扰了我一天妈的后来才发现是缺少了两个jar包如下服务器端缺少了两个ja
LTspice基础教程-014.绘制一份漂亮的仿真原理图

规范原理图的画法能让原理图简洁易懂下面贴出一份我绘制的原理图在此基础上说明一些绘图技巧 spice指令类语句可以放到一块这样便于修改查找连线较长时建议使用网络标签不同模块建议使用端口进行连接不同模块可以使用虚线框绘制边界比较美
ubuntu源详解 and 实现自己的ubuntu源 - [linux应用程序]

ubuntu源详解 and 实现自己的ubuntu源 linux应用程序 2011 11 26 一直对linux源不太清楚只是在网上直接找到对应源镜像复制到本地使用现在开始探索源一简介 linux内核对应各种各样的操作系统发行版本
删除（取消、终止）亚马逊的云服务器Amazon EC2的操作方法、教程

删除取消终止亚马逊的云服务器Amazon EC2的操作方法教程关于Amazon EC2服务器 1 亚马逊的服务器只能终止不能删除终止后卷存储硬盘会自动关闭如果没有快照不可恢复 2 终止的服务器会存在你的列表一段时间后自动
Centos7安装Django

安装 setuptools yum install python3 setuptools 安装django pip3 install Django 3 0 6 i https pypi tuna tsinghua edu cn simple
Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

scrapy数据持久化存储基于终端指令上节我们爬取到了内容那么我们怎么做持久化存储呢直接在parse方法中进行 with open as f 如果是这样的话那我们就没必要使用框架了 scrapy框架中我们封装好了持久化存储 im

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥的相关文章