Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥

2023-11-08

scrapy数据解析

这节课，我们来看下scrapy中的数据解析

创建工程

爬取内容：爬取段子网中的段子：https://duanzixing.com/段子/

回顾上节课所学的知识(创建scrapy)，我们先来创建工程和爬虫文件：

1.scrapy startproject duanziPro
2.cd duanziPro
3.scrapy genspider duanzi www.xxx.com

创建好后，我们要不要忘记以下2点：

修改下settings.py文件中的配置
- 修改 ROBOTSTXT_OBEY = False
- 增加 LOG_LEVEL = 'ERROR'
- 取消 USER_AGENT的注释并设置为自己的UA

注释掉爬虫文件里的：allowed_domains = ['www.xxx.com']

在这里插入图片描述

设置好后，我们来爬取下这个网站：

import scrapy


class DuanziSpider(scrapy.Spider):
    name = 'duanzi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://duanzixing.com/段子/']

    def parse(self, response):
        print(response)

结果是可以正常爬取的。那么我们怎么进行数据解析呢？

肯定是在parse函数中写解析代码，这里我们可以用xpath进行数据解析

使用xpath进行数据解析

跟我们之前的xpath语法差不多，我们直接分析：

网站源码很简单，我们很容易就定位到了文本内容。
在这里插入图片描述

直接右键复制xpath，利用之前所学的知识进行解析：

def parse(self, response):
    article_list = response.xpath('/html/body/section/div/div/article')
    for article in article_list:
        title = article.xpath('./header/h2/a/@title')[0]
        note = article.xpath('./p[2]/text()')[0]
        print(title,note)

执行scrapy crawl duanzi

在这里插入图片描述

我们发现，爬取是爬去成功了，但解析出来的内容不是字符串数据，说明和etree中的xpath使用方式不同

在scrapy中，xpath返回的列表中存储而是Selector对象，其实我们想要的字符串数据被存储在了该对象的data属性

将Selector对象data属性值取出

title = article.xpath('./header/h2/a/@title')extract_first()
note = article.xpath('./p[2]/text()')extract_first()

执行后，我们就取到了数据：

在这里插入图片描述

上面是最常用的取数据方式，还有下面2种：

# extract()就是将data属性值取出（几乎不用）：
title = article.xpath('./header/h2/a/@title')[0].extract()
note = article.xpath('./p[2]/text()')[0].extract()

# 直接使用列表调用extract():可以将列表中的每一个列表元素表示的Selector中的data取出
title = article.xpath('./header/h2/a/@title').extract()
note = article.xpath('./p[2]/text()').extract()

完整代码：

import scrapy

class DuanziSpider(scrapy.Spider):
    name = 'duanzi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://duanzixing.com/段子/']

    def parse(self, response):
        article_list = response.xpath('/html/body/section/div/div/article')
        for article in article_list:
            title = article.xpath('./header/h2/a/@title').extract_first()
            note = article.xpath('./p[2]/text()').extract_first()
            print(title, note)

关注Python涛哥！学习更多Python知识！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

Only one connection receive subscriber allowed.

这个filter 中报Only one connection receive subscriber allowed 主要是body体为null的情况 Component public class DecryptionFilter imple
【图床搭建】腾讯云COS+PicGo+Typora图床搭建

图床搭建腾讯云COS PicGo Typora图床搭建今天手把手教大家配置一个属于自己的图床让大家发布在网络中的博客图片也可以被访问保姆级教学包教包会腾讯云COS 1 开通COS 进入腾讯云官网控制台搜索对象存储腾讯云产业智
C++ 图像处理之亮度、色彩平衡调整(逼近PS法)

C 图像处理之亮度色彩平衡调整逼近PS法关键词图像处理亮度调整色彩平衡Photoshop 参考博客 http blog csdn net maozefa article details 4493395 http www cnb
Shell编程实战

题目要求设计一个shell程序计算n的阶乘要求 1 从命令行接收参数n 2 在程序开始后立即判断n的合法性即是否有参数若有是否为正整数若非法请给错误提示 3 最后输出计算的结果考察 if结构 while循环难点 1 判断参数
python报'DataFrame' object has no attribute 'as_matrix'错误

在python中报错 DataFrame object has no attribute as matrix 解决办法 https pandas pydata org pandas docs stable search html q as
JSON中 $ref 的用法

JSON中 ref 的用法 It is a keyword you can use to refer and reuse schemas 是用来引用重复使用schema Schema type object title A Non emp
100天精通Python（基础篇）——第5天：数据类型转换

文章目录一字符串整数浮点数类型转换的语句二数字转字符串三字符串转数字四整数和浮点数互转一字符串整数浮点数类型转换的语句二数字转字符串 num str str 11 print type num str num
mysql下载补丁_mysql 官方补丁在哪里下载？

MySQL 64位安装图解解压缩后运行程序开始安装选择接受协议点击下一步选择developer default 点击 next 检查是否满足安装需求点击 Execute 按钮后可能会下载一些程序到时你自己点击安装就行了直到所
区块链架构-fabric集群版安装（centos7版本）

书接上回配置多机器多节点集群模式服务器选择说明暂不考虑高可用也不考虑kafka 所以先使用三台机器 3M 3台服务器 1O 1 Order 2P 2 Org2Peer 3 1 2证书加密证书与加密暂时不采用CA 直接使用官方提供的
Ai实现FPS游戏自动瞄准 yolov5fps自瞄

大家好我是毕加锁锁今天来分享一个Yolov5 FPS跟枪的源码解析和原理讲解代码比较粗糙各位有什么优化的方式可以留言指出可以一起交流学习需要了解的东西和可能会遇到的问题1 xy坐标点与当前鼠标的xy坐标点距离计算 2 获取窗口
两个串口之间传输文件

一串口连接将两个USB TO TTL用两根杜邦线连接将两个USB TO TTL的RX TX引脚交叉连接然后将两个USB TO TTL接口接在电脑上二传输文件 1 打开两个串口助手波特率是115200 数据位8 停止位1 无校验
el-table合并列&同时在分页时不被割裂开

核心思想合并大表格留出空间给到slot 插槽在插槽内使用小表格效果图具体实现
学生信息管理系统中遇到的一些问题

学生信息管理系统虽然已经让师父验收了但感觉还是有很多不足之处主要是全心全意为客户服务的宗旨有好多地方没有注意到除了光标的默认输入位置修改密码时自动默认输入并选中旧密码师父还提醒我把所有的有关信息的增删改查的窗体都要设为主窗体
访谈，智能座舱开发中的人机交互与人机工程布置

Mixlab无界社区跨学科智能座舱 HCI 前沿知识 N1 智能座舱开发中的人机交互与人机工程布置丰田部分车型的多媒体系统上的Apple CarPlay 今天是汽车HMI设计师我最喜欢苹果的UI啦 IOS的UI风格 meta sha
Nacos 快速上手

Nacos 快速上手文章目录 Nacos 快速上手准备工作部署 Spring Boot 集成配置说明 Spring Cloud Nacos Dubbo Nacos 公共 API 包服务提供者服务消费者问题微服务现在越来火有
php奇偶数怎么求,php奇偶数循环

根据表单提交的数据用户在浏览器生成图一示例的图形图形参数说明大小图形中最长那一行的字符数奇数行偶数行最长那一个行为奇数行紧邻的两行算偶数行以此类推案例效果图应用了for循环还应用了一个php函数 str repeat
初级算法-12-实现 strStr()

描述实现 strStr 函数给你两个字符串 haystack 和 needle 请你在 haystack 字符串中找出 needle 字符串出现的第一个位置下标从 0 开始如果不存在则返回 1 说明当 needle 是空字符串时
Android Context 上下文你必须知道的一切

转载请标明出处 http blog csdn net lmj623565791 article details 40481055 本文出自张鸿洋的博客本文大多数内容翻译自 http www doubleencore com 2013 0
maven(四)：一个基本maven项目的pom.xml配置

继续之前创建的test项目一个基本项目的pom xml文件通常至少有三个部分第一部分项目坐标信息描述等
Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥

scrapy数据解析这节课我们来看下scrapy中的数据解析创建工程爬取内容爬取段子网中的段子 https duanzixing com 段子回顾上节课所学的知识创建scrapy 我们先来创建工程和爬虫文件 1 scrapy

Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥

Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（27）scrapy框架04_scrapy数据解析_Python涛哥的相关文章