Python进阶之CrawlSpider的应用及Scrapy配置项的引用

2023-11-19

1. CrawlSpider的应用

CrawlSpider可以根据规则自动分析链接的数据并按照正则的要求取出需要的数据

scrajpy startproject yg
cd yg

注意-t crawl参数

scrapy genspider -t crawl 爬虫名称域名

csun.py

需求:爬取阳光问政的详情页内容
- LinkExtractor 链接提取器
- callback 回调函数
- follow 继续提取下一页的url
- allow里边写的是正则表达式

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class CsunSpider(CrawlSpider):
    name = 'csun'
    allowed_domains = ['sun0769.com']
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1']
    rules = (
        Rule(LinkExtractor(allow=r'wz.sun0769.com/political/index/politicsNewest\?id=\d+'),follow=True),
        Rule(LinkExtractor(
            allow=r'wz.sun0769.com/political/politics/index\?id=\d+'), callback='parse_item',follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        item['content'] = response.xpath('//div[@class="details-box"]/pre/text()').extract_first()
        print(item)
        return item

注意事项：
- 数据要首先在url中,使用CrawlSpider会比较简单
- 要对连接中的特殊字符如?前加\进行处理
- 正则不需要写url的协议名例如http://等等
- 列表页不需要callback,但需要follow
- 详情页需要callback,但不需要follow

2. Scrapy配置项的引用

在settings中添加的的配置项，需要以大写的形式书写
MY_HOST = ‘127.0.0.2’
引用方式有两种，首先在items里对字段名进行设置
item[‘host’] = scrapy.fileld()
在spider文件中引用：
- 方法一：
- from settings import MY_HOST
- item[‘host’] = MY_HOST
- 方法二：
- item[‘host’] = self.settings.get(‘MY_HOST’)
在pipeline里边引用
- item[‘host’] = spider.settings.get(‘MY_HOST’)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python进阶

python爬虫

xpath

正则表达式

python

Python进阶之CrawlSpider的应用及Scrapy配置项的引用的相关文章

无法在我的 Django 项目中使用 Sphinx 生成自动文档

我正在向我的 Django 项目添加文档 github链接 https github com augustakingfoundation queryjane app 该项目是开源的使用sphinx 但是当尝试生成python文件的auto
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
如何在 QTableView 标题中单击鼠标右键单击上下文菜单？

下面的示例代码很大程度上受到here http www saltycrane com blog 2007 12 pyqt 43 qtableview qabstracttablemodel 有一个右键单击上下文菜单当用户单击表中的单元格
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
更改用作函数全局作用域的字典

我想做一个 purePython 的装饰器其中一部分是能够有选择地禁止访问函数的全局范围有没有一种方法可以以编程方式更改哪个字典事物充当函数的全局外部作用域因此例如在下面我希望能够拦截对f in h并抛出错误但我想允许访问g因为
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

网络安全之基础名词

网络安全必备基础名词 1 IP地址 1 1 IP地址是什么 1 2 为什么要用IP地址呢 1 3 IP地址的构成分类格式 1 3 1 构成 1 3 2 IP地址的分类和格式 2 域名 2 1 什么是域名 2 2 域名访问实例 2 3 域
mysql根据某个字段去重数据,使用any_value函数和group by函数

mysql根据某个字段去重数据使用any value函数和group by函数简单例子 sql分析解决方式参考资料简单例子 sql分析原sql SELECT rt name procActivityName rt ID proc
Zabbix5.0之邮件告警

前言依据zabbix5 0监控Nginx服务状态当出现故障或者异常关闭时 zabbix第一时间通过邮件通知到相关人员进行处理以下文档并不讲述zabbix5 0部署需要部署zabbix5 0的可参考 CentOS7 部署zabbix
k8s、docker关联目录占用空间太大

今天突然磁盘满了查看了一下都是k8s docker关联的目录占用太大 var lib docker overlay2和 data registry docker registry v2 blobs sha256 使用第一种方式删除了悬空
appimage文件怎么安装_Linux应用安装有福啦！和苹果Mac一样方便的单文件安装

自从用了苹果macbook 和windows基本上就再见了苹果系统的稳定性太出色了使用完合上盖子放十天半个月的没一点问题一叫就醒一醒就能接着工作 windows系统不行要么睡了叫不醒要么叫醒后电脑突然弹出个错误提示甚至还可能蓝
按where条件用expdp导出表

按where条件用expdp导出表情况1 情况2 其他说明情况1 emp main表需要根据sendtime字段导出2018年的数据参数文件emp main par的内容如下 tables emp main dumpfile emp
CentOs7.4 搭建 svn HTTP服务器

一通过yum安装svn yum y install mod dav svn yum y install subversion 通过如下命令查看svn 的安装位置 rpm ql subversion 二创建版本目录库此仅为目录为后面创
简单LSTM代码讲解

仅供本人参考错了概不负责 part1 图源 https www zhihu com question 41949741 answer 309529532 我们在使用tf nn rnn cell BasicLSTMCell时有一个要自己设
STM32定时器系列 - STM32定时器输出比较

STM32 定时器除了基本计数定时功能外还对外扩展了输入输出通道从而可以实现输入捕获比较输出功能比较输出 Compare Output 功能定时器通过对预设的比较值与定时器的值做匹配比较之后并依据相应的输出模式从而实现各类输出
大数据面试题及答案

Hadoop 相关试题 Hive 相关试题 1 hive表关联查询如何解决数据倾斜的问题倾斜原因 map输出数据按key Hash的分配到reduce中由于key分布不均匀业务数据本身的特点建表时考虑不周等原因造成的reduce
如何快速检测代理IP质量？方法与工具全干货

一直以来 IP代理都是出海跨境业务的刚需质量好的IP代理除了在跨境业务产生巨大作用在SEO监控爬虫抓取市场研究等领域也发挥着很大的作用但是对于IP代理的质量检测是我们选择高标准IP代理的一句我们一般都会建议在使用IP代理前
5G技术优势

1G实现了移动通话 2G实现了短信数字语音和手机上网 3G带来了基于图片的移动互联网而4G则推动了移动视频的发展 5G网络则视为未来物联网车联网等万物互联的基础同时 5G普及将使得包括虚拟现实和增强现实这些技术成为主流 4G网络是专
修改网页logo

在用浏览器打开网站的时候浏览器标签页上面有网站的图标类似于logo小图标如下图步骤1 打开你的tomcat的安装目录我的目录实在G盘 G apache tomcat 7 0 53 windows x64 apache tomcat
java进制转换方法

一十进制向二八十六进制的转换方法一 Integer toBinaryString i 表示十进制转为二进制 Integer toOctalString i 表示十进制转为八进制 Integer toHexString i 表示十进制
周庄不买门票攻略_周庄古镇旅游攻略

周庄古镇旅游攻略周庄古镇是世界文化遗产预选地首批国家5A级旅游景区位于苏州城东南位于昆山吴江上海三地交界处周庄古镇四面环水因河成镇依水成街以街为市井字型河道上完好保存着14座建于元明清各代的古石桥 800多户原住民
org/springframework/boot/maven/RepackageMojo has been compiled by a more recent version of the Java

项目场景项目中执行clean 再执行install时报错错误如下 org springframework boot maven RepackageMojo has been compiled by a more recent versi
Python库之自然语言处理和文本挖掘

来源地址 http www python88 com topic 37015 https mp weixin qq com s sPAomFg 5JZigFUG CtnaQ 自然语言处理和文本挖掘库主要用于以自然语言文本为对象的数据处理和建
linux基本命令练习

1 列出 etc目录下的所有文件名称 2 创建文件file1 和file2 并复制到 home目录下 3 显示以ma开头的所有命令 ma 双击两次 TAB键 4显示所有文件名中有 bash的文件用tab命令补全 5 显示当前所在的目录路径
android图像识别（百度普通物体识别）

android图像识别采用百度sdk 识别准确率基本上能用主要缺陷是百度sdk免费额度有限 demo链接如下仅供参考https download csdn net download android xc 12274161
Python进阶之CrawlSpider的应用及Scrapy配置项的引用

1 CrawlSpider的应用 CrawlSpider可以根据规则自动分析链接的数据并按照正则的要求取出需要的数据 scrajpy startproject yg cd yg 注意 t crawl参数 scrapy genspider t

Python进阶之CrawlSpider的应用及Scrapy配置项的引用

1. CrawlSpider的应用

csun.py

2. Scrapy配置项的引用

Python进阶之CrawlSpider的应用及Scrapy配置项的引用 的相关文章

随机推荐

热门标签

Python进阶之CrawlSpider的应用及Scrapy配置项的引用的相关文章