scrapy的注意点的问题

2023-11-02

1.以豆瓣网为例分享一下scrapy使用中需要注意的地方：

2.注意点：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
spider中的parse方法必须有
需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制
启动爬虫的时候注意启动的位置，是在项目路径下启动，就是项目文件需要单独打开
单独打开项目文件的方法：

（1）找到file->open

(2) 点击file->open

（3）选好自己的项目文件以后选择打开方式为newwindow

3.豆瓣项目示例

import scrapy

class DoubanTestSpider(scrapy.Spider):
    name = 'douban_test'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250?start=%s&filter='%i for i in range(0,226,25)]

    def parse(self, response):
        urls = response.xpath('//*[@id="content"]/div/div[1]/ol/li[*]/div/div[1]/a/@href').getall()
        # 获取所有详情页的url
        for url in urls:
            item = {}
            yield scrapy.Request(url,callback=self.parse_detail,meta={'item':item})

    def parse_detail(self,response):
        title_ = response.xpath('//*[@id="content"]/h1/span[1]/text()').get()
        score_ = response.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong//text()').get()
        time_ = response.xpath('//div[@class="subjectwrap clearfix"]/div/div/span[@property="v:runtime"]/@content').get()
        type_ = response.xpath('//div[@class="subject clearfix"]/div/span[@property="v:genre"][1]/text()').getall()
        num_ = response.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span/text()').get()
        propotion_ = response.xpath('//*[@id="interest_sectl"]/div[1]/div[3]/div[1]/span[2]/text()').get()
        item = response.meta.get('item')
        item['title'] = title_
        item['score'] = score_
        item['time'] = time_
        item['type'] = ''.join(type_)
        item['num'] = num_
        item['propotion'] = propotion_
        yield item

4.开启pipeline

from itemadapter import ItemAdapter

import pymysql
class DoubanPipeline:
    def process_item(self, item, spider):
        conn = pymysql.connect(user='root',password='081228ljf',
                        charset='utf8',database='douban')
        cur = conn.cursor()
        cur.execute('insert into films value("%s","%s","%s","%s","%s","%s")'%
                    (item['title'],item['score'],item['time'],item['type'],item['num'],item['propotion']))
        conn.commit()
        cur.close()
        conn.close()
        return item

5.注意pipeline保存数据前要先在settings中开启管道接口

6.setting s设置请求头

# Scrapy settings for Douban project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'Douban'

SPIDER_MODULES = ['Douban.spiders']
NEWSPIDER_MODULE = 'Douban.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'Cookie': 'douban-fav-remind=1; ll="118163"; bid=vxwT8bzpjHA; __gads=ID=44c122f089ed5da4-2281cc7b31d000bf:T=1643175816:RT=1643175816:S=ALNI_MYbpA_3kd91woNUI_rhk323TW9zYQ; _ga=GA1.2.2065482662.1604846529; __yadk_uid=vdmf7Lm3cIWf9yGoGJVNWSi0CRqEctcp; __gpi=UID=00000485465e7c61:T=1649171757:RT=1649171757:S=ALNI_Mas4xcxVTd-ydhslNdy3PLs3RTjmQ; _vwo_uuid_v2=D13DCA7A0C2EF878ED1AAE1B7FD8861CF|d9847755add0d5530c50bdef513d7a6d; _vwo_uuid_v2=D13DCA7A0C2EF878ED1AAE1B7FD8861CF|d9847755add0d5530c50bdef513d7a6d; gr_user_id=084374e4-236c-43d3-94d4-8837ad999083; ap_v=0,6.0; __utma=30149280.2065482662.1604846529.1651568744.1651572480.34; __utmc=30149280; __utmz=30149280.1651572480.34.13.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt=1; __utmb=30149280.1.10.1651572480; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1651572481%2C%22https%3A%2F%2Fwww.douban.com%2F%22%5D; _pk_ses.100001.4cf6=*; __utma=223695111.436626640.1604928846.1651568745.1651572481.28; __utmb=223695111.0.10.1651572481; __utmc=223695111; __utmz=223695111.1651572481.28.12.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; _pk_id.100001.4cf6=d8b22cf303aa9232.1604928846.28.1651572487.1651568768.'
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

scrapy的注意点的问题的相关文章

如何在后台运行python程序以保持活动窗口相同

我编写了一个程序可以将前景窗口更改为显示器尺寸的 85 并且要成功运行前景窗口需要保持不变我已将 python 脚本 pyw 放入批处理文件运行 pythonw 并在桌面上创建了批处理文件的快捷方式并提供了快速运行它的快捷方式我
如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
Python3 http.server：将日志保存到文件中

我使用Python3 6编写了一个简单的HTTP服务器来重定向所有请求我写的文件可以找到here https github com kmahyyg learn py3 blob master antiscanhttp py 我可以在 Ub
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
使用 asyncio 时应该如何创建属性？

在创建使用 asyncio 的类时我发现自己处于属性 getter 需要进行 io 操作的情况因此该函数应该是一个协程然而等待房产的感觉却很不寻常这是我的意思的一个最小的例子该代码有效并且可以运行 import asyncio
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

微信小程序压缩wxml

背景微信小程序添加webpack压缩之后支持js css等压缩但是wxml没有找到对应的api 后来看到小程序可以启动自定义编译命令兜兜转转找到了一些命令来实现wxml的压缩记录如下需要的伙伴自取命令输入位置如下图命令如下
安装教程rtx2080ti_Ubuntu18.04上安装RTX 2080Ti显卡驱动

上了RTX 2080Ti显卡后原来Ubuntu18 04内置的驱动和PPA安装的都不运作了安装NVidia官网下载的驱动可以跑起来但是需要费一些周折 1 禁用系统默认显卡驱动打开系统黑名单 sudo gedit etc modpro
网页游戏《天书世界》屌丝修仙记

天书世界修仙无限小号刷打宝塔得到的金钱数据对比终极玩法天书世界修仙看了一些玄幻修仙小说主人公屌丝逆袭白富美的攻略只有一个就是不同常人的隐藏技能作为工程师羡慕没鸟用还是实践一下看看是否有潜质于是搞了一个网页游戏耍耍
JAVA面试题汇总

JAVA面试题汇总一 java基础篇 1 final 关键字的作用被 final 修饰的类不可以被继承被 final 修饰的方法不可以被重写被 final 修饰的变量不可以被改变如果修饰引用那么表示引用不可变引用指向的内容可变
Mybatis中的statementType="STATEMENT"使用注意

今天遇到如下问题 Cause com mysql jdbc exceptions jdbc4 MySQLSyntaxErrorException You have an error in your SQL syntax check the
vulnhub靶场 DC-1

过程曲曲折折中途还看了下题解才断断续续的完成这个靶场只能说技术不到家攻击机 kali ip 192 168 16 134 靶场 ip 192 168 16 149 首先是到vulnhub官网去下载DC 1的靶场这里就不讲如何下载了直
【100天精通python】Day34：使用python操作数据库_ORM（SQLAlchemy）使用

目录专栏导读 1 ORM 概述 2 SQLAlchemy 概述 3 ORM SQLAlchemy使用 3 1 安装SQLAlchemy 3 2 定义数据库模型类 3 3 创建数据表 3 4 插入数据 3 5 查询数据 3 6 更新数据 3
SpringBoot 系统全局异常处理

1 编写系统全局异常处理类要求 1 定义全局异常处理类使用 ControllerAdvice 注解标签修饰 2 处理指定异常类信息通过 ExceptionHandler 注解标签修饰 3 处理指定异常类是否向前端返回错误信息如果需要向
Restful API 的设计规范

Restful API 的设计规范 Restful API 的设计规范 1 URI URI规范资源集合 vs 单个资源避免层级过深的URI 对Composite资源的访问 2 Request HTTP方法安全性和幂等性复杂查询 Bo
Effective STL学习

引言以下为个人的一些读书心得对于部分比较浅显易懂的就不再赘述只是日常使用中不太会留意到的加以解释第一章容器第一条慎重选择容器类型第二条不要试图编写独立于容器类型的代码第三条确保容器中的对象拷贝正确而高效第四条调用e
Android 模拟双击点赞脚本

以下代码通过GPT3 5生成 bin bash 点击次数范围 CLICK COUNT MIN 20 CLICK COUNT MAX 30 每次点击间隔范围 CLICK INTERVAL MIN 3000 CLICK INTERVAL MAX
STM32F103C8T6在线升级 IAP

stm32程序每次执行都会从基地址0x800 0000开始执行 IAP程序升级的执行是在bootloader引导文件执行后进行加载跳转APP程序所以每次上电后进入BootLoader判断是否需要升级如果升级则接受bin文件如果不升
关于micropython无法计算MD5的问题 AttributeError: ‘module‘ object has no attribute ‘md5‘

不可能绝对不可能我大MPY不能算md5 我一试还特么真是文档写的明明白白一跑就是没有方法 AttributeError module object has no attribute md5 mpy 你在干什么这个错误好几年没有修
容器部署虚拟机还是物理服务器,容器docker装在虚拟机上吗

容器无论是虚拟机还是物理机都是硬件基础设施的一种交付方式本质上是一个层次的而容器主要要解决以软件为中心的系列问题开发测试部署发布运行在虚拟机中运行容器已经成为一种实践中的惯例比如 AWS的container服务就是
JVM--基础--26.1--工具--jps

JVM 基础 26 1 工具 jps 1 介绍查看所有的jvm进程包括进程ID 进程启动的路径等等 2 语法 2 1 格式 jps options hostid 2 2 参数说明 2 2 1 options q 只输出java进程的进程
el-date-picker 兼容IE浏览器

一问题描述 element组件之el date picker 在chrome浏览器中正常显示而在IE浏览器却无法显示值此时需要设置value format属性
window.open同时打开多个页面

在项目中遇到一个问题需要点击按钮以后同时打开两个页面我使用了window open方法但是最后的表现是只打开了第一个第二个被吞了调试的浏览器是chrome 然后在浏览器地址栏的右边弹出一个小图标点击发现是浏览器自动拦截弹出式窗口
Storm 常见问题

原文 http weyo me pages techs storm questions Storm 安装与运维问题运行 storm 命令报错出现语法错误 File home storm apache storm 0 9 3 bin st
浮点数转日期

在实际工作中发现在导入excel时读取cell时经常有人将日期变成了一个double类型该double类型的整数部分表示1900年以来的天数小数表示当天的描述因此在Python中就可以用timedelta进行加减计算出该d
scrapy的注意点的问题

1 以豆瓣网为例分享一下scrapy使用中需要注意的地方 2 注意点 response xpath方法的返回结果是一个类似list的类型其中包含的是selector对象操作和列表一样但是有一些额外的方法 extract 返回一个包含有

scrapy的注意点的问题

scrapy的注意点的问题 的相关文章

随机推荐

热门标签

scrapy的注意点的问题的相关文章