scrapy提高爬取速度

2023-10-29

scrapy在单机跑大量数据的时候，在对settings文件不进行设置的时候，scrapy的爬取速度很慢，再加上多个页面层级解析，往往导致上万的数据可能爬取要半个小时之久，这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升，不过前提你要注意到你爬取的目标网站有没有反IP的可能。

settings文件设置以下参数：

DOWNLOAD_DELAY = 0

CONCURRENT_REQUESTS = 100

CONCURRENT_REQUESTS_PER_DOMAIN = 100

CONCURRENT_REQUESTS_PER_IP = 100

COOKIES_ENABLED = False

降低下载延迟
DOWNLOAD_DELAY = 0 将下载延迟设置为0，同时加入随机User-Agent是所必要的，这个是一开始就要进行设置的
多线程
```
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100
```
scrapy框架是基于多线程Twisted，当然scrapy也是通过多线程进行数据请求的，并且支持多核CPU的并发，我们就可以通过设置并发请求数来提高爬取速度。
禁止使用Cookies
COOKIES_ENABLED = False
大部分情况下静止使用Cookies可以防止被ban。
--------------------------------------- 下面是个人信息 ------------------------------------------------

个人微信：hll643435675（备注：博客）

某课视频：

https://xudailong.cc/2018/09/30/muke-courses/

更多资源请关注公众号（蛇崽网盘教程资源）：
在这里插入图片描述
--------------------------------------- 上面是个人信息 ------------------------------

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scrapy提高爬取速度的相关文章

Scrapy Image Pipeline：如何重命名图像？

我有一个蜘蛛可以获取数据和图像我想用我正在获取的相应标题重命名图像以下是我的代码蜘蛛1 py from imageToFileSystemCheck items import ImagetofilesystemcheckItem
需要帮助来模拟 xhr 请求

我需要使用加载更多按钮来抓取网站这是我用 Python 编写的蜘蛛代码 import scrapy import json import requests import re from parsel import Selector f
Scrapyd-Deploy：找不到 SPIDER_MODULES

我正在尝试使用 scrapy deploy 1 2 部署 scrapy 2 1 0 项目并收到此错误 scrapyd deploy example Library Frameworks Python framework Versions 3
Scrapy：捕获具有特定 HTTP 服务器代码的响应

我们有一个非常标准的 Scrapy 项目 Scrapy 0 24 我想捕获特定的 HTTP 响应代码例如 200 500 502 503 504 等像这样的东西 class Spider def parse processes HTTP
Scrapy Crawl Spider 只刮取一定数量的层数

您好我想使用 Scrapy CrawlSpider 类抓取网络的所有页面文档在这里 http doc scrapy org en 0 18 topics spiders html crawlspider example class My
Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构

我有一系列定义网站结构的链接从这些链接下载图像时我想同时将下载的图像放置在类似于网站结构的文件夹结构中而不仅仅是重命名它如中所回答 Scrapy图片下载如何使用自定义文件名 https stackoverflow com quest
Scrapy：遇到302时如何停止请求？

我正在使用 Scrapy 2 4 从 start urls 列表中抓取特定页面这些 URL 中的每一个可能都有 6 个结果页面因此我请求全部结果页面然而在某些情况下只有 1 个结果页面所有其他分页页面都会返回 302 到 pn
将 Tor 代理与 scrapy 一起使用

我需要帮助在 Ubuntu 中设置 Tor 并在 scrapy 框架中使用它我做了一些研究并找到了这个指南 class RetryChangeProxyMiddleware RetryMiddleware def retry self r
“download_slot”在 scrapy 中如何工作

我在 scrapy 中创建了一个脚本来解析author name来自其着陆页的不同帖子然后将其传递到parse page方法使用meta关键字以打印post content随着author name同时我用过下载槽在元关键字中据称该关
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
分割scrapy的大CSV文件

是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件我怎样才能给它一个自定义的命名方案我应该修改吗CsvItemExporter 尝试这个管道 coding utf 8 Define your item pipelin
尝试伪造和轮换用户代理

我正在尝试伪造用户代理并在 Python 中轮换它们我在网上找到了一个关于如何使用 Scrapy 执行此操作的教程scrapy 用户代理 https github com svetlyak40wt scrapy useragents包裹
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp
解析回调未定义 - 简单的 Webscraper (Scrapy) 仍未运行

我google了半天还是没能搞定也许你有一些见解我尝试不是从终端而是从脚本启动我的抓取工具这在没有规则的情况下运行良好只需产生正常的解析函数即可一旦我使用规则并将 callback parse 更改为 callback parse
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in
如何使用 BeautifulSoup4 获取
标记之前的所有文本

我正在尝试为我的应用程序抓取一些数据我的问题是我需要一些 HTML 代码如下 tr td This a class tip info href blablablablabla is a first a sentence br This a
在 Mac OS x 10.7.5 中运行 Scrapy 所需的文件，使用 Python 2.7.3 IEPD_free（32 位）

我是第一次测试 scrapy 使用命令安装后 sudo easy install U scrapy 一切似乎都运行正常但是当我运行时 scrapy startproject tutorial 我得到以下信息 luismacbookpro
在同一进程中多次运行Scrapy

我有一个网址列表我想抓取其中的每一个请注意将此数组添加为start urls不是我正在寻找的行为我希望它在单独的爬网会话中一一运行我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行如常见做法 https
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
如何使用scrapy Selector获取节点的innerHTML？

假设有一些 html 片段例如 a text in a b text in b b a

随机推荐

Java常见的十道语法题-详解

1 判断 101 200 之间有多少个素数并输出所有素数代码如下判断素数 public static void main String args boolean flag 定义标记语句 for int i 101 i lt 200 i
区块链概述

一什么是区块链区块链是一个信息技术领域的术语区块链是借由密码学串接以保护内容的自增长的交易记录列表又称区块每一个区块包含了前一个区块的哈希值本区块的时间戳记以及交易数据通常用默克尔树结构的哈希值表示这样的设计使得区块内容具有
Chromedriver安装和配置

首先安装Chromedriver 下载网址 http npm taobao org mirrors chromedriver 找到与你chrome浏览器对应版本的下载上面只是一部分如果没有的可以上百度查一下然后指定路径进行安装这里我
【Python编程】Python实现生产者消费者模式（多线程爬虫）

Python实现生产者消费者模式多线程爬虫 1 多组件的Pipeline技术架构复杂的事情一般都不会一下子做完而是会分很多中间步骤一步步完成 2 生产者消费者爬虫的架构 3 多线程数据通信的 queue Queue queue Que
Order By 和 Group By的适用场景

Order By和Group By看起来很像但实际上使用用途和适用场景实际上很大的不同 Order By Order By是排序根据所给字段进行排序 select from s order by sname desc sage desc
tensorflow 1.13.1 安装采坑

环境 win10 x64位 cuda10 1 cudnn 7 5 vs2013 vs2015 distributed GTX1060 按照网上的教程安装如下面博客 https blog csdn net huanyingzhizai ar
Android WebView打不开网页

今天给公司前端同事打了个webview测试包发现页面打不开有两个原因 1 测试webview包没有配置好特别是缓存没配置的同事用到h5缓存就打不开了正确配置如下设置支持javascript webView getSettings
Python第三方拓展包（安装下载方法）

找到安装的位置第一种方法 Anaconda集成环境 Anaconda集成环境优点太多了百度一大堆介绍 Anaconda的优点总结起来就八个字省时省心分析利器省时省心 Anaconda通过管理工具包开发环境 Python版本大
JS点击计数存储案例

项目功能要求点击页面红色块默认不计数点击开始按钮后再点击红色块则开始计数点击结束按钮后再点击红色块则不计数关闭页面并再次打开页面界面会显示上次关闭页面时的计数值代码设计本项目结合了前端页面的设计和JS的使用具体代码如下
编译器工具 Flex Bison for Windows 简单入门例子

最近从事一个系统仿真软件的开发里面定义了自己的描述性语言MSL MSL语言经FlexBison转换成C语言然后用C编译器来编译并计算仿真现在领域驱动开发比较热门有机会定义自己的语言对程序员来说是比较有成就感的免不了要去学习编译原理
笔记本电脑电池怎么拆_笔记本电脑电池的容量单位是Wh，手机是mAh，二者怎么比较？...

Hello大家好我是兼容机之家的小牛目前很多轻薄本都搭载了全功能的Type C接口大都支持PD充电所以有的机友出门的时候就不会带上笔记本的板砖适配器了往往会选择购买一个手机电脑通用的PD充电器大家平时都知道自己的手机电量是
steam创客教室

人生不同阶段都有不同的使命在学生阶段学习掌握知识为他们以后的人生获得成就的能力就是他们这个阶段最重要的使命格物斯坦小坦克的学生生涯也是这样做的为了这个使命他们必须要学习忍耐学会放弃学会付出这不仅仅是学习的需要也是人生的
用 Python 爬取股票实时数据

今天我们一起来学习一个 Python 爬虫实战案例我们的目标网站就是东方财富网废话不多说开搞网站分析东方财富网地址如下 http quote eastmoney com center gridlist html hs a boar
解读Android LOG机制的实现：（5）获取LOG的应用程序LogCat

解读Android LOG机制的实现 5 获取LOG的应用程序LogCat 田海立 CSDN 2011 07 27 Android提供的LOG机制的实现贯穿了Java JNI 本地c c 实现以及LINUX内核驱动等Android的各个层次
三步教你实现MyEclipse的debug远程调试

MyEclipse远程调试程序是个神奇的东西有时一个项目本地运行没问题可放到服务器上同样的条件就是结果不一样有时服务器上工程出点问题需要远程调测于是就灰常想看一下程序在远程运行时候的状态希望让程序在远程运行还可以在本机打断点跟一
执行力的关键在于中层，成败的关键在于细节

编者注这是一位国内著名企业总裁在一次工作会议上的讲话文中说到完美的细节一定是完美执行力的结果并且切中时弊的指出执行力的关键在于中层如何做到这一点关键就是要建立一个保证中层执行力到位的强势文化也许真正落实到位不但首先会冲击
Nodejs

一是什么中间件 Middleware 是介于应用系统和系统软件之间的一类软件它使用系统软件所提供的基础服务功能衔接网络上应用系统的各个部分或不同的应用能够达到资源共享功能共享的目的在NodeJS中中间件主要是指封装http
华为OD机试 - 阿里巴巴找黄金宝箱(IV)（Java）

题目描述一贫如洗的樵夫阿里巴巴在去砍柴的路上无意中发现了强盗集团的藏宝地藏宝地有编号从0 N的箱子每个箱子上面有一个数字箱子排列成一个环编号最大的箱子的下一个是编号为0的箱子请输出每个箱了贴的数字之后的第一个比它大的数如果不
java爱心效果代码来了

爱心代码来了村上春树说仪式是一件很重要的事现实生活被琐事充斥仪式感总是被人遗忘凑合的晚饭乱丢的衣物杂乱无章的生活让原本平淡的生活过得一潭死水找不到生活的乐趣童话小王子里狐狸对小王子说你最好在每天相同的时间来比如你
scrapy提高爬取速度

scrapy在单机跑大量数据的时候在对settings文件不进行设置的时候 scrapy的爬取速度很慢再加上多个页面层级解析往往导致上万的数据可能爬取要半个小时之久这还不包括插入数据到数据库的操作下面是我在实验中测试并且验证爬取速

scrapy提高爬取速度

settings文件设置以下参数：

scrapy提高爬取速度 的相关文章

随机推荐

热门标签

scrapy提高爬取速度的相关文章