Scrapy 中的内存泄漏

2023-12-22

我编写了以下代码来抓取电子邮件地址（用于测试目的）：

import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.selector import Selector
from crawler.items import EmailItem

class LinkExtractorSpider(CrawlSpider):
    name = 'emailextractor'
    start_urls = ['http://news.google.com']

    rules = ( Rule (LinkExtractor(), callback='process_item', follow=True),)

    def process_item(self, response):
        refer = response.url
        items = list()
        for email in Selector(response).re("[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}"):

            emailitem = EmailItem()
            emailitem['email'] = email
            emailitem['refer'] = refer
            items.append(emailitem)
        return items

不幸的是，似乎对Requests的引用没有正确关闭，与scrapy telnet控制台一样，Requests的数量增加了5k/s。在大约 3 分钟和 10k 刮擦页面后，我的系统开始交换（8GB RAM）。有人知道出了什么问题吗？我已经尝试删除引用并使用“复制”字符串

emailitem['email'] = ''.join(email)

没有成功。抓取后，这些项目将保存到 BerkeleyDB 中，计算它们的出现次数（使用管道），因此引用应该在之后消失。

返回一组项目和单独生成每个项目有什么区别？

EDIT:

经过相当长一段时间的调试后，我发现请求没有被释放，因此我最终得到：

$> nc localhost 6023
>>> prefs()
Live References
Request 10344   oldest: 536s ago
>>> from scrapy.utils.trackref import get_oldest
>>> r = get_oldest('Request')
>>> r.url
<GET http://news.google.com>

这实际上是起始网址。有人知道问题是什么吗？缺少对 Request 对象的引用在哪里？

EDIT2:

在服务器（具有 64GB RAM）上运行约 12 小时后，使用的 RAM 约为 16GB（使用 ps，即使 ps 不是合适的工具）。问题是，抓取的页面数量显着下降，而抓取的项目数量自数小时以来一直保持为 0：

INFO: Crawled 122902 pages (at 82 pages/min), scraped 3354 items (at 0 items/min)

EDIT3: I did the objgraph analysis which results in the following graph (thanks @Artur Gaspar): Python Objgraph Backlink

我似乎无法影响它？

对我来说，最终的答案是使用基于磁盘的队列与工作目录结合作为运行时参数。

这会将以下代码添加到 settings.py 中：

DEPTH_PRIORITY = 1 
SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

之后，使用以下命令行启动爬网程序会使更改永久保留在给定目录中：

scrapy 爬行 {spidername} -s JOBDIR=crawls/{spidername}有关详细信息，请参阅 scrapy 文档 http://doc.scrapy.org/en/latest/topics/jobs.html

此方法的额外好处是，可以随时暂停和恢复爬网。我的蜘蛛现在运行超过 11 天，阻塞 ~15GB 内存（磁盘 FIFO 队列的文件缓存内存）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy 中的内存泄漏的相关文章

python - 如何删除每行中的重复列表（pandas）？

我的每一行中都包含一个列表我想通过保留分数中的最高值来删除重复元素这是我的数据框 df1 中的数据 pair score 0 A A 1 0000 1 A F 0 9990 2 A G 0 9985 3 A G 0 9975 4 A H
在二维数组中进行所有可能的组合

我正在尝试制作具有所有可能组合的 4x4 16 像素黑白图像数组我制作了以下数组作为模板 template 0 0 0 0 start with all white pixels 0 0 0 0 0 0 0 0 0 0 0 0 然后我想迭
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
在 Python 中延迟转置列表

所以我有一个延迟生成的可迭代的三元组我试图弄清楚如何将其转换为 3 个可迭代对象分别由元组的第一个第二个和第三个元素组成然而我希望这件事能懒惰地完成所以举例来说我希望 1 2 3 4 5 6 7 8 9 将变成 1 4 7
在Python中将大文件（25k条目）加载到dict中很慢？

我有一个大约有 25000 行的文件它是 s19 格式的文件每行就像 S214780010 00802000000010000000000A508CC78C 像这样的事情怎么样我做了一个测试文件只有一行S21478001000802
Discord.py 斜线命令在 cogs 中不起作用

我正在构建一个不和谐的机器人并且想要在 cogs 内使用斜杠命令但这些命令不显示或工作这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我
Python 中“is”运算符的语义是什么？

如何is运算符确定两个对象是否相同它是如何工作的我找不到它的记录来自文档 http docs python org reference datamodel html 每个对象都有一个身份一个类型和一个值对象的身份一旦发生就永远
右键单击 QPushButton 上的 contextMenu

对于我的应用程序我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码关于一些QPushButton 与设计器创建我想添加右键单击上下文菜单菜单选项取决于应用程序状态如何实现这样的上下文菜单
提高光线追踪命中功能的性能

我有一个简单的 python 光线追踪器渲染 200x200 的图像需要 4 分钟这对于我的口味来说绝对是太多了我想改善这种情况几点我为每个像素发射多条光线以提供抗锯齿功能每个像素总共发射 16 条光线 200x200x16
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
Pygame：有人可以帮我实现双跳吗？

我知道已经有其他关于此问题的帖子了但我的运动系统与我发现的有点不同所以随后我问这个问题我的运动系统基于一个名为的命名元组Move up left right down 然后就是这个 def update self move block
列表中的特定范围（python）

我有一个从文本字符串中提取的整数列表因此当我打印该列表我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表例如1000 2000之间我尝试
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
在 4K 屏幕上使用 Matplotlib 和 TKAgg 或 Qt5Agg 后端

我在 Ubuntu 16 04 上使用 Matplotlib 2 0 和 Python 3 6 来创建数据图电脑显示器的分辨率为 4k 分辨率为 3840x2160 绘图数字看起来非常小字体也很小我已经尝试过TKAgg and Qt5
本地主机上的 Google App Engine GQL 查询

我正在 Google App Engine Windows 上的 SDK 版本 1 7 0 上开发一个应用程序我需要经常测试该应用程序并且此测试涉及数据存储上的大量 GQL 查询您可以在 App Engine 管理界面的浏览器中在线运
如何在不同的目录中执行python脚本？

Solved对于可能觉得这有帮助的人请参阅下面我的答案我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中我运行 gt python a py 第一个脚本 a py 在我当前
在Python中使用os.makedirs创建目录时出现权限问题

我只是想处理上传的文件并将其写入工作目录中该目录的名称是系统时间戳问题是我想以完全权限创建该目录 777 但我不能使用以下代码创建的目录755权限 def handle uploaded file upfile cTimeStamp

随机推荐

DBMS_XPLAN.DISPLAY_CURSOR 与解释计划（如果不使用 Gather_plan_statistics 提示）

只是要求澄清两者之间的区别据我所知解释计划为您提供了理论的执行计划而 DBMS XPLAN DISPLAY CURSOR 为您提供actual带有语句执行统计信息的执行计划 EXPLAIN PLAN 将此数据存储在 PLAN TABL
Blazor onclick 事件从循环传入计数器

我目前正在通过 Blazor 中的本地解决方案实现表分页但遇到了一些困难麻烦的代码如下用于渲染网格下方的分页按钮 for int i 0 i lt vm TotalPages i
easy_install 安装了各种版本的 python、mac osx

我在 mac OSX 10 6 机器上有各种版本的 python 其中一些安装了 macports gt python select l Available versions current none python24 python26 p
如何防止命令行参数由 R 解释而不是仅由我的脚本解释？

我正在使用docopt https github com docopt docopt RR 的实现我的脚本有一个命令行选项其缩写形式为 g 当我运行我的脚本时似乎这个参数首先由 R 解释然后由我的脚本解释因此我因为没有为 GUI
SoapClient 尝试获取架构文件时出现 401 身份验证错误

我的应用程序通常连接到第三方服务器以通过 SOAP WSDL 获取数据 this gt soap client new SoapClient https the domain 443 path wsdl array trace gt 1 l
如何优化 EF Code First 查询？

已更新请参阅底部的更新我使用 EF 代码优先并且总体上对此感到满意然而一个简单且常见的操作导致 EF 生成极其复杂的 SQL 这降低了我的应用程序的速度我只是使用整数 ID 列表来获取一组实体但因为我需要大量子实体的详细
在 C++ 中前向声明静态 C 结构实例

我正在编写一个代码生成器实际上是一个数据生成器它将生成这种形式的数据结构显然实际的数据结构要复杂得多 typedef struct Foo int a struct Foo foo Foo extern Foo f1 extern F
使用 Pandas Excelwriter 写入 StringIO 对象？

我可以将 StringIO 对象传递给 pd to csv 就好 io StringIO StringIO pd DataFrame to csv io 但是当我使用excel writer时我遇到了很多麻烦 io StringIO St
jQuery serializeArray() 键值对

我在序列化表单时遇到了一些麻烦
Bootstrap 一次轮播多个框架

这是我试图用 Bootstrap 3 轮播实现的效果它不是一次只显示一帧而是并排显示 N 帧然后当您滑动或自动滑动时时它会像以前一样移动幻灯片组这可以吗与 bootstrap 3 的轮播我希望我不必去寻找另一个 jQuer
检查 MongoDB 文档中是否存在多个字段

我正在尝试查询一个数据库集合该集合保存具有特定字段的文档的流程文档为简单起见想象以下通用文档模式 timestamp ISODate result1 pass result2 fail 现在当一个进程启动时会插入一个仅包含时间戳的
在继续当前脚本的同时异步运行单独的 PowerShell 脚本

PowerShell 脚本 1 执行以下操作 Performs FTP ops ending with saving updated remote directory data in a local file 该脚本快速运行直到必须使用
WPF 全局字体大小

我正在创建一个 WPF 应用程序我想知道能够更改 ui 中每个元素的字体大小的最佳方法我是否创建资源字典并设置样式来设置我使用的所有控件的字体大小最佳实践是什么我会这样做
CSS3 月亮形状

我正在尝试创建一个像这样的按钮我不知道如何在按钮顶部创建一个浅月形状这还很遥远小提琴演示 https jsfiddle net wgnp9ygh 2 moon width 50px height 50px border radius
软删除 - 使用 IsDeleted 标志还是单独的连接表？

我们应该使用软删除标志还是单独的连接表哪个更有效率数据库是SQL Server 背景资料不久前我们有一位数据库顾问进来查看我们的数据库架构当我们软删除一条记录时我们将更新相应表上的 IsDeleted 标志有人建议不要使用标志
.NET Core 2.1 Swashbuckle - 按区域对控制器进行分组

我的情况比较简单我有一个非常大的 NET Core 2 1 MVC WebApi 分为几个区域代表我系统的不同模块我使用 Swagger SwashBuckle 效果非常好我的路由就像 area controller action
从 Java 运行“who -m”命令会产生空结果

我正在尝试从 Java 中查找当前登录的用户名 Process p try p Runtime getRuntime exec who m p waitFor BufferedReader reader new BufferedReader
Perl 中的命名参数

我正在尝试在 Perl 中使用命名参数我一直在使用http perldesignpatterns com NamedArguments http web archive org web 20160920193219 http perlde
LazyEvaluation的性能优势到底从何而来？

在过去的几天里我研究了惰性评估主要是在性能方面想知道LazyEvalutaion 的性能优势由此显现我阅读各种文章并不清楚但其中很少包括惰性求值有什么优点 https stackoverflow com questions 21
Scrapy 中的内存泄漏

我编写了以下代码来抓取电子邮件地址用于测试目的 import scrapy from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkextra

Scrapy 中的内存泄漏

Scrapy 中的内存泄漏 的相关文章

随机推荐

热门标签

Scrapy 中的内存泄漏的相关文章