Scrapy如何过滤爬取的url?

2024-03-14

我想知道Scrapy是如何过滤那些爬取的url的?它是否存储所有以类似方式爬行的网址crawled_urls_list,当它得到一个新的 url 时,它会查找列表以检查该 url 是否存在?

这个过滤部分的代码在哪里爬行蜘蛛(/path/to/scrapy/contrib/spiders/crawl.py)?

多谢!


默认情况下,scrapy 保留所见请求的指纹。该列表保存在Python集中的内存中,并在JOBDIR变量定义的目录中附加一个文件调用requests.seen。 如果重新启动 scrapy,该文件将重新加载到 python 集中。 控制这个的类在 scrapy.dupefilter 中 如果您需要不同的行为,您可以重载此类。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy如何过滤爬取的url? 的相关文章

  • 无法通过管道以自定义方式重命名下载的图像

    我使用 python 的 scrapy 模块创建了一个脚本 从 torrent 站点下载并重命名电影图像 并将它们存储在 scrapy 项目内的文件夹中 当我按原样运行脚本时 我发现它正确地下载了该文件夹中的图像 此时 脚本正在使用 req
  • 需要帮助来模拟 xhr 请求

    我需要使用 加载更多按钮 来抓取网站 这是我用 Python 编写的蜘蛛代码 import scrapy import json import requests import re from parsel import Selector f
  • Scrapyd-Deploy:找不到 SPIDER_MODULES

    我正在尝试使用 scrapy deploy 1 2 部署 scrapy 2 1 0 项目并收到此错误 scrapyd deploy example Library Frameworks Python framework Versions 3
  • Scrapy Splash不会执行lua脚本

    我遇到了一个问题 我的 Lua 脚本拒绝执行 ScrapyRequest 调用返回的响应似乎是 HTML 正文 而我期待的是文档标题 我假设 Lua 脚本从未被调用 因为它似乎对响应没有明显影响 我已经翻阅了很多文档 但似乎不太明白这里缺少
  • 使用 ArcGIS 安装的 Python 2.7 安装 pip

    我正在尝试在 Windows 8 1 上安装 Scrapy for Python 2 7 我知道我首先需要安装 pip 由于我通过ArcGIS 10 2安装了Python 我认为我需要在C Python27 ArcGIS10 2 lib s
  • Scrapy、privoxy 和 Tor:SocketError:[Errno 61] 连接被拒绝

    我将 Scrapy 与 Privoxy 和 Tor 一起使用 这是我之前的问题Scrapy 与 Privoxy 和 Tor 如何更新 IP https stackoverflow com questions 45009940 scrapy
  • 如何在scrapy中获取原始start_url(重定向之前)

    我正在使用 Scrapy 来抓取一些页面 我从 Excel 工作表中获取 start urls 并且需要将 url 保存在项目中 class abc Spider BaseSpider name abc allowed domains ab
  • 谷歌应用引擎支持 scrapy 吗?

    它具有以下依赖关系 Twisted 2 5 0 8 0 或更高版本 lxml 或 libxml2 如果使用 libxml2 强烈建议使用 2 6 28 或更高版本 simplejson pyopenssl 您不能在 App Engine 上
  • Scrapy从div中获取href

    我开始在一个小项目中使用Scrapy 但无法提取链接 每次找到该类时 我只得到 而不是 url 我错过了一些明显的东西吗 sel Selector response for entry in sel xpath div class reci
  • Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

    我是新来的scrapy我的任务很简单 对于给定的电子商务网站 抓取所有网站页面 寻找产品页面 如果 URL 指向产品页面 创建一个项目 处理项目以将其存储在数据库中 我创建了蜘蛛 但产品只是打印在一个简单的文件中 我的问题是关于项目结构 如
  • Scrapy 遭遇 DEBUG:爬行(400)

    我正在尝试使用 Scrapy 抓取页面 https zhuanlan zhihu com wangzhenotes 我运行这个命令 scrapy shell https zhuanlan zhihu com wangzhenotes and
  • 使用 scrapy 抓取多个页面

    我正在尝试使用 scrapy 抓取多个网页 页面的链接如下 http www example com id some number 在下一页中 末尾的数字减少了1 所以我正在尝试构建一个蜘蛛 它可以导航到其他页面并抓取它们 我的代码如下 i
  • Scrapy CrawlSpider 无法抓取第一个登陆页面

    我是 Scrapy 的新手 正在进行抓取练习 并且正在使用 CrawlSpider 尽管 Scrapy 框架运行良好并且它遵循相关链接 但我似乎无法使 CrawlSpider 抓取第一个链接 主页 登陆页面 相反 它直接抓取由规则确定的链接
  • 分割scrapy的大CSV文件

    是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件 我怎样才能给它一个自定义的命名方案 我应该修改吗CsvItemExporter 尝试这个管道 coding utf 8 Define your item pipelin
  • Scrapy Python Craigslist Scraper

    我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品 我能够提取日期 帖子标题和帖子 URL但提取时遇到问题price 由于某种原因 当前代码提取all的价格 但是当我删除 在价格范围之前查找价格字段返回为空 有人可以查看
  • scrapy中如何处理302重定向

    我在抓取网站时收到来自服务器的 302 响应 2014 04 01 21 31 51 0200 ahrefs h DEBUG Redirecting 302 to
  • 如何基于Scrapy构建一个永远运行的网络爬虫?

    我想基于Scrapy构建一个网络爬虫 从多个新闻门户网站抓取新闻图片 我希望这个爬虫是 永远奔跑 意味着它将定期重新访问一些门户页面以获取更新 安排优先事项 为不同类型的 URL 赋予不同的优先级 多线程获取 我已经阅读了Scrapy文档
  • 如何从网站中抓取动态内容?

    所以我使用 scrapy 从亚马逊图书部分抓取数据 但不知何故我知道它有一些动态数据 我想知道如何从网站中提取动态数据 到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
  • Scrapy FakeUserAgentError:获取浏览器时发生错误

    我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
  • Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

    我有以下 Python 代码来启动 APScheduler TwistedScheduler cronjob 来启动蜘蛛 使用一只蜘蛛不是问题 而且效果很好 然而 使用两个蜘蛛会导致错误 twisted internet error Rea

随机推荐

  • D 中的枚举与不可变

    有什么区别 enum i 2 enum s Hello and immutable i 2 immutable s Hello 在 D 2 0 中 An enum是用户定义的类型 而不是变量 enum e 2 是一个 像这样的东西的简写en
  • 查找但不深入到包含搜索文件的目录

    我有几个由 pom xml 或类似配置的项目 我想使用 linux file 命令来定位这些项目 例如经过find name pom xml 然而 由于路径很深 这需要一些时间 我想用find prune当我已经找到文件时停止在子目录中搜索
  • 在哪里使用 Redux 处理计算属性?

    使用 Redux 时 存储应该是唯一的事实来源 并且没有冗余 假设商店的一部分代表有名字和年龄的人 传统面向对象编程中的 person 类可能如下所示 class Person constructor first last birthday
  • 抽象控件中的 VisualState

    我有一个抽象的 BaseControl 其中包含依赖项属性以及默认样式和 VisualState 我想在继承的控件中使用这些 VisualState 据我所知 设置继承控件的模板不会使 VisualState 访问它需要更新的 UIElem
  • 在 .net 5 控制台应用程序中利用用户机密

    我正在构建一个简单的控制台应用程序来处理大型 CSV 文件 SDK版本5 0 202我使用的是 Manjaro Linux CODE using System using System Text using TinyCsvParser us
  • Android 资源限定符 -sw#dp 与 -w#dp

    假设我正在为屏幕尺寸等于或大于 600dp 的设备开发不同的布局 我想使用 android 3 2 后的资源限定符 我创建了一个名为layout sw600dp并将我的布局放在那里 但同时我可以创建一个名为的文件夹layout w600dp
  • 查明文件是否已更改

    我想查明自上次启动 shell 脚本以来文件是否已被修改 也许可以通过创建布尔值或其他东西 也许可以将上次运行脚本的时间保存在一个文本文件中 下次启动脚本时它应该读取该文件 然后它应该找出哪些文件已更改 以便我可以检查是否有文件已使用以下内
  • Laravel 5.8 中 Pusher 连接失败

    我在 laravel 5 4 中使用 Pusher 没有任何问题 但现在我尝试使用 laravel 5 8 但出现以下错误 我已经尝试了我能想到的一切 甚至改变了encrypted to false万一 我三次检查了我的推送者凭据 Lara
  • uifont“Impact”不适用于 iOS

    我正在尝试使用 Impact ttf 它是 OSX 内置的 但在 xcode 上看不到自定义字体 所以我将它包含在我的项目中 如屏幕所示并使用 UIFont font1 UIFont fontWithName Impact ttf size
  • 在 iOS SDK 4.2 上构建越狱设备

    我有一个通过 Cydia 分发的应用程序 它没什么黑科技 只是一个连接到 Web API 的 GUI 我上次提交更新是在 SDK 4 0 之前 我使用了可用的说明here http thebigboss org hosting reposi
  • Javascript:检索对象属性名称

    我正在尝试编写一个需要知道传入对象的属性名称的函数 如下所示 var data key1 value1 key2 value2 etc i want the string value key1 如何从中检索字符串 key1 data 我知道
  • CSS 表格宽度 - 100% + 减去边距

    我偶然发现了一个我不完全确定如何解决的问题 我有一个包含多个 div 的页面 其中一个包含一个表格 但边距为 20 像素 我需要这个表格 对接 另一个 div 的右侧 这是我通过使用 20px 的边距来完成的 正如我所希望的那样 由于此 d
  • 如何使用 VIM 修复 perl 语法错误“缺少右大括号或方括号”?

    使用不匹配的数组大括号 或范围括号 编译 或执行 perl 程序会导致 缺少右大括号或方括号 语法错误 Perl 经常将源代码报告为最后一个代码行 at EOF 这可能与实际缺失的部分相去甚远 Perl 错误消息示例 Missing rig
  • Robot.mouseMove 在 Mac OS X 中根本不起作用

    我在 IntelliJ IDE 中使用该代码创建了 java 文件 import java awt AWTException import java awt MouseInfo import java awt Robot public cl
  • 如何在64位Android-L平台上使用32位本机库

    我有一个 Android 应用程序 我用 AOSP Kitkat 编译为 Android 系统应用程序 并且运行良好 我的应用程序依赖于使用 Android NDK 作为 32 位库编译的本机代码 我正在我的 Android 应用程序中复制
  • 如何在 Bash 中保持 MySQL 连接打开

    我有一个 bash 脚本 它多次调用 MySQL 有没有办法保持连接打开 而不是重新连接到 MySQL 理想情况下 如果脚本提前退出 连接就会关闭 我认为命名管道可以工作 但它们会保持打开状态 这是我希望找到的一个快速伪示例 openMyS
  • Android:使用 viewPager 限制片段加载

    我有 3 个由 FragmentPagerAdapter 管理的片段 设置为 viewPager 我想一个一个加载fragment 但是当执行FragmentActivity的onCreate方法时 执行的是前2个fragment onCr
  • Angular4模板引用变量赋值

    我遇到过这个例子 https material angular io components menu examples我们可以看到
  • 如何从 Cocoa 调用的管理员权限 bash 脚本获取输出?

    我正在使用下面的代码 以管理员权限启动 bash 命令 我需要能够在使用它之后将输出存储在数组中 我怎样才能得到输出 char command1 usr bin dscl char args1 read SharePoints Folder
  • Scrapy如何过滤爬取的url?

    我想知道Scrapy是如何过滤那些爬取的url的 它是否存储所有以类似方式爬行的网址crawled urls list 当它得到一个新的 url 时 它会查找列表以检查该 url 是否存在 这个过滤部分的代码在哪里爬行蜘蛛 path to