在 Scrapy 蜘蛛中动态添加 allowed_domains

2023-12-01

我有一个蜘蛛，它以一小部分列表开头allowed_domains在蜘蛛爬行的开始。当蜘蛛抓取从解析器内继续时，我需要动态地将更多域添加到此白名单中，但由于后续请求仍在过滤中，因此以下代码段无法完成此操作。还有更新的吗allowed_domains在解析器内？

class APSpider(BaseSpider):
name = "APSpider"

allowed_domains = ["www.somedomain.com"]

start_urls = [
    "http://www.somedomain.com/list-of-websites",
]

...

def parse(self, response):
    soup = BeautifulSoup( response.body )

    for link_tag in soup.findAll('td',{'class':'half-width'}):
        _website = link_tag.find('a')['href']
        u = urlparse.urlparse(_website)
        self.allowed_domains.append(u.netloc)

        yield Request(url=_website, callback=self.parse_secondary_site)

...

（在写下这个答案的同时，最新版本scrapy is 1.0.3。这个答案适用于所有最新版本scrapy)

As the OffsiteMiddleware读取内容allowed_domains仅在处理预编译的正则表达式对象时初始化spider_opened信号，值在allowed_domains以后永远不会被访问。
因此只需更新内容allowed_domains并不能解决问题。

基本上，需要两个步骤：

更新内容allowed_domains根据您的实际需要。
有正则表达式缓存OffsiteMiddleware神清气爽。

这是我用于步骤 #2 的代码：

# Refresh the regex cache for `allowed_domains`
for mw in self.crawler.engine.scraper.spidermw.middlewares:
    if isinstance(mw, scrapy.spidermiddlewares.offsite.OffsiteMiddleware):
        mw.spider_opened(self)

上面的代码应该在响应回调中调用，因此self这里是蜘蛛类的一个实例。

也可以看看：

的源代码scrapy.spidermiddlewares.offsite.OffsiteMiddleware在 GitHub 上

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Scrapy 蜘蛛中动态添加 allowed_domains 的相关文章

避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

CSS 圆形边框填充动画

我有一个 css 文件它可以完美地制作圆形边框填充动画其宽度和高度均为 100 像素但我只需要在 50px 宽度和高度的圆圈中使用相同的动画我尝试了很多次来最小化尺寸但圆圈没有通过动画正确修复请帮我缩小这个圈子我的需求宽度
当我使用任务管理器终止程序时收到什么消息

所以我有一个 C dll 在我的 C 应用程序中使用它来监视 Windows 消息我想知道 WM CLOSE 和 WM QUERYENDSESSION 是否已发送因为我无法从 C 应用程序中看到它们如果我收到这些消息之一我想对我的文
如何在microsoft azure上的django项目中配置celery-redis？

我在 azure 中部署了这个 django 定位器项目我的 Redis 缓存主机名 DNS 是 mycompany azure microsoft net 我在 azure 中创建了它但不确定在哪里可以找到 redis 服务器的密码
无法在 PowerShell 中获取事件数据字段数据

我正在尝试将事件 4625 中的特定数据字段 FailureReason 获取到 CSV 字段我用以下代码分析了事件模式 Get WinEvent ListProvider Microsoft Windows Security Audit
检测 kiosk 应用程序启动的 Citrix 会话的终止

我正在开发一个信息亭应用程序它为用户提供了 Citrix 连接的选择其想法是用户选择 kiosk 应用程序提供的连接然后 kiosk 启动程序通过运行类似于以下内容的命令来启动所选连接 C Program Files Citrix
在 pandas 数据框中插入缺少的工作日并用 NaN 填充它们

我正在尝试在时间序列数据框中插入缺少的工作日例如 import pandas as pd from pandas tseries offsets import df pd DataFrame 2016 09 30 10 2020 2016
每次尝试在 Heroku 上部署可能的应用程序时，我都会收到此代码错误：代码：'ERR_DLOPEN_FAILED'

我是 Heroku 的新手目前正在使用 React Node js 构建一个应用程序虽然我能够成功地将我的主分支推送到 Heroku 并且 Heroku 确认我的应用程序已成功部署但是尽管显示以下部署成功消息部署到 Heroku
使用 CSS3/JS 的 SVG 径向擦除动画

How can i achieve a radial wipe animation in CSS3 or JS It s seems so simple but I can t figure it out 这是使用 jQuery 的基本方法
JQuery - Firefox 中的 $.ajax ContentType 问题

我正在使用以下代码发出跨域 JSON 请求 ajax type POST crossDomain true contentType application json charset utf 8 data domain domain asse
带视图的叠加选项卡栏

我有一个UIViewController标签栏内对于选项卡栏中的一个 VC 我允许界面随着设备旋转而旋转挑战是我想隐藏选项卡栏并调整内部视图的大小我做了什么 1 被调用 void willAnimateRotation 在我的标签栏
比 for 循环更有效的求和方法

我有两个大小相同的列表两者都包含数字第一个列表是生成的第二个列表是静态的由于我有许多生成的列表我想找出哪一个是最好的对我来说最好的列表是最等于参考的列表因此我计算每个位置的差异并将其相加这是代码
在php上写入文件

我想保留访问者的 IP 并将其保存在文件中我尝试了 fwrite 函数但我认为它是在文件上的先前 ip 上重写的 Example ip txt 为空当我运行 write php 脚本时在 ip txt 上我有 x x x x ip
将 StackPanel.Visibility 绑定到其子级的 Visibility 属性

我对数据绑定比较陌生只是在阅读它我想做的是我有一个带有许多子控件的 StackPanel
从模板函数返回 double 或complex

我正在编写一些函数模板来重载矩阵类的运算符我对类型矩阵做了很多工作double and complex
如何在 RStudio 中查看、打开和保存 .rdb 文件

我可以按照指示将变量环境中 rdb 文件中的每个数据库视为承诺 here 现在我想编辑其中一个文件并保存它我怎样才能做到这一点我是 R 新手在一次讨论中r pkg 开发 Ivan Krylov 提供了以下读取 RDB 数据库的函数
Powershell 将用户添加到组

我正在尝试读取包含用户信息的 XML 文件并根据该信息将用户添加到 Active Directory 组到目前为止我一直在查找错误消息但没有任何帮助这是将用户添加到组的代码 MyUsers xml Get Content e sa
没有“static”或“extern”的“inline”在 C99 中有用吗？

当我尝试构建这段代码时 inline void f int main f 使用命令行 gcc std c99 o a a c 我收到链接器错误未定义的引用f 如果我使用错误就会消失static inline or extern inli
解决BaseGameActivity

我试图追随的人一样多本教程没有成功简单的错误是 The import com google example games basegameutils BaseGameActivity cannot be resolved BaseGameU
如何制作 boost::filesystem::directory_iterator 的副本？

我知道这听起来很愚蠢但是看看这个简单的例子工作目录应该有多个项目 define BOOST FILESYSTEM VERSION 3 include
在 Scrapy 蜘蛛中动态添加 allowed_domains

我有一个蜘蛛它以一小部分列表开头allowed domains在蜘蛛爬行的开始当蜘蛛抓取从解析器内继续时我需要动态地将更多域添加到此白名单中但由于后续请求仍在过滤中因此以下代码段无法完成此操作还有更新的吗allowed doma

在 Scrapy 蜘蛛中动态添加 allowed_domains

在 Scrapy 蜘蛛中动态添加 allowed_domains 的相关文章

随机推荐

热门标签