运行使用 scrapy 和 selenium 创建的解析器时出现问题

2023-12-05

我用Python scrapy结合selenium写了一个scraper来抓取一些titles来自网站。这css selectors我的刮刀中定义的内容是完美的。我希望我的抓取工具继续点击下一页并解析每个页面中嵌入的信息。它在第一页上做得很好，但当它发挥硒部分的作用时，抓取工具会一遍又一遍地点击同一个链接。

由于这是我第一次使用 Selenium 和 scrapy，所以我不知道如何成功地继续下去。任何修复都将受到高度赞赏。

如果我这样尝试，那么它会顺利工作（选择器没有任何问题）：

class IncomeTaxSpider(scrapy.Spider):
    name = "taxspider"

    start_urls = [
        'https://www.incometaxindia.gov.in/Pages/utilities/exempted-institutions.aspx',
    ]

    def __init__(self):
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 10)

    def parse(self,response):
        self.driver.get(response.url)

        while True:
            for elem in self.wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,"h1.faqsno-heading"))):
                name = elem.find_element_by_css_selector("div[id^='arrowex']").text
                print(name)

            try:
                self.wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "input[id$='_imgbtnNext']"))).click()
                self.wait.until(EC.staleness_of(elem))
            except TimeoutException:break

但我的目的是让我的脚本以这种方式运行：

import scrapy
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

class IncomeTaxSpider(scrapy.Spider):
    name = "taxspider"

    start_urls = [
        'https://www.incometaxindia.gov.in/Pages/utilities/exempted-institutions.aspx',
    ]

    def __init__(self):
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 10)

    def click_nextpage(self,link):
        self.driver.get(link)
        elem = self.wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "div[id^='arrowex']")))

        #It keeeps clicking on the same link over and over again

        self.wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "input[id$='_imgbtnNext']"))).click()  
        self.wait.until(EC.staleness_of(elem))


    def parse(self,response):
        while True:
            for item in response.css("h1.faqsno-heading"):
                name = item.css("div[id^='arrowex']::text").extract_first()
                yield {"Name": name}

            try:
                self.click_nextpage(response.url) #initiate the method to do the clicking
            except TimeoutException:break

这些是该着陆页上可见的标题（让您知道我在找什么）：

INDIA INCLUSION FOUNDATION
INDIAN WILDLIFE CONSERVATION TRUST
VATSALYA URBAN AND RURAL DEVELOPMENT TRUST

我不愿意从该网站获取数据，因此除了我上面尝试过的方法之外的任何替代方法对我来说都是无用的。我唯一的目的是找到与我在第二种方法中尝试的方式相关的任何解决方案。

您的初始代码几乎是正确的，其中缺少一个关键部分。您始终使用相同的响应对象。响应对象需要来自最新的页面源。

此外，您还在单击下一页中一次又一次地浏览该链接，每次都将其重置为第 1 页。这就是为什么您会看到第 1 页和第 2 页（最多）。您只需在解析阶段获取一次 url，然后让下一页发生点击

下面是最终代码，工作正常

class IncomeTaxSpider(scrapy.Spider):
    name = "taxspider"

    start_urls = [
        'https://www.incometaxindia.gov.in/Pages/utilities/exempted-institutions.aspx',
    ]

    def __init__(self):
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 10)

    def click_nextpage(self,link):
        # self.driver.get(link)
        elem = self.wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "div[id^='arrowex']")))

        #It keeeps clicking on the same link over and over again

        self.wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "input[id$='_imgbtnNext']"))).click()
        self.wait.until(EC.staleness_of(elem))


    def parse(self, response):
        self.driver.get(response.url)

        while True:
            for item in response.css("h1.faqsno-heading"):
                name = item.css("div[id^='arrowex']::text").extract_first()
                yield {"Name": name}

            try:
                self.click_nextpage(response.url) #initiate the method to do the clicking
                response = response.replace(body=self.driver.page_source)
            except TimeoutException:break

更改后效果完美

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

selenium

webscraping

Scrapy

运行使用 scrapy 和 selenium 创建的解析器时出现问题的相关文章

如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
运行时错误：大小不匹配，m1：[4 x 3136]，m2：[64 x 5]位于c：\ a \ w \ 1 \ s \ tmp_conda_3.7_1

我使用 python 3 当我插入变换随机裁剪大小 224 时它会给出未匹配错误这是我的代码 https github com kajasumanie medical plant classification blob master i
阻止特定 URL 进行测试的最佳方法是什么？

我正在使用 Google Chrome 和 Fiddler 版本 4 4 观察一个网站该页面正在使用 AJAX 来更新其数据我想阻止特定的 URL 以测试如果它不起作用会发生什么阻止 URL 最简单的方法是什么你希望发生什么转到自
完全定制的Python帮助用法

我正在尝试使用 Python 创建完全自定义的帮助用法我计划将其导入到许多我想要具有风格一致性的程序中但遇到了一些麻烦我不知道为什么我的描述忽略换行符尝试过和我无法让出现在 ARGS 行的换行符之后显然它们坐在自己的行
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
自定义 Keras 损失函数中的 conv2d

我正在尝试基于两个图像的拉普拉斯算子在带有 TF 后端的 Keras 中实现自定义损失函数 def blur loss y true y pred weighting of blur loss alpha 1 mae losses mean
python：UnboundLocalError：赋值前引用的局部变量“open”[重复]

这个问题在这里已经有答案了 def read lines readFileName readfile txt f open readFileName r contents f read and so on read lines 当我运行这个
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
xpath+ 正则表达式：匹配文本

我正在尝试编写一个 xpath 以便仅返回包含文本和数字的节点我想使用正则表达式并希望这能起作用 td matches text d 谁能帮我理解我在这里做错了什么 tr td 1 td td 10 td td a td tr 你缺少量化
python 相当于 sed

有没有一种方法无需双循环即可完成以下 sed 命令的操作 Input Time Banana spinach turkey sed i Banana s Toothpaste file Output Time BananaToothpas
对远程 WebDriver 服务器的 URL 的 HTTP 请求...在 60 秒后超时

我将 Selenium 与 Internet Explorer Web 驱动程序 IEDriverServer 一起使用由于某种原因我找不到它的代码库来打开这个错误因此如果有人也能指出我的方向我将不胜感激这个问题似乎广泛存在于所
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
Python Pandas：向类 pandas.core.series.Series 添加方法

我想在 Python 中处理时间序列因此 Pandas 的 Series 类非常完美并且有很多有用的方法现在我想添加一些我需要但未实现的方法例如假设我有兴趣添加一个方法该方法将两次一值附加到时间序列中让我们调用该方法appen
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
Python Web 编程的不同方法的优缺点

我想使用 Python 编写一些服务器端脚本但我对这样做的方法有点迷失了它从 DIY CGI 方法开始似乎以一些相当强大的框架结束这些框架基本上可以自己完成所有工作中间有很多东西比如web py http webpy org P

随机推荐

如何在 Dropbox API v2 中创建不过期令牌？

正如标题所说最近 Dropbox API 改版后 Token 开始有过期时间了以前如果我不撤销的话 Token是可以永久使用的也许出于安全原因添加了过期时间然而这对于我的应用来说非常不方便我需要上传文件很长时间可能一次超过一个
使用另一个数组从数组中删除条目

不知道该怎么做所以非常感谢任何帮助说我有 const array1 1 1 2 3 4 const array2 1 2 所需输出 const result 1 3 4 我想比较一下array1 and array2对于每个条目arra
从 Zend Controller 插件中获取视图对象

在我的控制器中我有一个 postDispatch 来整合我的 FlashMessenger 消息 public function postDispatch messages this gt helper gt getHelper Flas
在更新之前的代码签名证书后，如何在 Windows 10 中保留 SmartScreen 筛选器的声誉？

我在过去 3 年里拥有代码签名证书当我用它签署我的软件时签名没有导致任何问题SmartScreen从 Internet 下载软件时出现警告该证书本月到期因此我在同一家公司续签了三年它造成的问题是现在当我签署我的软件时新证书在
将任务放入序列容器后无法连接到数据库

我有一个工作完美的包直到我决定将它的一些任务放入序列容器中更多关于我为什么要这样做的信息在我的情况下如何进行 SSIS 交易现在我不断收到错误 Execute SQL Task Error Failed to acquire co
处理每个数组条目的替换，无需 Eval

例如我有一个任意字符串数组a 1st 2nd string 3rd nstring n 例如我想将这些字符串传递给将其参数解释为文件的命令paste 对于固定数量的变量我们可以使用过程替换 paste lt printf s var1
GCP Secret Manager：Spring Boot 应用程序中未解析环境变量和密钥

下列的本指南 and 这段代码示例我的里面有这个application deploy yaml spring following cloud gcp project id PROJECT ID Set during build proce
按天分组并仍然显示没有行的日子？

我有一个日志表其中包含一个名为 logTime 的日期字段我需要显示日期范围内的行数以及每天的记录数问题是我仍然想展示那些日子没有记录是否可以仅使用 SQL 来完成此操作 Example SELECT logTime COUNT F
如何处理glBufferData期间的GL_OUT_OF_MEMORY错误？

OpenGL 参考文献提到了GL OUT OF MEMORY error 记录此错误后除了错误标志的状态外 GL 的状态未定义功能glBufferData如果无法消化给定的数据可能会生成此错误但另一方面 API 似乎没有提供任何方法
Swift 5 与 SwiftUI：如何动态更改环境区域设置

我必须让用户从列表中选择应用程序的语言将下一行放入 SceneDelegate 中效果很好因为它在开头加载指定的语言 window rootViewController UIHostingController rootView Cont
从 64 位汇编调用 C 函数

在 ubuntu 16 04 上 cat hola asm extern puts global main section text main mov rdi message call puts ret message db Hola 0
在 iText 7 中实现 PdfContentByte 和 PdfTemplate 的替代方法是什么

我正在努力从 iText 5 迁移到 iText 7 我的 iText 5 代码如下我不确定应该使用 iText 7 中的哪种替代方案可能是 Canvas 来实现PdfContentByte and PdfTemplate produc
将字符串中的算术公式转换为值

我有一个表其中所有条目均采用算术公式的形式即1 2 3 etc 在此表中所有列都是类型varchar 该表有很多这样的列我想计算公式并将值插入另一个公式关于如何实现这一目标有什么建议吗你可以试试这个我希望这可以帮助你它从 t
WCF 服务应抛出什么异常类型？

我正在将代码从 ASMX 转换为 WCF 在我的 ASMX Web 服务中我抛出 SOAP 异常例如 if ex InnerException null SoapException se new SoapException ex Mes
.Net 4.0 优化代码，重构现有的“if”条件和“is”运算符

我有以下 C 代码效果很好但是GetDestination 方法杂乱地包含多个if条件通过使用是运算符在 Net 4 0 或更高版本中避免这些 if 条件的最佳方法是什么编辑角色是业务模型的一部分目的地纯粹是使用该业务模型的
MySQL选择带有特殊字符的字符串

我在从数据库中选择字符串时遇到问题问题是如果你有McDonald s在行中如果您正在使用字符串进行搜索mcdonalds它不会找到任何结果有什么建议么我忘了说我正在使用LIKE in WHERE句子如果您的搜索要求是忽略某些字符
Java中Json反序列化 /w Jackson 混合类型，包含在一个数组中

考虑以下从公共 API 获取的 json anyObject attributes name anyName value anyValue name anyName value key anyKey
如何使用 Objective-c 从视频电影文件中获取元数据？

有什么帮助吗现在可以获得 NSSize 持续时间及其所有内容您几乎可以完全使用 Spotlight 的元数据来完成此操作例如我在我的一个应用程序中执行以下操作 MDItemRef fileMetadata MDItemCreate
如何在 Python 3 中使用过滤器、映射和归约

这就是我习惯的方式filter map and reduce在 Python 2 中工作 gt gt gt def f x return x 2 0 and x 3 0 gt gt gt filter f range 2 25 5 7 11
运行使用 scrapy 和 selenium 创建的解析器时出现问题

我用Python scrapy结合selenium写了一个scraper来抓取一些titles来自网站这css selectors我的刮刀中定义的内容是完美的我希望我的抓取工具继续点击下一页并解析每个页面中嵌入的信息它在第一页上做得很

运行使用 scrapy 和 selenium 创建的解析器时出现问题

运行使用 scrapy 和 selenium 创建的解析器时出现问题 的相关文章

随机推荐

热门标签

运行使用 scrapy 和 selenium 创建的解析器时出现问题的相关文章