使用Selenium + Scrapy

2024-01-19

我正在尝试将 scrapy 与 selenium 结合使用，以便能够与 javascript 交互，并且仍然拥有 scrapy 提供的强大的抓取框架。我写了一个访问的脚本http://www.iens.nl http://www.iens.nl，在搜索栏中输入“阿姆斯特丹”，然后点击搜索按钮成功。单击搜索按钮后，我希望 scrapy 从新呈现的页面中检索元素。不幸的是 scrapy 不返回任何值。

这就是我的代码的样子：

from selenium import webdriver
from scrapy.loader import ItemLoader
from scrapy import Request
from scrapy.crawler import CrawlerProcess
from properties import PropertiesItem
import scrapy


class BasicSpider(scrapy.Spider):
    name = "basic"
    allowed_domains = ["web"]
    # Start on a property page
    start_urls = ['http://www.iens.nl']

    def __init__(self):
        chrome_path = '/Users/username/Documents/chromedriver'
        self.driver = webdriver.Chrome(chrome_path)

    def parse(self, response):
        self.driver.get(response.url)
        text_box = self.driver.find_element_by_xpath('//*[@id="searchText"]')
        submit_button = self.driver.find_element_by_xpath('//*[@id="button_search"]')
        text_box.send_keys("Amsterdam")
        submit_button.click()

        l = ItemLoader(item=PropertiesItem(), response=response)
        l.add_xpath('description', '//*[@id="results"]/ul/li[1]/div[2]/h3/a/')

        return l.load_item()


process = CrawlerProcess()
process.crawl(BasicSpider)
process.start()

“properties”是另一个脚本，如下所示：

from scrapy.item import Item, Field

class PropertiesItem(Item):
    # Primary fields
    description = Field()

Q:如何成功地使 scrapy 通过其在硒到达的页面上的 xpath 找到我称为“描述”的元素并将其作为输出返回？

提前致谢！

the response您分配给您的对象ItemLoader is the scrapy响应，不是 Selenium 的。

我建议创建一个新的Selectorselenium 返回的页面源：

from scrapy import Selector
...

selenium_response_text = driver.page_source

new_selector = Selector(text=selenium_response_text)
l = ItemLoader(item=PropertiesItem(), selector=new_selector)
...

这样add_xpath将从该响应结构而不是 scrapy 中获取信息（您实际上并不需要）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

python

selenium

Scrapy

使用Selenium + Scrapy 的相关文章

Javascript 访问 Disqus 评论文本框？

我正在开发一个浏览器扩展它应该允许我访问文本框中的评论帖子现在很多网站都使用 Disqus 作为评论方式但在输入文本时我无法找到访问 Disqus 评论框的方法 Disqus API 也没有透露太多信息有人知道访问它的方法吗解决
表单提交不起作用

我有一张桌子可以打印出所有可用的相机它使用表单来更改这些设置问题在于该表单仅更新条目中的最后一个摄像机换句话说如果我更改表单并为列表中的最后一个摄像机点击应用它将起作用如果我更改此列表中任何其他摄像机的表单它会将其更改为与
当元组列表中相同项目的值是字符串时，对它们的值求和

如果我有这样的元组列表 my list books 5 books 10 ink 20 paper 15 paper 20 paper 15 我怎样才能把列表变成这样 books 15 ink 20 paper 50 即添加同一项目的费用
如何在 python 中使用交叉验证执行 GridSearchCV

我正在执行超参数调整RandomForest如下使用GridSearchCV X np array df features all features y np array df gold standard labels x train x
JQuery _renderItem 没有被调用

我正在尝试使用 renderItem 函数创建自定义 ui menu item 元素但经过可能尝试后我什至无法调用该函数自动完成功能正在工作但就像 renderItem 函数不存在一样这是我的脚本部分
函数声明或函数表达式

我刚刚在块作用域中定义函数时遇到了问题考虑以下程序 try greet function greet alert Merry Christmas catch error alert error 我希望这个程序能够发出警报Merry Chr
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
在python中使用编解码器utf-8打开文件错误

我在 windows xp 和 python 2 6 4 上执行以下代码但它显示 IOError 如何打开名称带有 utf 8 编解码器的文件 gt gt gt open unicode txt euc kr encode utf 8 T
如何让无限滚动发挥作用？

我正在尝试让这个无限加载脚本在我的项目中工作这是我的 HTML div div div class pagina div div class pagina div div class pagina div div class pagina
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
router.navigate 使用查询参数 Angular 5

我在使用查询参数路由到路由时遇到问题我有一个像这样的函数 goToLink link this router navigate link split 0 queryParams this sortParams link 和这个功能 sort
python 中的 F 字符串前缀给出语法错误[重复]

这个问题在这里已经有答案了我有一个名为 method 的变量它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误我找不到它这样做的原因我正在使用 py
本地主机上的 Google App Engine GQL 查询

我正在 Google App Engine Windows 上的 SDK 版本 1 7 0 上开发一个应用程序我需要经常测试该应用程序并且此测试涉及数据存储上的大量 GQL 查询您可以在 App Engine 管理界面的浏览器中在线运
将二进制数据视为文件对象？

在此代码片段由另一个人编写中 self archive是一个大文件的路径并且raw file是以二进制数据形式读取的文件内容 with open self archive rb as f f seek offset raw file s
JavaScript 比较中应使用哪个等于运算符（== 与 ===）？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动我在用着JSLint http en wikipedia org wiki JSLint
关闭正在运行代码的 IPython Notebook

怎么运行的我在 IPython Notebook 中运行了一些代码一些迭代工作我不小心关闭了正在运行的笔记本的浏览器但回到 IPython 仪表板我发现这个特定的笔记本尚未关闭所以如果我再次打开笔记本我会在它正在执行的代码前面
在64位环境中加载32位进程

我有以下几个问题 CHM 是编译的 HTML 文件我的 CHM 文件有一个启动 32 位应用程序的链接 CHM 文件是用 Javascript 编码的这在 32 位操作系统环境中运行良好但这在 64 位操作系统环境中不起作用原因是
为什么对于整数键，“Map”操作比 JavaScript (v8) 中的“Object”慢得多？

我很高兴使用Map对于在我的 JavaScript 代码库中随处访问的索引但我刚刚偶然发现了这个基准 https stackoverflow com a 54385459 365104 https stackoverflow com a
谷歌地图绘制两点之间的路线

我编写了这段无辜的 JavaScript 代码它允许用户创建两个标记并绘制它们之间的路线它不起作用相反它给出了一个奇怪的错误 Uncaught TypeError Cannot read property ya of undefin
美丽的汤刮 - 登录凭据不起作用

尝试使用登录凭据抓取页面 payload email gmail com password urls login url https www spotrac com signin url https www spotrac com nba

随机推荐

Jquery序列化和serializeArray不适用于谷歌浏览器

我有以下 html fieldset fieldset
如何在 VBA (Excel) 中获取以毫秒为单位的 DateDiff-Value？

我需要计算两个时间戳之间的差异以毫秒为单位不幸的是 VBA 的 DateDiff 函数不提供这种精度有什么解决方法吗您可以使用描述的方法here http www tek tips com faqs cfm fid 2292如下创
如何在集群中为一个节点和所有节点运行计划方法？

我有一个在集群中运行的 Glassfish 3 1 2 和一个 EJB 3 1 应用程序我的应用程序中需要两种预定方法一种每天只运行一次在单个节点上以及其他在所有节点上运行的类型每 1 2 分钟它们不需要运行同步方式要求只是
如何递归地将项目添加到列表中？

目前我正在解决一个问题我得到一个列表其元素可能包含其他列表列表的列表或整数例如我可能会收到 1 2 3 4 5 6 7 9 我的目标是解析数组并附加仅整数到一个新列表这是我到目前为止所做的 def fun a if a ret
Django Admin：列表中的分组数据

我可以在 Django Admin 中显示分组结果吗默认情况下它们显示所有行我想根据某些字段对这些行进行分组并显示它像 GROUP BY username 之类的东西我尝试过搜索但没有成功使用怎么样list filter my
IMFMediSource 不支持 IKsPropertySet 接口

我正在将基于 Direct Show 相机的 SDK 移植到 MFT 在我的旧代码中我有 KSProxy 接口如 IksTopolgy IKsControl 和 IKsProperty IksTopolgy IKsControl 用于枚
如何在 JavaScript 中将值从一个 html 页面传递到另一个页面？

我知道这个问题问了很多次但我的问题有所不同我有 3 个 html 页面例如apply html personal info html resume info html 在 apply html 页面中我使用一个 LinkedIn 按
从 android init.rc 执行静态程序

我想在以下位置启动一个自定义程序init过程我静态编译了这个程序它可以在我启动的 android stock ROM 中正常运行来自安卓init rc我读到的文档exec命令是我需要的顺便说一句我能看到的都是dmesg我的程序退出
如何在Azure功能上安装apt-get包

在 Linux 消费计划上运行 python Azure 函数我已经能够使用 VS Code 成功将该函数部署到 Azure requirements txt 中的所有包都可以顺利安装但现在我需要安装tesseract 它只能通过apt
是否可以对特定于浏览器的 CSS 使用 mixin

我正在寻找一种使用 mixin 进行特定于浏览器的 CSS hack 的解决方案我正在使用 JavaScript 在 HTML 类中添加浏览器标签喜欢 ie ie7 ie8 ie9 我想使用 mixin 像 box test margi
创建自定义 DatePicker 对话框

要求当用户单击 TextView 时应打开一个日期选择器选择的默认日期应该是 TextView 中的日期如果日期是过去的日期则应禁用 DatePicker 对话框的设置按钮如果可点击的 TextView 为空则 DateP
数据库驱动类动态加载

我想用 java 开发一个与数据库无关的应用程序我选择hibernate作为ORM jdbc的问题在于它只是一个接口我们需要在类路径中包含db的驱动程序类由于数据库应该是可配置的我必须动态加载数据库的驱动程序类用户应该将驱动程序
graphviz - 如何在矩形布局中以循环方式排列节点？

预脚本就在我完成这些示例时我看到了往返流程主题 https stackoverflow com questions 18877045 graphviz how to create a roundtrip flow 看起来不错既然我
图片上方半透明div

我有一个角色的 PNG 图像我想要类似的东西 http www swfcabin com open 1364482220 http www swfcabin com open 1364482220 如果有人点击角色身体的一部分它将被选
Django REST Framework - 如何返回 404 错误而不是 403

仅当用户经过身份验证并且满足某些其他条件时我的 API 才允许访问任何请求某些对象 class SomethingViewSet viewsets ModelViewSet queryset Something objects fil
我们有专门针对 Spring 5.x 的 XSD 吗？

谁能告诉我 Spring 5 版本的 XSD 是否可用有没有类似的东西spring beans 5 1 xsd spring context 5 1 xsd spring mvc 5 1 xsd or spring beans 5 0 x
C++ Linux 与另一个程序交互 stdin / stdout

我在 Linux 中有一个可以与 stdin stdout 交互的可执行文件我正在尝试用 C 编写一个程序它可以交互地调用该程序向其标准输入发送命令并捕获其标准输出我真的很困惑我不想分叉我的程序是吗我确实希望我的程序能够启动
异步连接管道

我想将相同的信息写入两个管道但我不想等待第一个管道读取这是一个例子 mkfifo one mkfifo two echo hi tee one two cat one cat two cat one直到开始阅读cat two正在运行有
我如何请求浏览器始终更新（也称为从不缓存）某些页面元素，例如 CSS 表？

我在开发页面时注意到一个始终困扰我的问题虽然 Firefox 我常用的开发浏览器总是在服务器上更改 CSS 和图像时更新它们但 Internet Explorer 并不总是这样做通常我需要刷新 IE 中的页面然后它才会向服务
使用Selenium + Scrapy

我正在尝试将 scrapy 与 selenium 结合使用以便能够与 javascript 交互并且仍然拥有 scrapy 提供的强大的抓取框架我写了一个访问的脚本http www iens nl http www iens nl 在

使用Selenium + Scrapy

使用Selenium + Scrapy 的相关文章

随机推荐

热门标签