使用 Scrapy 和 selenium 抓取网站

2024-02-04

我要抓取 html 内容http://ntry.com/#/scores/named_ladder/main.php http://ntry.com/#/scores/named_ladder/main.php with Scrapy.

但是，由于该网站的Javascript使用和 # ，我想我必须使用Selenium (Python) also.

我想编写自己的代码，但我对编程很陌生，所以我想我需要帮助；

我想先进入 ntry.com，然后移至http://ntry.com/#/scores/named_ladder/main.php http://ntry.com/#/scores/named_ladder/main.php通过单击名为的锚点

<body>
    <div id="wrap">
        <div id="container">
            <div id="content">
                <a href="/scores/named_ladder/main.php">사다리</a>
            </div>
        </div>
    </div>
</body>

然后我想使用以下方法在更改页面上抓取 htmlScrapy.

我怎样才能做一个selenium-混合Scrapy蜘蛛？

我安装了 Selenium，然后加载了 PhantomJS 模块，它运行得很好。

这是你可以尝试的

from selenium import webdriver 
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

class FormSpider(Spider):
    name = "form"

    def __init__(self):

        dcap = dict(DesiredCapabilities.PHANTOMJS)
        dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36")

        self.driver = webdriver.PhantomJS(desired_capabilities=dcap, service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any', '--web-security=false'])
        self.driver.set_window_size(1366,768)


    def parse_page(self, response):
            self.driver.get(response.url)
            cookies_list = self.driver.get_cookies()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

Scrapy

使用 Scrapy 和 selenium 抓取网站的相关文章

Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

PyCharm 中 .pyi 文件的类型注释不适用于动态属性

我的目标是在 Pycharm 编辑器中自动完成在 Python 控制台中它工作正常所使用的参数pytransition模块有关该模块的一些背景信息here https stackoverflow com questions 60195
在 postgresql 中“复制自”期间忽略重复键

我必须将大量数据从文件转储到 PostgreSQL 表中我知道它不支持像 MySql 中那样的忽略替换等网络上几乎所有与此相关的帖子都提出了相同的建议例如将数据转储到临时表然后执行插入选择不存在的地方这在一种情况下没有
创建新的 Rails 操作不起作用？

我有一个控制器应用程序它由一个动作索引组成现在我想添加一个名为购买的新操作 def buy respond to do format format html end end 我在视图中添加了 buy html erb 但是当浏
如何让 grunt-watch 在不同的构建任务下实时重新加载 HTML 更改

我可以通过执行以下操作轻松设置 Grunt 文件以实时重新加载 HTML 和 SCSS 更改 watch options livereload true css files scss scss tasks compass html file
避免 Jinja 的 nl2br 过滤器中出现 Python UnicodeDecodeError

我正在使用 Jinja2 的 nl2br 过滤器它看起来像 import re from jinja2 import environmentfilter Markup escape paragraph re re compile r r
为什么我无法通过 SMTP 远程登录到 gmail？

我尝试连接并使用 telnet 到 gmail 服务进行测试 telnet gmail smtp in l google com 25 然而它说连接到 gmail smtp in l google com 失败无法在端口 25 上打开与
如何在 Swift 中为 NSTextView 设置第一响应者？

编辑在 macOS 项目中我有一个简单的 ViewController 我将其显示为状态项菜单应用程序上的弹出窗口我使用 NSTableView 更改视图文本的文本具体取决于单击的项目我使用的代码与此类似 mainTextFiel
ios如何缓存数据

我从服务器加载 XML 数据包括图像文本并将该数据显示在 iPhone 屏幕上当我其他时间访问该屏幕时如何缓存数据以重新加载该屏幕会更快不需要再次重新加载XML数据谢谢 Use EGOcache https github c
如何将 Node.js 应用程序作为自己的进程运行？

部署 Node js 的最佳方式是什么我有一个 Dreamhost VPS 他们称之为VM https en wikipedia org wiki Virtual machine 并且我已经能够安装 Node js 并设置代理只要我保持
减去oracle中的时间戳返回奇怪的数据

我正在尝试减去两个日期并期望返回一些浮点值但我得到的回报如下 000000000 00 00 07 225000 将值乘以 86400 我想得到秒内的差值会返回更奇怪的值 000000007 05 24 00 000000000 任何想
在 C++ 中我们是否应该更喜欢临时变量而不是用户定义的变量

假设有一个 C 函数 foo 它返回一个布尔值我调用此函数来检查属性的状态或者获取函数调用的结果那么调用此类函数的最佳方式是什么方法一 bool flag foo if flag some code else else some c
片段错误：类型不兼容，需要 android.app.fragment 但找到了 Activity.messagefragment

Override public void onDrawerItemSelected View view int position displayView position private void displayView int posit
如何在 Java 中将 ASCII 字符串转换为 UTF-8 字符串？

如标题所示如何在 Java 中将 ASCII 字符串转换为 UTF 8 字符串 Thanks 编辑我的情况确实是我读取了一个中文字符串当我输出它时它都是乱码我认为问题可能出在编码上那么如何正确地将字符串从乱码转换为正确的语言集
存储或反映变量的“参考水平”

C 中有没有一种方法可以反映变量的指针级别数例如 int a为1级 int b是 2 个级别并且int c是 0 级除了使用typeid并解析从中产生的字符串我问的原因是我正在使用指向成员函数的指针 http www goingw
如何在 SQL Server 中声明数组变量？

我想在存储过程中执行一个查询该查询应该循环所有数组值例如 declare arrayStoreID 1001 2400 2001 5000 for int i 0 i
TreeMap中出现这个空指针异常是由于并发访问造成的吗？

我知道TreeMap https docs oracle com javase 7 docs api java util TreeMap html不是线程安全的我正在尝试将 TreeMap 与并发跳表映射 https docs oracl
在折叠的 Bootstrap 手风琴中启动时，所选下拉菜单的宽度接近于零

当选择的下拉菜单位于 Bootstrap 3 手风琴内部时最初隐藏那么下拉菜单的宽度接近于零展开后如下所示而我希望它看起来像这样当panel collapse collapse div没有in类有效地表明它最初已经崩溃这是重现此
UITableView 动态单元格高度仅在滚动后才正确

我有一个UITableView与定制UITableViewCell使用自动布局在故事板中定义该单元格有多个多行UILabels The UITableView似乎可以正确计算单元格高度但对于前几个单元格该高度未在标签之间正确划分滚动
Rails：为模型创建脚手架以从超类继承？

我是 Rails 的新手仍然处于起步阶段所以如果这是微不足道的或错误的方式做事请原谅我我想为一些脚手架模型创建一个超类例如我想创建一个脚手架Men并为Women 但我希望他们都继承自People超类 Men and Wome
使用 Scrapy 和 selenium 抓取网站

我要抓取 html 内容http ntry com scores named ladder main php http ntry com scores named ladder main php with Scrapy 但是由于该网站的J

使用 Scrapy 和 selenium 抓取网站

使用 Scrapy 和 selenium 抓取网站 的相关文章

随机推荐

热门标签

使用 Scrapy 和 selenium 抓取网站的相关文章