单击网站上的按钮然后抓取网页

2023-11-26

我有一个网站,我想单击一个按钮,然后使用 python 抓取该网站,按钮之间的 html 代码是:

 <span id="exchange-testing" class="exchange-input nav-link" data track="&amp;lid=testing&amp;lpos=site_settings" data-value="testing">Testing</span>

这可能吗?我可以从页面中抓取我需要的所有数据,但我需要先单击按钮。

任何帮助,将不胜感激


基本上,您有两种选择:

  • 高层次方法:使用自动化真正的浏览器selenium或者,换句话说,让浏览器重复访问包含所需数据的页面所需的所有用户操作。

  • 低级方法:当您单击按钮时,请调查幕后发生的情况 - 浏览浏览器开发人员工具的“网络”选项卡并查看正在发出哪些请求。然后,在刮刀中模拟它们。在这里,您可以考虑使用类似的工具requests, mechanize用于提出请求、处理抓取会话、提交表单等以及诸如BeautifulSoup, lxml.html用于html解析。还,Scrapy网络抓取框架是必看的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

单击网站上的按钮然后抓取网页 的相关文章

  • 翠儿。让流永远运行

    我对 tweepy python 库比较陌生 我想确保我的流 python 脚本始终在远程服务器上运行 因此 如果有人能够分享如何实现这一目标的最佳实践 那就太好了 现在我正在这样做 if name main while True try
  • 在 Pandas 中按日期获取有效合约

    我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难 假设每一行都是一个协商 对于每一行 我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量 到目前为止我做了一个非常低效的方
  • 如何从 PyCharm 项目中获取我的“exe”[重复]

    这个问题在这里已经有答案了 通过 PyCharm 在 Python 上编写一些项目 我想从中获取一个exe文件 我尝试过 另存为 gt XXX exe 但是 当我尝试执行它时出现错误 此类操作系统不支持该文件 附注 我有win7 x64 它
  • 优化 Keras 以使用所有可用的 CPU 资源

    好吧 我真的不知道我在说什么 所以请耐心听我说 我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络 目前只是一个教程 过去 我一直使用我的旧 HP 笔记本电脑 因为我有 Windows 和 Ubunt
  • Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

    我正在尝试找到解决方案 但无法理解我做错了什么 在我的 Linux 服务器上 我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
  • 带图像的简单 GUI [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
  • 如何限制Django CreateView中ForeignKey字段的选择?

    我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
  • “char”/“character”类型的类型提示

    char 或 character 没有内置的原始类型 因此显然必须使用长度为 1 的字符串 但是为了暗示这一点并暗示它应该被视为一个字符 如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
  • 如何在 Python 中将彩色输出打印到终端?

    是否有与 Perl 等效的 Python 语言 print color red print
  • javascript onclick 进入新窗口

    这是我的代码
  • spacy 如何使用词嵌入进行命名实体识别 (NER)?

    我正在尝试使用以下方法训练 NER 模型spaCy识别位置 人 名和组织 我试图理解如何spaCy识别文本中的实体 但我无法找到答案 从这个问题 https github com explosion spaCy issues 491在 Gi
  • 在可编辑的QSqlQueryModel中实现setEditStrategy

    这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里 我们创建了 QSqlQueryModel 的可
  • Matplotlib Scatter - ValueError:RGBA 序列的长度应为 3 或 4

    我正在尝试为我的功能绘制图表 但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时 代码就可以完美运行 但现在我将其增加到 10 种 它就不起作用了
  • 在 MacO 和 Linux 上安装 win32com [重复]

    这个问题在这里已经有答案了 我的问题很简单 我可以安装吗win32com蟒蛇API pywin32特别是 在非 Windows 操作系统上 我一直在Mac上尝试多个版本pip install pywin32 都失败了 下面是一个例子 如果你
  • Airflow Python 单元测试?

    我想为我们的 DAG 添加一些单元测试 但找不到任何单元测试 有 DAG 单元测试框架吗 有一个端到端的测试框架存在 但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
  • 如何在与应用程序初始化文件不同的文件中迭代 api 路由

    我有一个 apiroutes py 文件 其中定义了许多路由 例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
  • 查找给定节点的最高权重边

    我在 NetworkX 中有一个有向图 边缘的权重从 0 到 1 表示它们发生的概率 网络连通性非常高 所以我想修剪每个节点的边缘 只保留最高概率的节点 我不确定如何迭代每个节点并仅保留最高权重in edges在图中 有没有一个networ
  • Python组合目录中的所有csv文件并按日期时间排序

    我有 2 年的每日数据分成每月文件 我想将所有这些数据合并到一个按日期和时间排序的文件中 我正在使用的代码组合了所有文件 但不按顺序 我正在使用的代码 import pandas as pd import glob os import cs
  • 检查字符串是否只有字母和空格 - Python

    试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
  • Django South - 将 null=True 字段转换为 null=False 字段

    我的问题是 转变的最佳做法是什么null True场变成null False使用 Django South 的字段 具体来说 我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

  • python del 没有释放所有内存

    在我的 python 程序中 我使用pandas读取 csv 文件并存储在内存中 data pandas read csv data csv 在运行上述命令之前 我使用以下命令检查可用内存free m输出是1704 运行上述命令后输出为72
  • 将凹壳算法转换为 C#

    所以我试图将这里找到的算法翻译为凹壳 http repositorium sdum uminho pt bitstream 1822 6429 1 ConcaveHull ACM MYS pdf 第 65 页 我已经阅读了整个内容 但我不知
  • 在C++中调用私有方法

    这纯粹是一个理论问题 我知道如果有人将一个方法声明为私有 您可能不应该调用它 我设法调用私有虚拟方法并更改实例的私有成员 但我不知道如何调用私有非虚拟方法 不使用 asm 有没有办法获取方法的指针 还有其他方法吗 编辑 我不想更改类定义 我
  • puppeteer:单击 Shadowroot 中的按钮

    我在测试环境中对 Shadowroot 中的元素执行操作时遇到困难 假设我有一个网络组件
  • 从 Java 匿名类访问“this”

    给出以下代码 public interface Selectable public void select public class Container implements Selectable public void select pu
  • ASP.NET MVC Razor 视图与 AngularJS

    我在视图中使用 ASP Net MVC 和 Razor 语法 但由于对性能增强的研究很少 我发现 View Engines 将 razor 代码编译为 HTML 需要花费一些时间 那么在视图中使用 AngularJS 而不是 razor 语
  • 如何将 C:\Users 外部的卷映射到 Windows 上的容器?

    我正在进行服务器端开发 我的工作区位于 D 中 因为我不喜欢在 C 上存储数据 但只是找不到将 d Workspace 映射到 home workspace 的方法 我尝试通过以下方式创建从 C Users username 到 D Wor
  • 如何在 Firefox 中禁用 content_script.js?

    到目前为止 我还没有在我的 Firefox 中安装任何插件 也没有使用任何额外的 JS 脚本 但我不知道这个content script js已启用并在控制台中打印不必要的消息 如下所示 content script runtime onM
  • 将 SUMIFS 与多个 AND OR 条件结合使用

    我想创建一个简洁的 Excel 公式 根据一组 AND 条件和一组 OR 条件对列求和 我的 Excel 表包含以下数据 并且我对列使用了定义的名称 报价值 工作表 A AN 保存会计值 Days To Close Worksheet B
  • 仅对 Bash 中的文件进行通配

    我在 Bash 中的 glob 方面遇到了一些麻烦 例如 echo 这将打印出当前目录中的所有文件和文件夹 例如 文件1 文件2 文件夹1 文件夹2 echo 这将打印出名称后带有 的所有文件夹 例如 文件夹1 文件夹2 我如何才能仅获取文
  • 迈耶斯单例的破坏顺序

    到下面的代码 class C public static C Instance static C c return c C std cout lt lt c destructed n private C class D similar to
  • Microsoft.mshtml.dll 重新分发问题 [已关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我制作了一个在内部使用 Microsoft mshtml dll 的 C BHO 现在要打包这个 BHO 我还需要分发 Microsoft mshtml dll 将此 dll 添加到
  • QML 通过 id 锚定到 ApplicationWindow 不起作用

    我测试了一个简单的 QML Qt sdk 版本 5 3 2 程序 如下所示 import QtQuick 2 3 import QtQuick Controls 1 2 ApplicationWindow visible true widt
  • C# Main() 方法的默认访问修饰符

    我在 vs2010 中创建了一个示例类 通过类视图 我看到 Main 的默认访问修饰符是内部的 我还看到有人说 Main 的默认访问修饰符是 隐式私有 Visual Studio 2010 自动将程序的 Main 方法定义为隐式私有方法 这
  • 如何从django框架中的表单字段获取值?

    如何从 django 框架中的表单字段获取值 我想在视图中执行此操作 而不是在模板中 在视图中使用表单几乎可以解释它 在视图中处理表单的标准模式如下所示 def contact request if request method POST
  • 如何使 SqlDataReader.ReadAsync() 异步运行?

    当调用 SQL Server 实际上执行需要时间的操作时 SqlDataReader ReadAsync 为我同步运行 有什么方法可以强制它异步运行 或者是我调用它的唯一选择Task Run 这是一个复制品 它使用 winforms 来演示
  • 正则表达式获取匹配字符串后的单词

    以下为内容 Subject Security ID S 1 5 21 3368353891 1012177287 890106238 22451 Account Name ChamaraKer Account Domain JIC Logo
  • 测试 child_process.exec 标准输出

    我正在尝试用摩卡测试子进程的输出 我的测试如下所示 var should require should exec require child process exec describe users function describe and
  • 如何检测 3D 空间中的点是否位于圆锥体内?

    如何检测 3D 点是否在圆锥体内 Ross cone x1 y1 h1 Cone angle alpha Height of the cone H Cone radius R Coordinates of the point of the
  • 单击网站上的按钮然后抓取网页

    我有一个网站 我想单击一个按钮 然后使用 python 抓取该网站 按钮之间的 html 代码是 span class exchange input nav link Testing span 这可能吗 我可以从页面中抓取我需要的所有数据