如何使用selenium获取特定元素的html源？

2023-11-23

我正在查看的页面包含：

<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>

我想获取 div 中的所有文本，除了<h>。（我想得到“文本1”，“文本3”和“文本4”）可能有几个<h>元素，或者根本没有。并且可能有几个<p>元素，甚至一个元素在另一个元素之中，或者没有。

我想通过获取 div 的所有 html 源并使用正则表达式来删除<h>元素。但 selenium.get_text 不返回 html，只返回文本（全部！）。

我知道我可以使用selenium.get_html_source然后用正则表达式查找我需要的元素，但这看起来很浪费，因为硒知道如何找到该元素。

有人有更好的解决方案吗？谢谢：）

以下代码将为您提供 div 元素中的 HTML：

sel = selenium('localhost', 4444, browser, my_url)
html = sel.get_eval("this.browserbot.getCurrentWindow().document.getElementById('1').innerHTML")

然后你可以使用 BeautifulSoup 来解析它并提取你真正想要的内容。

我希望它有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

如何使用selenium获取特定元素的html源？的相关文章

PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
Selenium 和 TestNG 同时使用“dependsOn”和“priority =”问题

我正在努力在 GUI 自动化测试中实现更好的工作流程控制我首先从dependsOn开始但很快发现缺点是如果一个测试失败则套件的整个其余部分都不会运行所以我改用 priority 但看到了意外的行为一个例子 Test priorit
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

ggplot2 3D 条形图

我知道这听起来很基本但已经搜索了一个多小时但没有成功我只是想使用 ggplot2 包在 R 中绘制 3D 条形图我的数据框看起来像这样 x y z t1 5 high t1 2 low t1 4 med t2 8 high t2 1
以编程方式从应用程序启动 Skype 并传递号码 - Android

尝试启动并传递电话不通过我的应用程序中的以下代码转至 Skype PackageManager packageManager getPackageManager Intent skype packageManager getLaunch
从 HttpWebRequest/Response 获取底层 tcp 连接

我试图获取更多有关当我连接到比 HttpWebRequest 和 HttpWebResponse 给我的级别更低的网站时发生的情况的信息我正在使用 C 我希望能够查看有关 dns 查找以及建立连接所需时间的信息如果建立了新连接 Http
django urlfield http 前缀

有谁知道如何摆脱 Django urlfield 中的 http 前缀我的意思是当我们将一个字段定义为 urlfield 并尝试向其中输入 url 时如果没有提供 schema django 会自动为其添加 http 前缀我不想要这
Python-是否有函数或公式可以找到 RGB 代码的补色？

我试图在Python 3中找到一个好的公式来计算rgb代码的补色例如 a b 的互补有什么办法可以做到这一点吗下面介绍如何直接计算 RGB 颜色的补色它给出的结果与使用的算法相同colorsys正如 Iva Klass 的回答所示
Qt - 定时器只能与以 QThread 启动的线程一起使用

我的代码是 class ExampleTest public QObject Q OBJECT public ExampleTest private Q SLOTS void DoAllExampleTests void ExampleTe
array_intersect，但针对单个数组变量的子数组

我有一个看起来像这样的数组 foo array 0 gt array a b c d 1 gt array b c d 2 gt array b d f 我会参考 foo 0 foo 1 and foo 2 作为子数组我基本上需要执行ar
缩小图像大小以适合表格单元格，这适用于所有浏览器吗？

我有一个table它的单元格中有图像我希望这些图像在窗口宽度减小时自动缩小但他们应该not当周围有额外空间时它们会扩展到超出其原始大小我有一个解决方案适用于 Chrome 但不适用于 Firefox 或 Internet Expl
如何在一页上添加两个Google图表？

我做了什么我已将 Google 图表添加到我的页面顶部这将返回图表的图像我需要做什么我只需要将第二个图表添加到同一页面即可问题第二个图表的代码将被忽略我很大程度上怀疑这是由于我错误地组合了每个图表的代码 The code 第一
Flutter - 选择项目后折叠 ExpansionTile

我想得到ExpansionTile在我选择一个项目后折叠但它不会关闭打开的列表我尝试使用onExpansionChanged财产但我没有成功你如何解决这个问题插入一个 gif 来证明ExpansionTile选择项目后不会崩溃下面
无法绑定到“占位符”，因为它不是“ng-multiselect-dropdown”的已知属性

我想实现自动完成功能因此我发现的一个相同选项是使用多选下拉菜单所以我使用了这个模块 https www npmjs com package ng multiselect dropdown 但在同上实施后我收到这些错误 Error ER
如何检查Python中的字符串中是否有*任一*字符？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我知道 if a in cat win 但有没有更好的方法来查找是否either字符串中存在两个字母以下是一些方法 if a in cat or d in cat win if
如何将逗号分隔的数字字符串转换为整数数组？

说我有绳子1 2 3 4 5我想将其转换为整数数组最好的方法是什么我知道我可以使用爆炸来创建一个带有字符串的数组但我需要数组项是整数您可以使用array map申请intval分解字符串后的每个数组项 string 1 2 3 4
使用 scrapy 蜘蛛间歇性“getrandom() 初始化失败”

我构建了一个 scrapy 蜘蛛 scrapy 1 4 该蜘蛛是通过 django rq 和supervisord 从 django 网站按需触发的这是正在监听 django rq 事件的supervisord 作业 reddit 用作代
检索 ASP.NET 中的所有发布值

我正在创建一个 ASP NET 应用程序它允许用户将表单元素添加到表单内的页面当页面发布时通过提交按钮我需要循环遍历表单中所有发布的值并获取值我无法检查具体值因为我不知道会有多少个值或它们将被称为什么有人可以指出我获取所有发布
如何将数据集拆分/分区为训练和测试数据集，例如交叉验证？

将 NumPy 数组随机拆分为训练和测试验证数据集的好方法是什么类似的东西cvpartition or crossvalindMatlab 中的函数如果你想将数据集分成两部分你可以使用numpy random shuffle or
当需要相同类型的多个实例时，使用 Unity 进行 DI

我需要这方面的帮助我使用 Unity 作为容器并且想将同一类型的两个不同实例注入到我的构造函数中 class Example Example IQueue receiveQueue IQueue sendQueue IQueue 是在我
OrderedDict 在 Python 3.7 中会变得多余吗？

来自Python 3 7 变更日志插入顺序保存性质dict物体已宣布成为 Python 语言规范的正式部分这是否意味着OrderedDict会变得多余吗我能想到的唯一用途是保持与旧版本 Python 的向后兼容性旧版本的 Pytho
Boost::Asio，SSL 连接问题

我已经尝试解决我的问题几天了但就是无法解决我尝试使用 Boost Asio 库和 OpenSSL 进行 SSL 连接有一个示例代码如何做到这一点 http www boost org doc libs 1 55 0 doc html
如何使用selenium获取特定元素的html源？

我正在查看的页面包含 div p text 1 p h1 text 2 h1 text 3 p text 4 p div 我想获取 div 中的所有文本除了

如何使用selenium获取特定元素的html源？

如何使用selenium获取特定元素的html源？ 的相关文章

随机推荐

热门标签

如何使用selenium获取特定元素的html源？的相关文章