如何使用selenium获取特定元素的html源?

2023-11-23

我正在查看的页面包含:

<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>

我想获取 div 中的所有文本,除了<h>。 (我想得到“文本1”,“文本3”和“文本4”) 可能有几个<h>元素,或者根本没有。 并且可能有几个<p>元素,甚至一个元素在另一个元素之中,或者没有。

我想通过获取 div 的所有 html 源并使用正则表达式来删除<h>元素。但 selenium.get_text 不返回 html,只返回文本(全部!)。

我知道我可以使用selenium.get_html_source然后用正则表达式查找我需要的元素,但这看起来很浪费,因为硒知道如何找到该元素。

有人有更好的解决方案吗? 谢谢 :)


以下代码将为您提供 div 元素中的 HTML:

sel = selenium('localhost', 4444, browser, my_url)
html = sel.get_eval("this.browserbot.getCurrentWindow().document.getElementById('1').innerHTML")

然后你可以使用 BeautifulSoup 来解析它并提取你真正想要的内容。

我希望它有帮助

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用selenium获取特定元素的html源? 的相关文章

随机推荐