用 BeautifulSoup 替换 html 标签

2024-03-12

我目前正在使用 BeautifulSoup 重新格式化一些 HTML 页面,但遇到了一些问题。

我的问题是原始 HTML 有这样的内容:

<li><p>stff</p></li>

and

<li><div><p>Stuff</p></div></li>

<li><div><p><strong>stff</strong></p></div><li>

对于 BeautifulSoup,我希望消除 div 和 p 标签(如果存在),但保留 Strong 标签。

我正在浏览漂亮的汤文档,但找不到任何内容。 有想法吗?

Thanks.


这个问题可能提到了 BeautifulSoup 的旧版本,因为使用 bs4 你可以简单地使用unwrap https://www.crummy.com/software/BeautifulSoup/bs4/doc/#unwrap功能:

s = BeautifulSoup('<li><div><p><strong>stff</strong></p></div><li>')
s.div.unwrap()
>> <div></div>
s.p.unwrap()
>> <p></p>
s
>> <html><body><li><strong>stff</strong></li><li></li></body></html>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用 BeautifulSoup 替换 html 标签 的相关文章

随机推荐