我目前正在使用 BeautifulSoup 重新格式化一些 HTML 页面,但遇到了一些问题。
我的问题是原始 HTML 有这样的内容:
<li><p>stff</p></li>
and
<li><div><p>Stuff</p></div></li>
也
<li><div><p><strong>stff</strong></p></div><li>
对于 BeautifulSoup,我希望消除 div 和 p 标签(如果存在),但保留 Strong 标签。
我正在浏览漂亮的汤文档,但找不到任何内容。
有想法吗?
Thanks.
这个问题可能提到了 BeautifulSoup 的旧版本,因为使用 bs4 你可以简单地使用unwrap https://www.crummy.com/software/BeautifulSoup/bs4/doc/#unwrap功能:
s = BeautifulSoup('<li><div><p><strong>stff</strong></p></div><li>')
s.div.unwrap()
>> <div></div>
s.p.unwrap()
>> <p></p>
s
>> <html><body><li><strong>stff</strong></li><li></li></body></html>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)