我已经使用 urlopen 下载了一个页面。如何从中删除所有 html 标签?是否有任何正则表达式可以替换所有 标签?
我也可以推荐美丽汤这是一个易于使用的 html 解析器。在那里你会做类似的事情:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
all_text = ''.join(soup.findAll(text=True))
这样你就可以从 html 文档中获取所有文本。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)