我尝试使用 BeautifulSoup 从 HTML 文件中获取一些字符串,每次使用它时我都会得到部分结果。
我想获取每个 li 元素/标签中的字符串。到目前为止,我已经能够像这样获得 ul 中的所有内容。
#!/usr/bin/python
from bs4 import BeautifulSoup
page = open("page.html")
soup = BeautifulSoup(page)
source = soup.select(".sidebar li")
我得到的是这样的:
[<li class="first">
Def Leppard - Make Love Like A Man<span>Live</span> </li>, <li>
Inxs - Never Tear Us Apart </li>, <li>
Gary Moore - Over The Hills And Far Away </li>, <li>
Linkin Park - Numb </li>, <li>
Vita De Vie - Basul Si Cu Toba Mare </li>, <li>
Nazareth - Love Hurts </li>, <li>
U2 - I Still Haven't Found What I'm L </li>, <li>
Blink 182 - All The Small Things </li>, <li>
Scorpions - Wind Of Change </li>, <li>
Iggy Pop - The Passenger </li>]
我只想从中获取字符串。
使用漂亮的汤 - .strings 方法。
for string in soup.stripped_strings:
print(repr(string))
来自文档:
如果标签内有多个内容,您仍然可以查看
只是琴弦。使用 .strings 生成器:
or
这些字符串往往有很多额外的空格,您可以
使用 .stripped_strings 生成器来删除:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)