这一定是绝对的经典,但我在这里找不到答案。我正在使用 lxml cssselect 解析以下标签:
<li><a href="/stations/1"><span class="num">3</span> Detroit</a></li>
我想获取的内容<li>
tag without的内容<span>
tag.
目前我有:
stop_list = doc.cssselect('ol#stations li a')
start = stop_list[0].text_content().strip()
但这给了我3 Detroit
。我怎样才能得到Detroit
?
对于你的例子,我认为使用 XPath 比 CSS 更干净、更容易:
>>> xml = '<li><a href="/stations/1"><span class="num">3</span> Detroit</a></li>'
>>> root = etree.fromstring(xml)
>>> print( root.xpath('/li/a/text()'))
[' Detroit']
>>> xml = '<li><a href="/stations/1">I <span>FooBar!</span> love <span class="num">3</span> Detroit</a></li>'
>>> root = etree.fromstring(xml)
>>> print( root.xpath('/li/a/text()'))
['I ', ' love ', ' Detroit']
>>> ' '.join([x.strip() for x in root.xpath('/li/a/text()')])
'I love Detroit'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)