来自这样的 html/rss 片段
[...]<div class="..." style="..."></div><p><a href="..."
<img alt="" heightt="" src="http://link.to/image"
width="" /></a><span style="">[...]
我想获取图像源链接“http://link.to/image.jpg”。我怎样才能在Python中做到这一点?谢谢。
lxml http://lxml.de是完成这项工作的工具。
从网页中抓取所有图像就像这样简单:
import lxml.html
tree = lxml.html.parse("http://example.com")
images = tree.xpath("//img/@src")
print images
Giving:
['/_img/iana-logo-pageheader.png', '/_img/icann-logo-micro.png']
如果它是 RSS 提要,您需要使用以下方式解析它lxml.etree
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)