我有这个代码
<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>
我想抓住a
元素并获取 href 。
我怎样才能匹配title
属性与Next Page
我想部分匹配标题属性中的文本a
元素。
有许多a
页面上的标签与其类似,但唯一的区别是title
属性包含"Next Page
或者文本是>
.
您必须使用正则表达式来完成您想要的事情。
首先将整个标记作为字符串并制作BeautifulSoup
反对它。
然后使用.findAll
的方法BeautifulSoup
对象如下
import BeautifulSoup
import re
soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>')
elements = soup.findAll('a', {'title':re.compile('Next Page.')})
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list
for e in elements:
if str(e.string) == '>' or e.string == '>': # check if string inside 'a' tag is '>'
print e['href']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)