我正在使用正则表达式从网站编译价格。
PriceFinder = re.compile('(?<=\n\s\<b>\$)(\d*\.\d{2})(?=\<\/)|(?<=\"FF0000"><b>\$)(\d*\.\d{2})(?=\<\/)')
Price = re.findall(PriceFinder, str(soup))
print Price
我得到以下结果:
[('', '30.99'), ('', '30.99'), ('', '30.99'), ('34.99', ''), ('34.99', '')
我想知道我必须添加到我的正则表达式中才能获得没有任何空元素的列表。
['30.99','30.99','30.99','34.99','34.99']
Thanks
好吧,我已经写了我的第一个 python 来回答这个问题:
#!/usr/bin/python
import re
r = re.compile('(?:\n\s\<b>\$|\"FF0000"><b>\$)(\d*\.\d{2})(?=\<\/)')
p = re.findall(r, '<x y="FF0000"><b>$30.99</b></x>\n <b>$31.99</b>')
print p
打印出来['30.99', '31.99']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)