所以我解析了一个html页面.findAll
(BeautifulSoup) 到名为变量result
。
如果我输入result
在 Python shell 中然后按 Enter,我看到了预期的普通文本,但是当我想将此结果作为字符串对象进行后处理时,我注意到str(result)
返回垃圾,就像这个示例:
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Html页面源是utf-8
encoded
我该如何处理这个问题?
代码基本上是这样的,以防万一:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python 是 2.7
Python 2.6.7
美丽的汤。version 3.2.0
这对我有用:
unicode.join(u'\n',map(unicode,result))
我很确定result
is a BeautifulSoup.ResultSet
对象,它似乎是标准Python列表的扩展
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)