我正在运行一个 Python 程序,该程序获取 UTF-8 编码的网页,并使用 BeautifulSoup 从 HTML 中提取一些文本。
但是,当我将此文本写入文件(或在控制台上打印)时,它会以意外的编码写入。
示例程序:
import urllib2
from BeautifulSoup import BeautifulSoup
# Fetch URL
url = 'http://www.voxnow.de/'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
# Response has UTF-8 charset header,
# and HTML body which is UTF-8 encoded
response = urllib2.urlopen(request)
# Parse with BeautifulSoup
soup = BeautifulSoup(response)
# Print title attribute of a <div> which uses umlauts (e.g. können)
print repr(soup.find('div', id='navbutton_account')['title'])
运行此命令给出结果:
# u'Hier k\u0102\u015bnnen Sie sich kostenlos registrieren und / oder einloggen!'
但我希望渲染一个 Python Unicode 字符串ö
在这个词中können
as \xf6:
# u'Hier k\xf6bnnen Sie sich kostenlos registrieren und / oder einloggen!'
我尝试将“fromEncoding”参数传递给 BeautifulSoup,并尝试read()
and decode()
the response
对象,但它要么没有什么区别,要么抛出错误。
通过命令curl www.voxnow.de | hexdump -C
,我可以看到该网页确实是UTF-8编码的(即它包含0xc3 0xb6
) 为了ö
特点:
20 74 69 74 6c 65 3d 22 48 69 65 72 20 6b c3 b6 | title="Hier k..|
6e 6e 65 6e 20 53 69 65 20 73 69 63 68 20 6b 6f |nnen Sie sich ko|
73 74 65 6e 6c 6f 73 20 72 65 67 69 73 74 72 69 |stenlos registri|
我超出了我的Python能力的限制,所以我不知道如何进一步调试它。有什么建议吗?