下面是我使用 Google App Engine 通过 URL 获取网页 HTML 源代码(代码)的一段代码:
from google.appengine.api import urlfetch
url = "http://www.google.com/"
result = urlfetch.fetch(url)
if result.status_code == 200:
print "content-type: text/plain"
print
print result.content
这里一切都很好,但有时我需要从我注册的网站获取页面的 HTML 源代码,并且只有首先传递我的 ID 和密码才能访问该页面。 (实际上,它可以是任何网站,例如雅虎等提供邮件帐户的网站:或用户首先通过注册获得免费帐户的任何其他网站)。
我可以用Python(通过“Google App Engine”)来完成它吗?
您可以检查 HTTP 状态代码 401(“需要授权”),并提供网站要求的 HTTP 授权类型(基本、摘要等)——请参阅例如here了解更多详细信息(这里没有太多 GAE 特有的内容 - 这是学习 HTTP 详细信息并遵守它们的问题!-)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)