您不能使用 httplib 检查 http 响应代码吗?如果是 200 则该页面有效,如果是其他内容(如 404)或错误则该页面无效。
看这个问题:从 URL 获取 HTTP 响应代码的最佳方法是什么?
Update:
根据您的评论,您的问题似乎是您处理错误的方式。您只处理 IOError 问题。在您的情况下,您可以通过切换到以下方式单独处理所有错误:
except:
return index()
您还可以通过覆盖 http_default_error 来构建自己的异常处理程序。看如何捕获 urllib.urlretrieve 中的 404 错误了解更多信息。
或者您可以切换到具有特定错误的 urllib2,然后您可以像这样处理 urllib2 抛出的特定错误:
from urllib2 import Request, urlopen, URLError
req = Request('http://jfvbhsjdfvbs.com')
try:
response = urlopen(req)
except URLError, e:
if hasattr(e, 'reason'):
print 'We failed to reach a server.'
print 'Reason: ', e.reason
elif hasattr(e, 'code'):
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
else:
print 'URL is good!'
上面的代码将返回:
We failed to reach a server.
Reason: [Errno 61] Connection refused
每个异常类的具体信息包含在 urllib.error api 文档中。
我不太确定如何将其插入到您的代码中,因为我不确定您到底想做什么,但 IOError 不会处理 urllib 引发的异常。