本文信息主要来源于韦玮老师的《精通python网络爬虫》,仅作为个人学习笔记。
通过python库函数urllib.request去爬取网页时,遇到的异常主要时URL类和网页类的错误,python已提供URLError类和HTTPError类来处理。
【URLError】可能原因:
1、链接不上服务器;2、远程URL不存在;3、无网络
【HTTPError】可能原因,可通过状态码分类:
状态码 |
解释 |
200 |
OK,一切正常 |
301 |
Moved Permently 重定向到新的URL,永久性 |
302 |
Found 重定向到临时的URL,非永久性 |
304 |
Not Modified 请求的资源未更新 |
400 |
Bad Request 非法请求 |
401 |
Unauthorized 请求未经授权 |
403 |
Forbidden 禁止访问。 伪装成浏览器是可能的解决办法 |
404 |
Not Found 没有找到对应页面 |
500 |
Internal Server Error 服务器内部出现错误 |
501 |
Not Implemented 服务器不支持实现请求所需的功能 |
因此在爬虫程序中,最好捕捉这2类异常,方便定位问题。测试代码如下,2个网址可以分别构造URLError和HTTPError
如果不是这2个异常,会自动抛出系统异常的打印。
如果不想处理异常,可以通过pass关键字屏蔽异常。如下代码中最后一个except段,根据实际情况选择。
#!/usr/bin/python3
#-*- coding: utf-8 -*-
import urllib.request
import urllib.error
#访问一个禁止爬虫的网址
try:
print("开始爬取 网页")
#urllib.request.urlopen("https://www.ilovemoney.com/")
urllib.request.urlopen("http://www.douyu.com/Jack_Cui.html")
print("结束爬取 网页")
except urllib.error.HTTPError as e:
print("进入HTTPError分支")
print(e.code)
print(e.reason)
except urllib.error.URLError as err:
print("进入URLError分支")
print(err.reason)
except:
print("进入默认异常,如果没有这一级的except,自动抛出上一级父类的异常")
pass