【Python学习笔记2】Python网络爬虫的异常处理

2023-11-11

本文信息主要来源于韦玮老师的《精通python网络爬虫》，仅作为个人学习笔记。

通过python库函数urllib.request去爬取网页时，遇到的异常主要时URL类和网页类的错误，python已提供URLError类和HTTPError类来处理。

【URLError】可能原因：

1、链接不上服务器；2、远程URL不存在；3、无网络

【HTTPError】可能原因，可通过状态码分类：

状态码	解释
200	OK，一切正常
301	Moved Permently 重定向到新的URL，永久性
302	Found 重定向到临时的URL，非永久性
304	Not Modified 请求的资源未更新
400	Bad Request 非法请求
401	Unauthorized 请求未经授权
403	Forbidden 禁止访问。伪装成浏览器是可能的解决办法
404	Not Found 没有找到对应页面
500	Internal Server Error 服务器内部出现错误
501	Not Implemented 服务器不支持实现请求所需的功能

因此在爬虫程序中，最好捕捉这2类异常，方便定位问题。测试代码如下，2个网址可以分别构造URLError和HTTPError

如果不是这2个异常，会自动抛出系统异常的打印。

如果不想处理异常，可以通过pass关键字屏蔽异常。如下代码中最后一个except段，根据实际情况选择。

#!/usr/bin/python3
#-*- coding: utf-8 -*-

import urllib.request
import urllib.error

#访问一个禁止爬虫的网址
try:
    print("开始爬取 网页")
    #urllib.request.urlopen("https://www.ilovemoney.com/")
    urllib.request.urlopen("http://www.douyu.com/Jack_Cui.html")
    print("结束爬取 网页")

except urllib.error.HTTPError as e:
        print("进入HTTPError分支")
        print(e.code)
        print(e.reason)

except urllib.error.URLError as err:
        print("进入URLError分支")
        print(err.reason)

except:
        print("进入默认异常，如果没有这一级的except，自动抛出上一级父类的异常")
        pass

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python网络爬虫

【Python学习笔记2】Python网络爬虫的异常处理的相关文章

11.网络爬虫—多线程详讲与实战

11 网络爬虫多线程详讲与实战程序进程线程线程常用方法多线程的优点 join 案例共享全局变量资源竞争互斥锁死锁互斥锁死锁多线程实战某果多线程实战前言个人简介以山河作礼 Python领域新星创作者 CSDN实
13.网络爬虫—多进程详讲(实战演示)

网络爬虫多进程详讲一进程的概念二创建多进程三进程池四线程池五多进程和多线程的区别六实战演示北京新发地线程池实战前言个人简介以山河作礼 Python领域新星创作者 CSDN实力新星认证第一篇文章 1 认识网
19.网络爬虫—照片管道

网络爬虫照片管道 Scrapy基础 Scrapy运行流程原理 Scrapy的工作流程 scrapy照片管道实战演示设置图片路径配置爬虫解析数据运行爬虫查看文件后记前言个人简介以山河作礼 Python领域新星创作者 CS
[python爬虫] Selenium切换窗口句柄及调用Chrome浏览器

因为我的博客是根据我每个阶段自己做的事情而写的所以前言可能有点跑题但它更有利于让我回忆这个阶段自己的所作所为这篇文章主要介绍Selenium爬虫获取当前窗口句柄切换窗口句柄以及调用Chrome浏览器几个知识点其中获取当前句柄的方法
使用代理服务获取网页源代码测试

import requests url 输入测试访问网址 headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML like Geck
10.网络爬虫—MongoDB详讲与实战

网络爬虫 MongoDB详讲与实战 MongoDB MongoDB安装创建数据目录 1 数据库操作 2 集合操作 3 文档操作 4 索引操作 5 聚合操作 6 备份与恢复 MongoDB增删改查 mongodb集合的增删改查数据插入到表
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息两种方法从本质上都是一样的都是通过分析网页的DOM树结构进行元素定位再定向爬取具体的电影信息通过代码的对比你可以进一步加深Python爬虫的印
5.网络爬虫——Xpath解析

网络爬虫 Xpath解析 Xpath简介 Xpath解析节点选择路径表达式谓语未知节点 Xpath实战演示豆果美食实战获取数据源代码前言此专栏文章是专门针对Python零基础爬虫欢迎免费订阅第一篇文章获得全站热搜第一
[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL

这系列文章主要讲述如何通过Python爬取招聘信息且爬取的日期为当前天的同时将爬取的内容保存到数据库中然后制作定时系统每天执行爬取最后是Python调用相关库发送短信到手机最近研究了数据库的定时计划备份联系爬虫简单做了这个实验
Python网络爬虫--项目实战（2）--起点小说爬取

一目标爬取起点小说一本免费小说并将所有章节名称和内容都保存到本地我选择爬取我真的好想打球二分析 2 1 网页分析 ctrl U 进入网页的源代码输入任意章节名称可以在代码中找到初步判定该网页为静态加载的 2 2 反爬分析
Python网络爬虫：50行代码爬取CSDN博客文章列表并将点赞评论等数据存储到Excel表格

hello 大家好我是wangzirui32 今天我们来学习如何爬取CSDN博客文章列表并将数据存储到Excel里开始学习吧 Tips 本节课有点复杂请耐心学习学习目录前言 1 网页代码分析 2 编写代码写在最后前言最近
7.网络爬虫—正则表达式详讲

7 网络爬虫正则表达式详讲与实战 Python 正则表达式 re match 函数 re search方法 re match与re search的区别 re compile 函数检索和替换检索替换 findall re findit
[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

一前言在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客维基百科InfoBox和图片其文章链接如下 python学习简单爬取维基百科程序语言消息盒 Python学习简单网络爬虫抓取博客文章及思想介绍 python
16.网络爬虫—字体反爬(实战演示)

网络爬虫字体反爬一字体反爬原理二字体反爬模块Fonttools TTF文件三 FontCreator 14 0 0 2790 FontCreatorPortable下载与安装四实战演示五后记前言个人简介以山河作礼
抖音综合榜单数据爬虫案例

偶然在抖音创作平台中看到了一系列的排行榜如热搜榜热门视频榜娱乐明星榜音乐榜等等网页链接 https creator douyin com billboard home 登陆后可见数据榜单接口接口名类型链接热搜榜单 Get
python网络爬虫--项目实战--scrapy爬取贝壳网(7)

一完整代码 bk py import json import scrapy from ScrapyAdvanced items import HouseItem class BkSpider scrapy Spider name bk a
python网络爬虫--selenium（6）--练习

一打开网页获取页面源码 from selenium webdriver chrome import webdriver 初始化需要加载浏览器驱动 driver webdriver WebDriver executable path ch
python网络爬虫--练习

一爬取王者荣耀英雄信息单页 import json import pymysql import requests from lxml import etree def get heros url response requests ge
4.网络爬虫—Post请求(实战演示)

网络爬虫 Post请求实战演示 POST请求 GET请求 POST请求和GET请求的区别获取二进制数据爬百度官网 https www baidu com logo实战发送post请求百度翻译实战使用session发送请求模拟登
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒同样可以通过Spider获取网站内容最近学习了Selenium Phantomjs后准备利用它们获取百度百科的旅游景点消息盒 InfoBox 这也是毕业设计实体对齐和属

随机推荐

第2章 PyTorch基础（1/2）

第2章 PyTorch基础 PyTorch是Facebook团队于2017年1月发布的一个深度学习框架虽然晚于TensorFlow Keras等框架但自发布之日起其关注度就在不断上升目前在GitHub上的热度已超过Theano Ca
iterator 怎么使用甀_Iterator的理解和使用

es6成员之一的Iterator 遍历器 Iterator 它是一种接口为各种不同的数据结构提供统一的访问机制任何数据结构只要部署Iterator接口就可以完成遍历操作即依次处理该数据结构的所有成员 Iterator 的作用有三个
记一次edusrc的漏洞挖掘

一前言在fofa上闲逛的时候发现这个系统其实之前也碰到过这个系统当时可能觉得没什么漏洞点就没有管正好闲着没事又碰到了这个系统然后就拿过来简单的测试了一下二漏洞挖掘 1 信息收集由于我是在fofa上发现的这个系统所以也谈不
软件系统设计-15-架构设计

1 设计架构 Design Architecture 1 1 设计策略 Design Strategies Abstraction Generate Test Decomposition Reusable Elements Iteratio
python(数据分析)第5天：图例

图例 plt legend import matplotlib pyplot as plt import random import matplotlib from matplotlib import cycler from matplot
Kafka练习

需求写一个生产者不断的去生产用户行为数据写入到kafka的一个topic中生产的数据格式造数据 guid 1 eventId pageview timestamp 1637868346789 isNew 1 guid 1 even
fastjson自定义字段命名规则

文章首发于个人博客欢迎访问关注 https www lin2j tech 前置知识 fastjson 在将对象转变为 JSON 字符串时字段默认使用 CamelCase 规则命名在1 2 15版本之后 fastjson 支持配置 Pr
vue2 ajax异步请求，数据嵌套层数过多，导致页面无法正常通过数据驱动渲染

数据层数过多的小坑初入门vue2 在开发项目过程中因为用到了vue echarts v3 涉及图表的数据难免数据就有过多的层数导致出现了这么一个坑其实归根结底是自己没有按照vue2官方的方法进行对象数据修改首先数据结构大致是这样
精美简历生成器（Nice_Resume_Builder）

文章目录前言功能演示后记前言写简历有时候是个比较麻烦的事情不管是用Word还是用别的设计工具如果内容经常需要修改的话那么修改后通常有需要花时间去调整格式排版这个过程令我烦躁毫无意义的浪费时间所以稍微花点时间弄了这个东西
超过最大更新深度。当组件在 componentWillUpdate 或 componentDidUpdate 中重复调用 setState 时，可能会发生这种情况。React 限制了嵌套更新的数量以防

超过最大更新深度当组件在 componentWillUpdate 或 componentDidUpdate 中重复调用 setState 时可能会发生这种情况 React 限制了嵌套更新的数量以防止无限循环有没用像我这样报错的这个报
每天Leetcode 刷题初级算法篇-设计问题-最小栈

题目要求力扣题解代码 program mydemo description 设计问题最小栈 author Mr zeng create 2021 02 19 09 49 public class MinStack private St
linux获取主板温度电压_穷人省钱技巧揭秘！200元技嘉主板竟可满血英特尔I9处理器？...

其实这是一个意外有一个粉丝手里置闲了一块技嘉Z270芯片组的主板本来他以为的型号是GA Z270X UD3 结果发过来的却是GA Z370 HD3 本来UD3的供电就够乞丐的了 HD3则更加低端更要命的是粉丝想搭配的处理器竟
java--基础--26--模块化

java 基础 26 模块化代码 https gitee com DanShenGuiZu learnDemo tree mysql mybaties DB java model learn 1 模块化概述无论是运行一个大型的软件系统
MOS管和三极管区别-对比很显然

在电路设计当中假设我们想要对电流中止控制那就少不了三极管的帮助我们俗称的三极管其全称为半导体三极管它的主要作用就是将微小的信号中止放大 MOS管与三极管有着许多相近的地方这就使得一些新手不断无法明白两者之间的区别这里就将为大家引见
uniapp 各种兼容，优化等问题记录

对于ios自带的上下拉进行禁用橡皮筋回弹 1 pages json中加入如下配置 path pages my my style navigationBarTitleText 个人中心 disableScroll true 禁止滑动 en
xss-labs/level5

输入查看回显如下所示能够发现script被恶意替换为scr ipt 查看源代码第一个输出点被转义了所以没有利用价值了第二个输出点如同刚才所言被进行了关键字的恶意替换操作那没办法我们只能继续尝试一下在标签内部构造一个新属性然后
opencv CvSolve函数深度解析

Opencv CvSolve函数主要是用来求解线性系统Ax b的方程 X的解 solve函数跟它的算法是一样的也是用来求解线性系统设方程Ax b 根据有效的方程个数和未知数的个数可以分为以下3种情况 1 rank A lt n 也就是
mysql故障切换 java_java.sql.SQLException: Value'0000-00-00'异常解决办法及mysql的url设置...

一 0000 00 00错误及解决方案在使用MySql 时数据库中的字段类型是timestamp的默认为0000 00 00 会发生异常 java sql SQLException Value 0000 00 00 can not b
音频服务器运行失败怎么办,音频服务错误1068怎么解决音频服务未运行win10解决方法...

win10音频服务无法启动提示错误1068 依赖服务或组无法启动是什么情况怎么解决在这里就跟着小编一起来了解一下吧让大家解决电脑不能够出声的问题音频服务未运行win10问题排除一电脑没了声音小喇叭上有个红叉鼠标放上去显音
【Python学习笔记2】Python网络爬虫的异常处理

本文信息主要来源于韦玮老师的精通python网络爬虫仅作为个人学习笔记通过python库函数urllib request去爬取网页时遇到的异常主要时URL类和网页类的错误 python已提供URLError类和HTTPError类来

【Python学习笔记2】Python网络爬虫的异常处理

【Python学习笔记2】Python网络爬虫的异常处理 的相关文章

随机推荐

热门标签

【Python学习笔记2】Python网络爬虫的异常处理的相关文章