鱼c笔记——Python爬虫(五):访问网页的异常处理

2023-10-29

访问网页的异常处理。

当我们的urlopen() 方法无法处理一个响应的时候,就会引发URLError异常。通常在没有网络连接或者对方服务器压根不存在的时候,都会引发这个异常。同时URL会伴随一个reason的属性,用于包含一个由错误编码和错误信息组成的元组。

>>> import urllib.request
>>> import urllib.error  #URLError存在的模块

>>> req = urllib.request.Request('http://412-dfas.com')  #尝试访问一个不存在的链接

>>> try:
	urllib.request.urlopen(req)
except urllib.error.URLError  as e:
	print(e.reason)

	
[Errno 11004] getaddrinfo failed

HTTPError:HTTPError是URLError的一个子类,服务器上每一个HTTP的响应都会返回一个状态码,如404。有时候状态码会指出服务器无法完成的请求类型,一般情况下,Python会帮我们处理一部分这样的请求,例如说响应重定向,要求客户端从别的地方获取文档,urllib模块会自动帮我们处理响应。但是有一些情况是无法处理的。比如404问题,需要人工过滤。


HTTP状态码大全:http://bbs.fishc.com/thread-103840-1-1.html

ps. 400~499表示问题来自客户端,问题是自己。500~599表示问题来自服务器,问题与我们无关。


当出现一个错误的时候,服

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

鱼c笔记——Python爬虫(五):访问网页的异常处理 的相关文章

  • 自学Python爬虫学到什么程度?就可以去找工作了?

    确立目标 了解需求 首先我们要先定位自己的目标 当然我们先以爬虫工程师来做个说明 去招聘网上看看需求都有哪些 直接做个拉勾网爬虫 结果了 仔细看看 我们可以得出以下几点 1 python 不是唯一可以做爬虫的 很多语言都可以 尤其是 jav
  • 手把手操作JS逆向爬虫入门(三)---Headers请求头参数加密

    知识点 1 请求头加密参数分析 2 JS base64加密的多个实现方法 目标网站 aHR0cHM6Ly93d3cub2tsaW5rLmNvbS96aC1jbi9idGMvdHgtbGlzdD9saW1pdD0yMCZwYWdlTnVtPT
  • selenium对浏览器操作、鼠标操作等总结

    1 控制浏览器 Selenium 主要提供的是操作页面上各种元素的方法 但它也提供了操作浏览器本身的方法 比如浏览器的大小以及浏览器后退 前进按钮等 1 1 控制浏览器窗口大小 在不同的浏览器大小下访问测试站点 对测试页面截图并保存 然后观
  • 用Python创造无穷可能,独家教你如何开发赚钱项目!

    前言 Python都可以做哪些副业 1 兼职处理数据Excel整理数据功能虽然很强大 但在Python面前 曾经统治职场的它也的败下阵来 因为Python在搜集数据整理分析数据的过程中更加便捷 通过几行代码还可以实现自动化操作 如果你学会P
  • 爬虫入门第4课:定义代理IP的数据模型类

    爬虫学习知识点及案例篇 汇总 爬虫入门第1课 代理池概述及开发环境 爬虫入门第2课 代理池的设计 爬虫入门第3课 实现代理池思路 本阶段带大家从代理池的设计开始 学习Python爬虫及项目实战 详情关注上方专栏 目标 定义代理IP的数据模型
  • 零基础学完Python的7大就业方向,原来赚钱的路子这么多?

    我想学 Python 但是学完 Python 后都能干啥 现在学 Python 哪个方向最简单 哪个方向最吃香 相信不少 Python 的初学者 都会遇到上面的这些问题 大家都知道 Python 很吃香 薪资高 就业面广 但具体的 有哪些方
  • Python 不用selenium 带你高效爬取京东商品评论

    文章目录 一 项目说明 1 项目背景 2 项目环境 二 项目实施 1 项目分析 2 代码实现 导入模块和定义常量 爬取评论主体函数 主函数 三 项目分析和说明 1 运行测试 2 改进分析 3 其他说明 一 项目说明 1 项目背景 一天 一朋
  • 没有50W彩礼,该怎么办

    大家好 我是才哥 刚过完春节 作为到了已婚甚至被催婚年龄的我们也开始讨论一个自古既有的话题 彩礼 今天上午 看到朋友圈刷屏了一个B站UP主的视频 没有50W彩礼 女朋友被强行拖走 我该怎么办 看完视频只想说 https www bilibi
  • python模拟登录京东网页

    目标网站 京东网首页登录 目标网址 https www jd com 任务要求 1 导入selenium库 并使用该库驱动Chrom浏览器 完成请求 2 驱动浏览器对象 找到登录按钮 点击 3 在新页面中选择账号登录 4 找到用户名和密码输
  • python的itchat模块

    今天一不小心发现的python的好玩模块itchar 首先 安装 pip install itchat 1 搜索微信好友信息 import itchat itchat auto login hotReload True 登入 friends
  • Python笔记(基本入门函数)

    第一章 快速上手 基础知识 1 3 x y x x y y 注意求余运算符 向下圆整 如果是负数 则更远离0 10 3 10 3 10 3 10 3 十六进制 0x 八进制 0o 十进制 0b 0xAF 175 0o10 8 0b10110
  • 04_两种常见的网页反爬措施及应对方法

    一 封禁IP地址反爬 1 应对思路 理解这种反爬方法的含义 当我们用自己电脑的ip地址短时间 高频率访问某个具有此类反爬设置的网站 这种网站就会把我们的ip地址封禁 一般都是封24小时或者其他时间 解决方案 通过代理ip访问 这种方式只不过
  • 入门Python必备100道练习题

    给大家整理了这份今天给大家分享100道Python练习题 在此之前 先给大家推荐一个工具 是一个对 Python 运行原理进行可视化分析的工具 Python Tutor 点击 Next 按钮就会根据执行步骤显示原理 对新手理解代码运行原理有
  • 零基础学Python

    作者主页 编程指南针 作者简介 Java领域优质创作者 CSDN博客专家 CSDN内容合伙人 掘金特邀作者 阿里云博客专家 51CTO特邀作者 多年架构师设计经验 腾讯课堂常驻讲师 主要内容 Java项目 Python项目 前端项目 人工智
  • python爬虫第9天 用爬虫测试网站 远程采集

    网站的前端通常并没 有自动化测试 尽管前端才是整个项目中真正与用户零距离接触的唯一一个部分 想象有一个由测试驱动的网络开发项目 每天进行测试以保证网络接口的每个环节的功能 都是正常的 每当有新的特性加入网站 或者一个元素的位置改变时 就执行
  • Anaconda简介

    anaconda是python发行的包的管理工具 其中自带python的版本 还带很多python的包 安装它比安装python好 可以省掉再安装python包的时间 推荐使用Anaconda 用Anaconda安装python的包是非常便
  • Python模拟登陆万能法-微博

    Python模拟登陆让不少人伤透脑筋 今天奉上一种万能登陆方法 你无须精通HTML 甚至也无须精通Python 但却能让你成功的进行模拟登陆 本文讲的是登陆所有网站的一种方法 并不局限于微博与知乎 仅用其作为例子来讲解 用到的库有 sele
  • 使用Postman抓取Chrome请求快速生成Request请求代码

    最近在练习爬虫的时候 爬取网站时常常需要模拟浏览器去访问 但是使用request发送请求时 需要填写headers也就是头部信息 但我又是一个懒得复制的人 尝试了很多软件 最后找到了一款特别适合我自己的 方便快捷 话不多说 放链接 下载地址
  • 高考失利,还适合选计算机专业吗??

    前言 高考落榜 人生陷入低谷 对于很多人来说 这意味着梦想的破灭和无尽的绝望 但是 对于我来说 这只是人生旅程的一个起点 我喜欢编程也热爱编程 虽然网上很多言论说计算机行业已经很卷了 但是我却认为无论再哪个行业 你不卷 也同样落后于人 所以
  • python爬虫概述及简单实践

    文章目录 一 先了解用户获取网络数据的方式 二 简单了解网页源代码的组成 1 web基本的编程语言 2 使用浏览器查看网页源代码 三 爬虫概述 1 认识爬虫 2 python爬虫 3 爬虫分类 4 爬虫应用 5 爬虫是一把双刃剑 6 pyt

随机推荐

  • Android 代码优化工具FindBugs

    原文地址 https juejin im post 58d4e35261ff4b00605326d9 1 前言 在我们平时项目开发中 经常会写一些不严谨的代码或者一些比较低级的错误代码 但是这些错误往往很难被发现 这样就导致了我们的项目中会
  • 洛谷 P1226 【模板】快速幂

    题目链接 https www luogu com cn problem P1226 include
  • 上半年实现营收9.24亿元,创新奇智的AI成制造业福星?

    如今 AI大模型迈入了商业化落地的新阶段 并且已经有不少产品被不知不觉地应用到了生活各个方面 其中 作为AI领域的后起之秀 创新奇智也于近日发布了截至2023年6月30日止六个月的中期业绩报告 数据显示 创新奇智2023年上半年公司实现营收
  • 线代【向量组与线性空间】--猴博士爱讲课

    第五课 向量组与线性空间 1 4判断某向量是否可由某向量组线性表示 这些只有一行 列 的矩阵既可以称作为向量 判断的标准 若 a1 a2 am 的秩与 a1 a2 am b 的秩相等 则b可由a a2 am线性表示 2 4判断某个向量组是否
  • final关键字最全了解

    final关键字的使用 在Java中声明类 属性和方法时 可使用关键字final来修饰 1 final标记的类不能被继承 2 final标记的方法不能被子类复写 3 final标记的变量 成员变量或局部变量 即为常量 只能赋值一次 fina
  • 消息队列之Kafka 日志清理(六)

    Kafka是一个基于日志的流处理平台 一个topic可以有多个分区 partition 分区是复制的基本单元 在单节点上 一个分区的数据文件可以存储在多个磁盘目录中 配置项是 A comma separated list of direct
  • ps 命令

    NAME ps report a snapshot of the current processes SYNOPSIS ps aAcdefHjlmNVwy acefghLnrsSTuvxX C lt 指令名称 gt g lt 群组名称 gt
  • 使用Java实现文件的上传

    基于表单的文件上传 标签
  • ASPX如何调用外界程序

    调用外界程序 用到Process类 这个相当于在运行中输入命令 而不是在cmd中输入命令 aspx cs页 Start方法应该是静态方法 1 using System Diagnostics 2 3 Process Start cmd c
  • idea写的过滤器

    Servlet 概念 Server 服务 applet 小程序 是运行在服务器端 tomcat 的java程序 作用 接受客户端发送过来的请求并做出响应 重定向和转发 gt 客户端 注解 Filter 过滤器 概念 过滤器实际上就是对web
  • pv=nrt_PV=NRT中的R的单位是什么?

    展开全部 1 气体状态方程的常数 2 n是物质的量 R是常数 对任意理想气体而言 R是一定的 约为e68a8462616964757a686964616f313333656532308 31441 0 00026J mol K PV nRT
  • swarm原理与使用

    一 Swarm简介 在Docker的官方文档当中 我们可以看到在Docker 1 12及更高版本中 Swarm模式与Docker Engine集成 那么Dokcer Swarm到底是个什么 Docker Swarm是Docker官方的三剑客
  • 【亲测有效】Win10家庭版Microsoft Edge页面出现乱码的两种解决方案及gpedit.msc命令无法使用的解决策略...

    昨天在爬取电影的时候生成的表单打开result html时 发现页面出现如下乱码 第一种方法 上网找了半天 网上的解决方案是这样的 1 Win R输入gpedit msc打开组策略编辑器 2 定位到计算机配置 rarr 管理模板 windo
  • 数据结构与算法分析——第3章考试题

    判断题 1 1 Run the following operations on a stack S Push S 1 Push S 2 Pop S Push S 3 Pop S Pop S The output sequence must
  • 小程序对接企业微信客服

    一 小程序后台管理 关联企业微信客服 注意 企业ID必须跟该小程序的企业主体一样 二 登录企业微信 选择客服 登录企业微信后台 应用管理 应用 微信客服 接入场景 在微信内其他场景接入 去接入 选择客服 复制客服链接 注意 如果需要后台对接
  • 【性能测试-03】 - 如何指定性能测试目标

    文章目录 引言 定制计划 衡量指标 TPS 响应时间 报错率 性能测试指标分析 1 以衡量系统处理能力为核心目标的性能测试 时间维度 服务维度 系统健壮性 专项能力 总结 引言 在测试执行过程当中 并不清楚现在测试到的结果到底能不能满足活动
  • (5)所有角色数据分析页面的构建-5

    所有角色数据分析页面 包括一个时间轴柱状图 六个散点图 六个柱状图 每个属性角色的生命值 防御力 攻击力的max与min的对比 绘图 from pyecharts charts import Timeline from find type
  • 其他题目---两个有序数组间相加和的TopK问题

    题目 给定两个有序数组arr1和arr2 再给定一个整数k 返回来自arr1和arr2的两个数相加和最大的前k个 两个数必须分别来自两个数组 要求时间复杂度O klogk 基本思路 使用大根堆结构 假设arr1的长度是M arr2的长度是N
  • IDEA远程debug java项目

    远程debug调试 服务端程序运行在一台远程服务器上 我们可以在本地服务端的代码 前提是本地的代码必须和远程服务器运行的代码一致 中设置断点 每当有请求到远程服务器时时能够在本地知道远程服务端的此时的内部状态 步骤 1 远程服务器上项目需以
  • 鱼c笔记——Python爬虫(五):访问网页的异常处理

    访问网页的异常处理 当我们的urlopen 方法无法处理一个响应的时候 就会引发URLError异常 通常在没有网络连接或者对方服务器压根不存在的时候 都会引发这个异常 同时URL会伴随一个reason的属性 用于包含一个由错误编码和错误信