python爬虫实战之最简单的网页爬虫教程

2023-11-12

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。下面这篇文章就来给大家介绍了关于利用python实现最简单的网页爬虫的相关资料

前言

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。最近对[python爬虫有了强烈地兴趣，在此分享自己的学习路径，欢迎大家提出建议。我们相互交流，共同进步。话不多说了，来一起看看详细的介绍：

1.开发工具

笔者使用的工具是sublime text3，它的短小精悍（可能男人们都不喜欢这个词）使我十分着迷。推荐大家使用，当然如果你的电脑配置不错，pycharm可能更加适合你。

sublime text3搭建python开发环境推荐查看这篇文章：

[sublime搭建python开发环境][http://www.zzvips.com/article/119329.html]

2.爬虫介绍

爬虫顾名思义，就是像虫子一样，爬在Internet这张大网上。如此，我们便可以获取自己想要的东西。

既然要爬在Internet上，那么我们就需要了解URL，法号“统一资源定位器”，小名“链接”。其结构主要由三部分组成：

（1）协议：如我们在网址中常见的HTTP协议。

（2）域名或者IP地址：域名，如：www.baidu.com，IP地址，即将域名解析后对应的IP。

（3）路径：即目录或者文件等。

3.urllib开发最简单的爬虫

（1）urllib简介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

（2）开发最简单的爬虫

百度首页简洁大方，很适合我们爬虫。

爬虫代码如下：

from` `urllib ``import` `request` `def` `visit_baidu():`` ``URL ``=` `"http://www.baidu.com"`` ``# open the URL`` ``req ``=` `request.urlopen(URL)`` ``# read the URL`` ``html ``=` `req.read()`` ``# decode the URL to utf-8`` ``html ``=` `html.decode(``"utf_8"``)`` ``print``(html)` `if` `__name__ ``=``=` `'__main__'``:`` ``visit_baidu()

结果如下图：

python爬虫实战之最简单的网页爬虫教程

我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。

当然，request也可以生成一个request对象，这个对象可以用urlopen方法打开。

代码如下：

from` `urllib ``import` `request` `def` `vists_baidu():`` ``# create a request obkect`` ``req ``=` `request.Request(``'http://www.baidu.com'``)`` ``# open the request object`` ``response ``=` `request.urlopen(req)`` ``# read the response`` ``html ``=` `response.read()`` ``html ``=` `html.decode(``'utf-8'``)`` ``print``(html)` `if` `__name__ ``=``=` `'__main__'``:`` ``vists_baidu()

运行结果和刚才相同。

（3）错误处理

错误处理通过urllib模块来处理，主要有URLError和HTTPError错误，其中HTTPError错误是URLError错误的子类，即HTTRPError也可以通过URLError捕获。

HTTPError可以通过其code属性来捕获。

处理HTTPError的代码如下：

from` `urllib ``import` `request``from` `urllib ``import` `error` `def` `Err():`` ``url ``=` `"https://segmentfault.com/zzz"`` ``req ``=` `request.Request(url)` ` ``try``:`` ``response ``=` `request.urlopen(req)`` ``html ``=` `response.read().decode(``"utf-8"``)`` ``print``(html)`` ``except` `error.HTTPError as e:`` ``print``(e.code)``if` `__name__ ``=``=` `'__main__'``:`` ``Err()

运行结果如图：

python爬虫实战之最简单的网页爬虫教程

404为打印出的错误代码，关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。

chuliHTTPError的代码如下：

from` `urllib ``import` `request``from` `urllib ``import` `error` `def` `Err():`` ``url ``=` `"https://segmentf.com/"`` ``req ``=` `request.Request(url)` ` ``try``:`` ``response ``=` `request.urlopen(req)`` ``html ``=` `response.read().decode(``"utf-8"``)`` ``print``(html)`` ``except` `error.URLError as e:`` ``print``(e.reason)``if` `__name__ ``=``=` `'__main__'``:`` ``Err()

运行结果如图：

python爬虫实战之最简单的网页爬虫教程

既然为了处理错误，那么最好两个错误都写入代码中，毕竟越细致越清晰。须注意的是，HTTPError是URLError的子类，所以一定要将HTTPError放在URLError的前面，否则都会输出URLError的，如将404输出为Not Found。

代码如下：

from` `urllib ``import` `request``from` `urllib ``import` `error` `# 第一种方法，URLErroe和HTTPError``def` `Err():`` ``url ``=` `"https://segmentfault.com/zzz"`` ``req ``=` `request.Request(url)` ` ``try``:`` ``response ``=` `request.urlopen(req)`` ``html ``=` `response.read().decode(``"utf-8"``)`` ``print``(html)`` ``except` `error.HTTPError as e:`` ``print``(e.code)`` ``except` `error.URLError as e:`` ``print``(e.reason)

大家可以更改url来查看各种错误的输出形式。

最后

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

如果需要可以点击链接免费领取或者滑到最后扫描二v码

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫实战之最简单的网页爬虫教程的相关文章

scipy 将一个稀疏矩阵的所有行附加到另一个稀疏矩阵

我有一个 numpy 矩阵想在其中附加另一个矩阵这两个矩阵的形状为 m1 shape 2777 5902 m2 shape 695 5902 我想将 m2 附加到 m1 以便新矩阵的形状为 m new shape 3472 5902 当
如何在 Windows 64 上安装 NumPy？

NumPy 安装程序在注册表中找不到 python 路径无法安装需要 Python 2 5 版本但在注册表中未找到该版本 OK 我必须修改注册表吗我已经修改了 PATH 以指向Python25安装目录我可以检查一下您使用的是什么安
Python 3 os.urandom

在哪里可以找到完整的教程或文档os urandom 我需要获得一个随机 int 来从 80 个字符的字符串中选择一个字符如果你只需要一个随机整数你可以使用random randint a b 来自随机模块 http docs pytho
Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ？

我正在尝试计算玩家每周玩游戏的次数如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
使用ssl和socket的python客户端身份验证

我有一个 python 服务器需要客户端使用证书进行身份验证我如何制作一个客户端脚本使用客户端证书由 python 中的服务器使用 ssl 和套接字模块进行身份验证有没有仅使用套接字和 ssl 而不扭曲的示例 from OpenSS

随机推荐

解决PowerShell不显示conda虚拟环境的问题

目录 1 指令正常执行和结果 2 指令执行异常以及解决办法问题1 CommandNotFoundError No command conda conda 问题2 conda init powershell执行完毕后重启PowerShel
工作中经常使用shell脚本

在工作中我们常用shell脚本处理一些问题今天在来一些这里整理了一些工作中常用的简单shell脚本 1 更新脚本 bin bash apt get update DEBIAN FRONTEND noninteractive apt get
【C语言】小游戏-扫雷（清屏+递归展开+标记）

大家好我是深鱼目录一游戏介绍二文件分装三代码实现步骤 1 制作简易游戏菜单 2 初始化棋盘 11 11 3 打印棋盘 9 9 4 布置雷 5 计算 x y 周围8个坐标的和 6 排查雷 lt 1 gt 清屏后打印棋盘 lt
Python：赋值，浅拷贝（copy）和深拷贝（deepcopy）

基础知识请查看之前博客 Python 对象可变对象与不可变对象赋值浅拷贝和深拷贝的关键问题修改一个变量会不会导致另外拷贝出来的对象的改变不可变对象 import copy a1 0 a2 a1 a3 copy copy a1 a
使用https://mail.google.com/登录GMail

原来使用gmail google com登录登录可以进去但查看邮件时总是出现 Oop unable to reach Gmail Please check your internet connection and try again
spring-boot后端解决跨域问题

代码 import cn hutool log Log import cn hutool log LogFactory import com alibaba fastjson JSONObject import org springfram
添加静态路由实现不同网段的路由的通信和不用网段之间设备的通信

两不同网段的路由器如何互通三个案例详解 gzmenghai com
下一代电信城域网设计原则

下一代电信城域网设计原则作者 epon 运营商早期建设的IP城域网多采用大L3 小L3的组网模式核心层旁挂BAS 在运营中遇到很多问题过大的二层网络导致网络的安全性可靠性较差网络不可管理传统L3设备采用低成本ASIC套片提
error:expected '=',',',';','asm'or'_attribute_'

今天在Linux上调一个存包队列当用gcc编译时出现error expected asm or attribute 等错误这个错误是出现在两个函数上这两个函数的返回类型是bool 当我把bool类型改为void 再进行编译时错误就
菜鸟教程《Python 3 教程》笔记（18）：File（文件）方法

菜鸟教程 Python 3 教程笔记 18 18 File 文件方法 18 1 open 方法 18 2 file 对象 18 2 1 flush 18 2 2 fileno 18 2 3 isatty 18 2 4 truncate
PROFINET趣谈——设备模型

设备名 MAC地址和IP地址是为了在网络中找到对应设备而要定位确切的输入 IX1 1 输出 QW2 就需要熟悉设备模型的概念 PROFINET IO的设备类型与PROFIBUS几乎相同如图所示设备模型包括若干槽 slot 与子槽 su
Java内存泄露监控工具：JVM监控工具介绍

jstack 如果java程序崩溃生成core文件 jstack工具可以用来获得core文件的java stack和native stack的信息从而可以轻松地知道java程序是如何崩溃和在程序何处发生问题另外 jstack工具还可以附
BUAA词频统计（树实现）

问题描述编写程序统计一个英文文本文件中每个单词的出现次数词频统计并将统计结果按单词字典序输出到屏幕上要求程序应用二叉排序树 BST 来存储和统计读入的单词注在此单词为仅由字母组成的字符序列包含大写字母的单词应将大写字母转换为
Linux 解决vi键盘方向键出现字母的问题

修改 etc vim vimrc tiny 1 将 set compatible 兼容模式改成 set nocompatible 非兼容模式 2 添加 set backspace 2 解决退格键无法使用
【完全开源】小安派-Cam-D 摄像头核心板

文章目录一概述二系统框图三摄像头电路四内存卡电路五 IO引脚说明六资料一概述小安派 Cam D AiPi Cam D 是安信可科技为高性能模组Ai M61 32S设计的一款摄像头核心板引脚完全兼容Ai WB1
MFC ：CCoolBar 的替代方案 CDockablePane。

阅读受众需有一定MFC知识储备技术支持 http www cnblogs com shuhaoc archive 2011 06 26 cdockableform html 在以往很多使用CCoolBar实现窗口停靠功能但是在VS201
【C++】Modbus通讯

C Modbus通讯 2016年06月22日 20 37 48 Taily老段阅读数 10298 版权声明本文为博主原创文章未经博主允许不得转载如遇到疑问评论会给出答复学习交流关注页面微信公众号吃良心拉思想 https b
R语言入门教程知识第七章特殊值

以下为本章所用代码 letters letters 5 9 LETTERS LETTERS 6 10 month name month name 7 11 month abb month abb 8 12 pi NA length vec
手撕self-attention代码_从0实现self-attention_附学习路线

一前言科研需要前几天自学了transformer 在理解self attention时发现网上并没有一套成熟易懂的学习路线对新手及其不友好大多数教程只重视理论和公式的讲解没有从零开始的代码实战因此我在这里整理了一条最适合新
python爬虫实战之最简单的网页爬虫教程

在我们日常上网浏览网页的时候经常会看到一些好看的图片我们就希望把这些图片保存下载或者用户用来做桌面壁纸或者用来做设计的素材下面这篇文章就来给大家介绍了关于利用python实现最简单的网页爬虫的相关资料前言网络爬虫又被称为网页

python爬虫实战之最简单的网页爬虫教程

最后

python爬虫实战之最简单的网页爬虫教程 的相关文章

随机推荐

热门标签

python爬虫实战之最简单的网页爬虫教程的相关文章