第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码

2023-11-13

Python要访问一个网页并读取网页内容非常简单，在利用《第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头》的方法构建了请求http报文的请求头情况下，使用urllib包的request模块使得这项工作变得非常容易，具体语句如下：

header = mkhead()
req = urllib.request.Request(url=site,headers=header)
sitetext = urllib.request.urlopen(req).read().decode()

urllib.request.Request和urllib.request.urlopen这2个语句也可以合并成一个句子，在此不详细介绍，相关说明请参考：
https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request

说明：
1、在国内decode的参数一般是缺省值、UTF-8、GBK这三种，如果是缺省值就是UTF-8；

2、 site就是要访问网站的网址；

3、 headers参数是http报文头的内容，请参考《第14.1节通过Python爬取网页的学习步骤》或《第14.3节使用google浏览器获取网站访问的http信息》介绍的有关http报文头的知识。实际设置时，报文头的内容可多可少，具体看爬虫访问网站的要求：

1)headers参数可以不传实参，也可以为空字典实参，不传实参系统缺省使用空字典，这种情况下Python处理时会自动补充一些内容以使web服务器能正确处理，这些值带有浓郁的Pythonic味道，可以使得服务端很容易知道这是Python代填充的，具体填充值大家可以使用抓包程序看一下。对于爬虫程序来说这不是很好的事情，因为爬虫最好是能伪装成正常的浏览器访问；

2)headers填写部分参数，老猿建议填写下列参数：
 User-Agent:这个是表明使用的哪个浏览器的，关于其来历可参考一下《转：为什么浏览器的user-agent字符串以’Mozilla’开头呢？》，具体取值网上可以查一下，最好办法是直接抓取真实浏览器的数据填入，如老猿直接使用本机浏览器的信息：

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36
怎么抓取信息请见章节《第14.3节使用google浏览器获取网站访问的http信息》、《第14.4节使用IE浏览器获取网站访问的http信息》。

 Accept:这个是表明本机作为客户端浏览器可接受的MIME类型（互联网媒体类型），就是本机能识别处理的互联网信息类型，最好也从本机或其他真实的机器上抓取填入。如老猿抓取本机浏览器发送的请求信息中，填写的值为：‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3’

 Accept-Encoding:浏览器能够支持的压缩编码方式，如gzip, deflate, br等，服务端的报文体的压缩格式在响应报文的报文头的Content-Encodin字段中记载。http请求时通过Accept-Encoding告知服务端本客户端能识别的压缩格式，服务端根据该字段及服务端的情况采用对应方式压缩http报文体。注意如果应用中没有考虑服务端http报文体的解压缩，则这个值不要设置，否则会导致应用无法识别收到的响应报文体。关于HTTP响应报文头的信息请参考《转：http协议学习系列(响应头—Response Headers)》；

 Accept-Language: 客户端浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到，如zh-CN,zh;q=0.9等；

 Connection：表示是否需要持久连接，keep-alive表示是持久连接；

 cookie：会话cookie信息，如果要复用已有浏览器会话不实现登录管理则可以直接复制已有浏览器会话的cookie，否则要么应用程序自己实现网站登录，要么就是匿名访问，具体大家可以根据自己爬虫应用的要求来确认处理方式。

以上信息老猿建议根据爬虫功能的需要设置，但User-Agent是必须设置，这样才能使得应用程序貌似一个正常的浏览器。

案例：下面是老猿访问自己博客文章的代码：

>>> import urllib.request
>>> def mkhead():
    header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Connection':'keep-alive',
    'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822; ...... ',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}
    return header

>>> url= r'https://blog.csdn.net/LaoYuanPython'
>>> header=mkhead()
>>> req = urllib.request.Request(url=url,headers=header)
>>> text = urllib.request.urlopen(req).read().decode()

>>> text[0:100]
'<!DOCTYPE html>\n<html lang="zh-CN">\n<head>\n    <meta charset="UTF-8">\n    <link rel="canonical" href'
>>>

执行后，text中存放的就是要访问网页的内容，上述案例中显示了读取信息的前100个字符。

本节介绍了使用urllib包的request模块读取网页的实现过程，整体过程非常简单，读取了网页内容后就可以进行网页内容的解析。

老猿Python，跟老猿学Python!
博客地址：https://blog.csdn.net/LaoYuanPython
老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036
请大家多多支持，点赞、评论和加关注！谢谢！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码的相关文章

当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

微信支付

一微信小程序支付开发步骤 1 统一下单 1 1 准备参数接口链接 https api mch weixin qq com pay unifiedorder 需要参数 param string appid 小程序ID param stri
Spring源码解读（9）---解析配置类

Spring源码解读 9 解析配置类解析配置类 1 在启动Spring时需要传入一个AppConfig class给ApplicationContext ApplicationContext会根据AppConfig类封装为一个BeanD
android布局之线性布局的属性用法

1 gravity属性 gravity 用于设置该控件内容相对于该控件的相对对齐方式 layout gravity 用于设置该控件相对于父控件的相对对齐方式举例
计算机网络ld查找,查找电脑id_怎么查找电脑ip地址

2016 12 08 15 07 59 查找电脑主机ID方法方法一开始 gt 所有程序 gt 附件 gt 命令提示符 gt 输入Systeminfo命令 gt 回车等一会找到主机名这一项其后面显示 2016 11 21 16
tkinter比较常用的组件

1 输入框组件输入框 Entry 用来输入单行内容可以方便地向程序传递用户参数这里通过一个转换摄氏度和华氏度的小程序来演示该组件的使用 import tkinter as tk def btnHelloClicked cd float
win10安装配置IIS的教程

win10安装配置IIS的教程 1 安装在如下 win0菜单输入程序和功能 2 打开后的界面并选择Internet Information Service 3 选择加号中以及红框中的所选定的所有内容 4 点击确定 5 接下来等待资源的安
Android Studio 期末大作业(英语app)[免费开源]

先简要说明下该大作业不包含数据存储网络通信技术仅是一个大致的框架有兴趣的朋友可以在此基础上进行开发资源链接在文末人大作业简介这是一款英语学习APP 包含4个大模块单词搜索美文阅读客服聊天软件详情每个模块都有详细的开
CentOS下安装好python和opencv，却import cv2失败

在安装好CentOS和OpenCV后在终端输入python 在输入import cv2 却报错 ImportError Mo module named cv2 浏览Python下文件夹发现cv2 so 原因是没有添加相应路径解决办法 1
cookie及正则总结

cookie及正则总结 cookie cookie是什么 cookie是存在浏览器上的一个只有4kb的容器里面存储的类型为string 他会在每次http请求的时候携带过去他是为了解决http的无状态的特性 cookie的获取 doc
Java解析省市县树形结构工具类

这篇博客将介绍如何根据6位行政编码解析出省市县区等 adcode共6位前俩位省直辖市自治区前4位城市 6位区县并优雅的树形结构输出省市本文只解析了俩层感兴趣的小伙伴可以自行解析区县 1 效果图优雅的树形结构输出省市 22
常见异常【一】TooManyResultsException

org apache ibatis exceptions TooManyResultsException Expected one result or null to be returned by selectOne but found 1
Vercel和Railway都是云端的平台即服务提供商

Vercel是一个专注于构建响应快速的现代网站和应用程序的服务平台它被广泛用于构建静态网站 React应用程序等 Vercel提供全球CDN 构建和部署等强大的功能支持多种前端框架此外 Vercel还具有可扩展性安全性和易用性可以
Junit mock String authToken = request.getHeader(AUTH_TOKEN)

单元测试 mock String authToken request getHeader AUTH TOKEN 代码示例 String authToken request getHeader AUTH TOKEN TEST示例 Mock M
摸鱼，我是认真的

苏生不惑第370 篇原创文章将本公众号设为星标第一时间看最新文章今天分享几个有趣好玩的摸鱼网站 app 摸鱼我是认真的童年游戏博物馆这个网站收录了各种童年记忆游戏冒险岛超级马里奥等 https www return8090
港中文&商汤提出SMCA：用于DETR快速收敛的空间调制协同注意力

为了加速DETR收敛本文提出了一种简单而有效的方案来改进DETR框架即空间调制协同注意 SMCA 机制即插即用让DETR涨点明显性能优于可变形DETR DETR等网络注1 文末附 Transformer 和目标检测交流群注
VS2013+QT5.8.0配置

一安装因为最近在看图形学的三维重构需要学习meshlab的一些重建方法官网找到了编译源码需要编译不得不学一下QT 先说说VS2013 QT的配置吧系统环境 windows10 64bit VS 2013 QT5 8 0 QT5
Vue使用axios发送post请求，后端无法接收怎么处理？（Djnago后台）

今天终于解决了一个困扰很久的问题在使用Vue进行前端项目的搭建时通常采用axios作为数据传输的工具我们会发现使用get请求一切都正常但是使用post请求会发生一些奇怪的事情这次我使用的是python的web框架django
C#开发物联网实践（新手）之门槛

ABP Cli安装问题问题描述想在VS2019上装CLI 输入 dotnet tool install g Volo Abp Cli 结果要求我下载VS2022 刚出的2022VS 我刚看完视频下载的VS2019 解决方法下载国内版
vue教程

原文 1 vue安装 1 1 直接用 script标签引入对于制作原型或学习你可以这样使用最新版本对于生产环境我们推荐链接到一个明确的版本号和构建文件以避免新版本造成的不可预期的破坏 1 2 NPM创建安装vue npm ins
第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码

Python要访问一个网页并读取网页内容非常简单在利用第14 5节利用浏览器获取的http信息构造Python网页访问的http请求头的方法构建了请求http报文的请求头情况下使用urllib包的request模块使得这项工作变得

第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码

第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码 的相关文章

随机推荐

热门标签

第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码

第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码的相关文章