python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取

2023-05-16

今天的工作很有意思, 我们用 Python 来登录网站, 用Cookies记录登录信息,

然后就可以抓取登录之后才能看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个很难解释,

但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告. 知乎网的登录比较简单, 传输的时候没有对用户名和密码加密,

却又不失代表性, 有一个必须从主页跳转登录的过程.

第一步: 使用 Fiddler 观察浏览器行为

在开着 Fiddler 的条件下运行浏览器, 输入知乎网的网址 http://www.zhihu.com 回车后到

Fiddler 中就能看到捕捉到的连接信息. 在左边选中一条 200 连接, 在右边打开 Inspactors 透视图,

上方是该条连接的请求报文信息, 下方是响应报文信息.

其中 Raw 标签是显示报文的原文. 下方的响应报文很有可能是没有经过解压或者解码的, 这种情况他会在中间部位有一个小提示,

点击一下就能解码显示出原文了.

以上这个截图是在未登录的时候进入 http://www.zhihu.com 得到的. 现在我们来输入用户名和密码登陆知乎网,

再看看浏览器和知乎服务器之间发生了什么.

点击登陆后, 回到 Fiddler 里查看新出现的一个 200 链接. 我们浏览器携带者我的帐号密码给知乎服务器发送了一个

POST, 内容如下:

POST http://www.zhihu.com/login HTTP/1.1

Content-Type: application/x-www-form-urlencoded;

charset=UTF-8

Accept: */*

X-Requested-With: XMLHttpRequest

Referer: http://www.zhihu.com/#signin

Accept-Language:

en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3

Accept-Encoding: gzip, deflate

User-Agent: Mozilla/5.0 (Windows NT 6.4; WOW64; Trident/7.0;

rv:11.0) like Gecko

Content-Length: 97

DNT: 1

Host: www.zhihu.com

Connection: Keep-Alive

Pragma: no-cache

Cookie:

__utma=51854390.1539896551.1412320246.1412320246.1412320246.1;

__utmb=51854390.6.10.1412320246; __utmc=51854390;

__utmz=51854390.1412320246.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none);

__utmv=51854390.000--|3=entry_date=20141003=1

_xsrf=4b41f6c7a9668187ccd8a610065b9718&email=此处涂黑@gmail.com&password=此处不可见&rememberme=y

我的浏览器给 http://www.zhihu.com/login 这个网址(多了一个/login) 发送了一个POST,

内容都已经在上面列出来了, 有用户名, 有密码, 有一个"记住我"的 yes, 其中这个 WebForms 标签下 Fiddler

能够比较井井有条的列出来 POST 的内容. 所以我们用 Python 也发送相同的内容就能登录了. 但是这里出现了一个 Name 为

_xsrf 的项, 他的值是 4b41f6c7a9668187ccd8a610065b9718. 我们要先获取这个值,

然后才能给他发.

浏览器是如何获取的呢, 我们刚刚是先访问了 http://www.zhihu.com/ 这个网址, 就是首页,

然后登录的时候他却给 http://www.zhihu.com/login 这个网址发信息. 所以用侦探一般的思维去思考这个问题,

就会发现肯定是首页把 _xsrf 生成发送给我们, 然后我们再把这个 _xsrf 发送给 /login 这个 url.

这样一会儿过后我们就要从第一个 GET 得到的响应报文里面去寻找 _xsrf

我们不仅登录成功了, 而且服务器还告诉我们的浏览器如何保存它给出的 Cookies 信息. 所以我们也要用 Python

把这些 Cookies 信息记录下来.这样 Fiddler 的工作就基本结束了!

第二步: 解压缩

简单的写一个 GET 程序, 把知乎首页 GET 下来, 然后 decode() 一下解码, 结果报错. 仔细一看,

发现知乎网传给我们的是经过 gzip 压缩之后的数据. 这样我们就需要先对数据解压. Python 进行 gzip 解压很方便,

因为内置有库可以用. 代码片段如下:

import gzip

def ungzip(data):

try: #

尝试解压

print('正在解压.....')

data = gzip.decompress(data)

print('解压完毕!')

except:

print('未经压缩, 无需解压')

return data

通过 opener.read() 读取回来的数据, 经过 ungzip 自动处理后, 再来一遍 decode()

就可以得到解码后的 str 了

第三步: 使用正则表达式获取沙漠之舟

_xsrf 这个键的值在茫茫无际的互联网沙漠之中指引我们用正确的姿势来登录知乎, 所以 _xsrf 可谓沙漠之舟. 如果没有

_xsrf, 我们或许有用户名和密码也无法登录知乎(我没试过, 不过我们学校的教务系统确实如此) 如上文所说, 我们在第一遍 GET

的时候可以从响应报文中的 HTML 代码里面得到这个沙漠之舟. 如下函数实现了这个功能, 返回的 str 就是 _xsrf

的值.

import re

def getXSRF(data):

cer =

re.compile('name="_xsrf" value="(.*)"', flags = 0)

strlist =

cer.findall(data)

return strlist[0]

第四步: 发射 POST !!

集齐 _xsrf, id, password 三大法宝, 我们可以发射 POST 了. 这个 POST 一旦发射过去,

我们就登陆上了服务器, 服务器就会发给我们 Cookies. 本来处理 Cookies 是个麻烦的事情, 不过 Python 的

http.cookiejar 库给了我们很方便的解决方案, 只要在创建 opener 的时候将一个

HTTPCookieProcessor 放进去, Cookies 的事情就不用我们管了. 下面的代码体现了这一点.

import http.cookiejar

import urllib.request

def getOpener(head):

# deal with the

cj =

http.cookiejar.CookieJar()

pro =

urllib.request.HTTPCookieProcessor(cj)

opener =

urllib.request.build_opener(pro)

header = []

for key, value in

head.items():

elem = (key, value)

header.append(elem)

opener.addheaders =

header

return opener

getOpener 函数接收一个 head 参数, 这个参数是一个字典. 函数把字典转换成元组集合, 放进 opener.

这样我们建立的这个 opener 就有两大功能: 自动处理使用 opener 过程中遇到的

Cookies 自动在发出的 GET 或者 POST 请求中加上自定义的 Header

第五部: 正式运行

正式运行还差一点点, 我们要把要 POST 的数据弄成 opener.open() 支持的格式. 所以还要

urllib.parse 库里的 urlencode() 函数. 这个函数可以把字典或者

元组集合类型的数据转换成 & 连接的 str.

str 还不行, 还要通过 encode() 来编码, 才能当作 opener.open() 或者 urlopen() 的

POST 数据参数来使用. 代码如下:

url = 'http://www.zhihu.com/'

opener = getOpener(header)

op = opener.open(url)

data = op.read()

data = ungzip(data) #

解压

_xsrf = getXSRF(data.decode())

url += 'login'

id = '这里填你的知乎帐号'

password = '这里填你的知乎密码'

postDict = {

'_xsrf':_xsrf,

'email': id,

'password': password,

'rememberme': 'y'

}

postData = urllib.parse.urlencode(postDict).encode()

op = opener.open(url, postData)

data = op.read()

data = ungzip(data)

print(data.decode()) #

你可以根据你的喜欢来处理抓取回来的数据了!

代码运行后, 我们发现自己关注的人的动态(显示在登陆后的知乎首页的那些), 都被抓取回来了. 下一步做一个统计分析器,

或者自动推送器, 或者内容分级自动分类器, 都可以.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取的相关文章

idea 去绿色波浪线

idea 去绿色波浪线如图如图
stop-writes-on-bgsave-error

redis RDB持久化配置 RDB持久化配置 stop writes on bgsave error 选项如果 61 yes xff1a redis 会创建一个新的后台进程dump rdb 假设 xff1a 创建快照 xff08 硬盘
px4_simple_example和uorb机制

px4 simple app PX4 Autopilot src exampes px4 simple app xff0c 这个程序是用c语言调用orb API和poll机制订阅和发布通讯数据 xff0c 但是这个例子并不是既有接收又有发送
四旋翼无人机硬件基础

四旋翼无人机硬件基础材料分析无刷电机型号转速电子调速器作用规格四轴专用电调 xff1f 电调编程 xff1f 螺旋桨机制规格飞行控制器原理作用四轴字四轴十字电池锂电池 xff1f 电池容量电池片数放电能力插头类型T插XT60JS
AndroidStudio NDK开发环境配置及示例

AndroidStudio NDK开发环境配置及示例版本说明版本作者日期备注0 1loon2020 8 26初稿目录文章目录 AndroidStudio NDK开发环境配置及示例版本说明目录一 Android Studio NDK环
Onvif协议学习：10、获取音视频流

Onvif协议学习 xff1a 10 获取音视频流文章目录 Onvif协议学习 xff1a 10 获取音视频流1 原理简介2 编码流程3 VLC播放RTSP视频4 准备FFmpeg库5 示例代码原文链接 xff1a https blog
（ROS）RLException: [display_mrobot_with_camera.launch] is neither a launch file等一系列错误解决办法

前提 xff1a 运行 roslaunch mrobot description display mrobot chassis urdf launch 有误错误1 xff1a rviz直接打不开错误显示 xff1a RLExceptio
9款好用的SSH客户端软件推荐

9款好用的SSH客户端软件推荐文章目录 9款好用的SSH客户端软件推荐MobaXtermXshellTermiusPuTTYSimpleRemoteZOC TerminalFinalshellJuiceSSHServerCat SSH客户
几款数据库连接工具

几款数据库连接工具文章目录几款数据库连接工具1 前言2 Navicat3 DBeaver4 DataGrip5 phpMyAdmin 1 前言我目前使用sqlite3和mysql数据库比较多 xff0c 所以对数据库客户端的需求主要是
win10文件资源管理器右键卡死现象解决方案大全

win10文件资源管理器右键卡死现象解决方案大全文章目录 win10文件资源管理器右键卡死现象解决方案大全一右键桌面卡死 xff0c 过了许久都未反应二右键文件夹或文件卡死2 1 方案12 2 方案22 3 方案3 xff08 靠谱
CLion常用插件及c文件模板配置

CLion常用插件及c文件模板配置文章目录 CLion常用插件及c文件模板配置1 常用插件2 模板2 1 c源文件模板 xff1a xff08 使用文件模板 xff09 2 2 c头文件模板 xff1a xff08 使用文件模板 xff0
Windows下安装及卸载程序可用的添加和删除当前路径到环境变量的bat脚本以及如何和inno setup结合使用的实例

文章目录 1 安装bat脚本 install bat 将当前路径添加到环境变量中 2 卸载bat脚本 uninstall bat 搜索当前路径并删除 3 inno setup添加安装和卸载时执行上述bat脚本4 安装到 C盘权限不足问题处理
浏览器播放rtsp视频流：4、jsmpeg+go实现局域网下的rtsp视频流web端播放

文章目录 1 前言2 资料准备3 兼容性及适用性说明4 jsmpeg架构5 基于以上架构的go方案可行性分析6 编译和结果展示 xff08 编译坑点 xff09 7 最后 1 前言之前的rtsp转webrtc的方案存在如下缺陷 xff1a
TCP套接字编程实例（一）

TCP套接字编程实例 xff08 一 xff09 TCP套接字编程第一部分我们先用单线程简单实现客户端的发和服务器的收话不多说 xff0c 直接上代码 1 Client部分 xff1a include include include
Vm虚拟机扩展Ubuntu系统磁盘空间

Vm虚拟机扩展Ubuntu系统磁盘空间前言一般我们在安装虚拟机时都会选择默认的20G磁盘空间 xff0c 但是一旦需要搭建一两个交叉编译环境后 xff0c 20G的空间就无法满足了 xff0c 我就是出现了这样的情况 xff0c 所以也
Qt添加菜单栏和工具栏

Qt添加菜单栏和工具栏版本说明版本作者时间备注0 1loon2018 10 24初稿目录文章目录 Qt添加菜单栏和工具栏版本说明目录一需求与目的二详细说明三最后一需求与目的一般常规的PC软件都会有主窗口 xff0c 主窗
Qt关于tabwidget的使用及注意事项

Qt关于tabwidget的使用及注意事项版本说明版本作者日期备注0 1loon2018 11 12初稿目录文章目录 Qt关于tabwidget的使用及注意事项版本说明目录一需求和目的二了解QTabWIDget类及用法1 详细描
SLIC算法介绍

SLIC xff08 simple linear iterativeclustering xff09 xff0c 即简单线性迭代聚类 x1f49b 它是2010年提出的一种思想简单实现方便的算法 xff0c 将彩色图像转化为CIELAB
利用libwebsockets写ws、wss服务端和客户端

利用libwebsockets写ws wss服务端和客户端文章目录利用libwebsockets写ws wss服务端和客户端服务端 xff1a 客户端官网例子坑点服务端 xff1a server c span class token
封装利用libwebsockets写出的客户端、服务端程序为客户端服务端类

封装利用libwebsockets写出的客户端服务端程序为客户端服务端类文章目录封装利用libwebsockets写出的客户端服务端程序为客户端服务端类1 封装2 封装后写wss客户端服务端3 测试结果4 客户端服务端类程序 1

随机推荐

18650锂电池保护板接线图_单节18650锂电池保护板的电路原理图

有关18650锂电池保护板的知识 xff0c 单节18650锂电池保护板多采用专用的锂电池保护IC及贴片MOSFET设计 xff0c 保护板的主要功能是过充过放及电池短路保护 xff0c 这里分享下单节18650锂电池保护板的电路原理图及
python按空格键退出循环_按“空格键”停止暂停循环，再按一次可继续循环（参见更新）...

from PIL import Image import time import subprocess for i in bio p 61 subprocess Popen 34 C Program Files IrfanView i vi
平台型时间信号强度曲线_MRI对动态增强时间信号曲线呈平台型乳腺纤维.PDF

MRI对动态增强时间信号曲线呈平台型乳腺纤维医学研究生学报 xff12 xff10 xff11 xff17 年 xff12 月第 xff13 xff10 卷第 xff12 期 xff2a xff2d xff45 xff44 xff30
electron http请求_手把手教你Electron + Vue实战教程（四）

作者 xff1a Sufen 转发链接 xff1a https mp weixin qq com s idVFfkY331uEGPR9FR6Tww 目录手把手教你Electron 43 Vue实战教程一手把手教你Electron 43
Win10上安装opencv并配置教程（成功

参考 xff1a win10上安装opencv详细教程下载地址 xff1a Home OpenCV 下载步骤 xff1a 1 Library下的Releases 选择合适的版本我的版本 xff1a 4 6 0 xff0c 选择windo
matlab同时绘制正弦函数,用matlab绘制正弦函数

怎样用matlab做出这样的正弦函数在同一图像窗口绘制曲线y1 61 sin t xff0c t的范围为 0 2pi xff0c y2 61 sin 2t t把plot y1 改成plot x y1 正常的频谱图应该是横坐标为频率 xff
oracle crs 4535,11gRAC报错CRS-4535,CRS-4000解决

1 故障现象使用crsctl查看集群各资源状态 xff0c 在任一节点都会直接报错CRS 4535 CRS 4000 xff1b 但此时数据库是可以被正常访问的具体故障现象如下 xff1a xff03 节点1查询 grid 64 bjd
服务器虚拟化P2V迁移,VMware vCenter Converter简化V2V及P2V迁移

在运行多个虚拟化平台后 xff0c 如果打算采用vSphere作为统一的虚拟化平台 xff0c 可以使用VMware vCenter Converter简化不同平台的转换过程 VMware vCenter Converter能够简化V2V以
服务器性能介绍,服务器性能测试工具介绍

服务器性能测试工具介绍内容精选换一换进行性能测试前 xff0c 您需要先构建如下的测试环境 xff1a 购买一个Kafka专享版实例 xff0c 参数信息如下 xff0c 购买方法请参考购买实例区域 xff1a 华北北京四项目 x
快捷指令显示无法连接服务器,连接云服务器快捷命令行

连接云服务器快捷命令行内容精选换一换介绍使用同一VPC内弹性云服务器ECS上的Python Redis客户端Redis py连接Redis实例的方法更多的客户端的使用方法请参考Redis客户端本章节操作 xff0c 仅适用于连接单
c++输出重定向 linux,C++输入输出重定向（3种方法）

C 43 43 输入流和输出流一节提到 xff0c cout 和 cerr clog 的一个区别是 xff0c cout 允许被重定向 xff0c 而 cerr 和 clog 都不支持值得一提的是 xff0c cin 也允许被重定向那
python requests中文文档-Requests 2.18.1 中文文档

通常 xff0c 你想要发送一些编码为表单形式的数据非常像一个 HTML 表单要实现这个 xff0c 只需简单地传递一个字典给 data 参数你的数据字典在发出请求时会自动编码为表单形式 xff1a gt gt gt payload
can帧格式 dlc_是时候聊一下CAN总线了（下）——CAN总线帧格式

文 Edward 1 通讯速率和通讯距离 CAN总线是一种串行的差分总线 xff0c 并且这种差分总线只传递数据信息 xff0c 因此关于时钟信号收发两方是没有信号进行传递的因此 xff0c CAN总线与绝大多数异步串行总线一样 xff0
postman linux 安装包,Postman 下载和安装 · Postman API 自动化测试与持续集成全栈

8种机械键盘轴体对比本人程序员 xff0c 要买一个写代码的键盘 xff0c 请问红轴和茶轴怎么选 xff1f Postman 下载与安装下载 Postman 有 Windows Linux MacOS 等多个版本 xff0c 另外也可
（超）超体素

参考 xff1a PCL 超体聚类点云分割算法详解 x1f4a5 Voxel体素预了解 xff1a 图中是3D数据的不同表示类型 xff08 a xff09 点云 xff08 Point clouds xff09 xff1b b 体素网格
linux curl 绑定host,curl请求指定host ip(指定域名解析的内网某ip)

RequireJS 模块的定义与加载模块不同于传统的脚本文件它良好地定义了一个作用域来避免全局名称空间污染它可以显式地列出其依赖关系并以函数定义此模块的那个函数参数的形式将这些依赖进行注入而无需引用全局变量 RequireJ
http协议_网络协议HTTP详解

一 http协议的定义 HTTP是超文本传输协议的缩写是互联网上使用最为广泛的一种网络协议 xff0c 适用于www服务器传输超文本到本地浏览器传输协议它可以使浏览器的传输更加高效 xff0c 使网络传输减少他还能使计算机能快速准确的
cmake导入so库_CMake与动态链接库(dll, so, dylib)

使用CMake可以很方便的实现跨平台编译如果要Link一个第三方库 xff0c 需要针对平台进行设置这里分享下如何创建一个简单的CMake工程实现Windows Linux和macOS上的自动编译 SDK下载 CMake下载安装 Win
ros 开源物体检测_机器人操作系统ROS—使用激光雷达RpLidar A1进行SLAM定位建图

移动机器人在环境中获取障碍物的具体位置房间的内部轮廓等信息都是非常必要的 xff0c 这些信息是机器人创建地图进行导航的基础数据考虑成本 xff0c 入手了一个SLAMTEC公司的低成本二维激光雷达RpLidar A1进行初步的学习
python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取

今天的工作很有意思我们用 Python 来登录网站用Cookies记录登录信息然后就可以抓取登录之后才能看到的信息今天我们拿知乎网来做示范为什么是知乎这个很难解释但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告知乎

python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取

python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取 的相关文章

随机推荐

热门标签

python实现登录抓取_[Python]网络爬虫（五）：利用POST方式登录账号抓取的相关文章