python爬虫模拟扫码登录_Python爬虫基础-模拟登陆

2023-05-16

为什么我们要让爬虫模拟登陆呢？

有些内容只有登陆才能进行爬取，如知乎，不登录的主页只能看到注册和登陆；

你想爬取自己的个人信息

有什么方法呢？

在互联网发展的早期，由于大家的服务器都不是太好，所以服务端不会记住你的个人信息，这会增加服务器的压力。因此早期的连接都是一次性的，服务器在不会记得你什么时候来过，也不知道你做了什么。但是随着服务器的升级换代，淘宝这类网站需要记住你的个人信息，这样你下次访问的时候可以继续上次的工作。但是http协议依旧保持了无状态的特性，cookies应运而生。cookies在访问服务器后会记录在浏览器上，这样就可以在客户端下次访问的时候想起它是谁了。

HTTP持久连接

在没有持久连接之前，为获取每一个URL指定的资源都必须建立一个独立额TCP连接，一方面加重了HTTP服务器的负担；另一方面由于服务器不会记住客服端，导致我们需要每一个请求都要执行登录操作。但是有了HTTP持久连接后，我们对同一个主机的多次请求会使用同一个TCP连接。因此登录后就可以保持这类状态进行请求操作。

实现方法！

针对方法1，我们只要从在浏览器获取cookie，然后带着cookie进行访问就行了，如下：

利用chrome的开发者工具获取cookies

d5c67999288f

获取cookies

填写cookies cookies = {'cookie':'红框部分'}

带cookies发起请求：html = requests.get(url,cookies=cookies).content

针对方法2，我们使用requests的Session类进行持久连接，就直接上代码了哦

#导入必要的库

import requests

from bs4 import BeautifulSoup

url = 'https://www.zhihu.com/#signin'

session = requests.Session() #实例化Session

wb_data = session.get(url).text

soup = BeautifulSoup(wb_data,'lxml')

# 填写登录表单

xsrf = soup.select('input[value]')[-1].get('value')

data = {

'_xsrf': xsrf,

'password': 'your password',

'remember_me': 'true',

'email': 'your email'

}

# 提交表单

log_post =session.post('http://www.zhihu.com/login/email', data=data)

url = 'https://www.zhihu.com/'

test = session.get(url)

wb_data = BeautifulSoup(test.text, 'lxml')

# 检验是否成功登录

wb_data.select('#feed-0 > div.feed-item-inner > div.feed-main > div.feed-content > h2 > a')

结语

HTTP持久链接和Cookies其实没有冲突，虽然我说是两种方法，但是你可以在使用cookies免提交表单登陆的时使用Session，这样只需要第一次get的时候带上cookies，剩余操作就不需要cookies了。

但是我使用cookies发现还是不能变成登陆状态，我也是很忧伤。但是你可以在模拟登陆后，然后取得cookies信息，用获得的cookies登陆，不过这就失去用cookie免登陆的价值了。

当我用jupyter notebook发现无法使用cookie让服务器认识我，当我用命令行时候，同样的代码反而没有问题，我无奈了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫模拟扫码登录_Python爬虫基础-模拟登陆的相关文章

request python_Python request使用方法及问题总结

一总结说明模拟postman访问接口 xff0c 具体参照七 python接口开发 xff08 二 xff09 gt gt 三 postman访问接口本篇文章调用的接口 xff0c 也是来自于接口开发的源码 xff0c 阅读本篇文章最
rtk定位权限_RTK定位原理概述

精品文档一 RTK 定位原理概述 RTK 测量利用的是载波相位差分 GPS 技术来实时定位的 xff0c 正是凭借差分改正和载波相位测距两种测量方法才使得动态定位的精度可以达到厘米级差分 GPS 技术是利用了基准站与流动站之间空间的
给视频加字幕HTML代码,给Html5视频播放器添加字幕

现在各种支持HTML5的浏览器都能够播放html5视频了 xff0c 但是对于字幕的支持却很少 xff0c 我们期待像DVD那样强大的字幕往往我们还不得不通过js来做 xff0c 着实是一件痛苦的事情现在IE10率先对HTML5 Vid
cmake 指定头文件路径_CMake教程（一）

CMake官方文档 xff1a https cmake org cmake help v3 17 guide tutorial index html adding system introspection step 5 CMake的优点高
Adam优化器

Adam优化算法是一种对随机梯度下降法的扩展简单来说 xff0c Adam是带动量的梯度下降算法和RMSProp算法的结合对梯度的一阶矩估计 xff08 First Moment Estimation xff0c 即梯度的均值 xff0
C++输入至回车结束

之前比赛被这个小问题难住了 xff0c 好坑啊其实很简单 xff1a while cin gt gt a if cin get 61 61 39 n 39 break 举例 xff1a include lt bits stdc 43 43
c语言单片机串口通讯,单片机C语言之串口通信协议

串口通信概述串口通信指串口按位 bit 发送和接收字节尽管比按字节 byte 的并行通信慢 xff0c 但是串口可以在使用一根线发送数据的同时用另一根线接收数据常用三种串口通信协议 1 RS 232 RS 232 ANSI EIA 2
51单片机如何跳出wile循环_单片机C语言之串口通信协议（代码分享）

原标题 xff1a 单片机C语言之串口通信协议代码分享现实生活中 xff0c 我们总是要与人打交道 xff0c 互通有无单片机也一样 xff0c 需要跟各种设备交互例如汽车的显示仪表需要知道汽车的转速及电动机的运行参数 xff0c
http协议get方法服务器,解析HTTP协议六种请求方法

1 GET 2 HEAD 3 PUT 4 DELETE 5 POST 6 OPTIONS 抛砖引玉 xff0c 聊下概念性的东西先 xff1a HTTP协议 Hyper Text Transfer Protocol HTTP是一个基于TCP
c语言printf输出带符号,输出字符串用什么符号-C语言怎么用printf输出字符串。

C语言怎么用printf输出字符串 void main unsigned char x 61 34 ab sdf sad 23432 cc 34 data 61 x printf 34 data 61 c n 34 data printf
postman需要激活吗_1-3 Postman 注册账号与登录

1 为什么要注册postman账号注册postman账号是免费的当注册并登陆一个postman账号后 xff0c 用户可以获得如下权限 1 同步和备份历史 xff0c 集合 xff0c 环境 xff0c 和预置头 2 可以轻松的处理来自
C语言h文件可以定义变量吗,C语言h文件头中的变量初始化

很多时候 xff0c C程序员需要在文件头中初始化变量 xff0c 如果没有好的宏定义方式 xff0c 往往会导致多个文件引用时 xff0c 出现大量编译错误以下C文件头定义方式 xff0c 可以很好避免这些错误出现 xff1a 1 编
有的歌声音大有的歌声音小_一招搞定，动圈麦克风录音/直播，声音小的问题...

子 xff0c 曾曰过 xff1a 一分钱 xff0c 一分货 xff0c 便宜没好货鲁迅先生却教导我们说 xff1a 贵的 xff0c 不一定就是对的比如 xff0c 某宝热卖的专业录音直播套装 xff1a 雅马哈AG03声卡 xf
static

存储类定义 C 43 43 程序中变量函数的范围 xff08 可见性 xff09 和生命周期一般存储类都是auto static存储类和auto的区别是 xff1a 1 局部变量生命周期改变成程序生命周期 2 全局变量的作用域在本文件内
ubuntu命令行启动浏览器_如何在Ubuntu命令行下管理浏览器书签

浏览器书签虽然不常被提及 xff0c 但是作为互联网浏览的一部分没有好的书签功能 xff0c 网站链接可能会丢失 xff0c 下次再不能访问这就是为什么一个好的书签管理器很重要所有的现代浏览器都提供了一些形式的管理工具 xff0c 虽
python如何使用session和cookie_python中requests模拟登录的三种方式(携带cookie/session进行请求网站)...

一 xff0c cookie和session的区别 cookie在客户的浏览器上 xff0c session存在服务器上 cookie是不安全的 xff0c 且有失效时间 session是在cookie的基础上 xff0c 服务端设置ses
【05】nn.Module模块使用

1 nn Module模块使用 nn Module是对所有神经网络提供一个基本的类我们的神经网络是继承nn Module这个类 xff0c 即nn Module为父类 xff0c nn Module为所有神经网络提供一个模板 xff0c
c语言累加和校验_累加和校验算法（CheckSum算法）

因为外界总会对电路存在或多或少的干扰 xff0c 对于数字信号 xff0c 很可能导致传输的数据出现千差万别对于很多需要传输数据的场合 xff0c 尤其是一些数据可能会影响一些硬件的动作诸如嵌入式的一些设备机器人等 xff0c 错误的
studio one 3 机架声道设置_雅马哈UR242声卡宿主机架直播跳线设置

雅马哈 Yamaha UR242声卡搭载宿主机架做直播或实时K歌 xff0c 有两个方案 xff0c 1 使用雅马哈UR242声卡内置的DSP效果器 xff0c 并开启内录功能 xff0c 这个不需要机架 xff0c 直接在雅马哈UR242
公文字体字号标准2020_公文排版常识

公文页边距一般如何设置上37mm 下35mm 左28mm 右26mm详公文版式按照党政机关公文格式国家标准执行公文用纸采用国际A4型纸幅面尺寸210mm 297mm 天头上白边为37mm 1mm 订口左白边为28mm 1

随机推荐

提取某一个镇的行政边界_高德地图api获取行政边界矢量方法

高德地图api获取行政边界矢量方法发布时间 xff1a 2018 09 07 17 51 浏览次数 xff1a 2170 标签 xff1a api 1 获取高德地图web服务key 2 行政区域查询API服务地址 xff1a https
matlab上机绘图实验心得,matlab实验心得总结

matlab实验心得总结由会员分享 xff0c 可在线阅读 xff0c 更多相关 matlab实验心得总结 2页珍藏版请在人人文库网上搜索 1 通过matlab仿真实验使我学习掌握了许多知识首先是对matlab有了一个全新的认识 xf
计算机无法安装u盘驱动,Win7提示“无法成功安装设备驱动程序”，解决无法安装USB驱动程序的问题！...

在许多情况下 xff0c 计算机无法正常使用USB闪存驱动器 xff0c 并且这并不总是操作系统的问题许多单位需要计算机安全性和信息保密性他们通常通过注册表禁用USB接口 xff0c 通过注册表禁用USB闪存驱动器 xff0c 并屏蔽U
天思 t8 服务器没有文件信息,天思T8标准版用户手册.pdf

天思T8标准版用户手册天思 T8 管理系统标准版天思 T8 企业管理系统用户手册标准版天思软件集团天思集团第 1 页天思 T8 管理系统标准版著作权声明天思 T8 软件已在国家版权局注册了著
ajax 跨域请求 before,前后端分离，ajax跨域请求，2次请求

参考 https blog csdn net charleslei article details 51906635 https blog csdn net kejmln article details 51350777 开发过程中 xff
app的ajax请求数据,ajax请求从app engine获取数据

为noob问题提前道歉您好 xff0c 如何使用jQuery ajax从appengine服务器的Python端获取数据 xff1f 我知道如何使用ajax和适当的处理程序将数据发送到服务器 xff0c 但我想知道是否有人可以告诉我aja
c++primer plus和c++primer区别_C++ Primer第十章言

来源 xff1a 牛客网作者 xff1a 苍井玛利亚 C 43 43 Primer 泛型算法我们前一章学习了容器 xff0c 不知道你有没有发现 xff0c 其实容器是一个模板类 xff0c 就是说在类的上面还有一层 xff0c 看下面这
PointNetGPD代码复现

0 安装分析 ps 应该安装pcl1 9 43 tk8 1 这个导致后面python pcl改了配置 Ubuntu版本pcl版本vtk版本18 041 9 18 2 0 1 pcl1 9安装 1 1 安装依赖 sudo apt get up
python调用命令行并实时显示返回值_python中subprocess.Popen执行命令并持续获取返回值...

先举一个Android查询连接设备的命令来看看Python中subprocess Popen怎么样的写法用到的命令为 adb devices import subprocess order 61 39 adb devices 39 获取连
地铁供电系统原理图_高铁、地铁、火车供电工作原理

其实简单点说和电力如何给你家提供电力途径是一样的 xff0c 都绕不开输配电只不过家庭用电 xff0c 输配电都是国家电网给干了个人理解 xff0c 铁路供电系统中 xff0c 供电部门铁路局的供电段和地铁的机电中心负责了配电部分
python元组添加元素_Python数据类型之元组

1 元组的定义 xff1a 元组的创建只需要在括号中添加元素即可创建元组 xff0c 元素之间是有逗号分隔开元组与列表相似 xff0c 不同之处在于列表是可变对象 xff0c 而元素是不可变对象 xff0c 即元组一旦创建之后 x
flexnet licensing service下载_Abaqus 2016 软件下载地址及安装教程

目前100000 43 人已关注加入龙跃系统软件介绍名称 xff1a Abaqus 2016 64位大小 xff1a 5GB 语言 xff1a 简体中文安装环境 xff1a Win7 Win8 Win10 ABAQUS 是一套功能强
圣才电子书怎么提取pdf_PDF处理经验分享

案例效果预览 xff1a 使用到的工具有 xff1a PdfPatcher xff0c Adobe Acrobat xff0c ComicEnhancerPro xff0c Freepic2Pdf xff0c PDFXEdit xff0c
传奇gm命令怎么用_热血传奇1.76gm口令大全介绍

原标题 xff1a 热血传奇1 76gm口令大全介绍热血传奇1 76gm口令是什么 xff1f 热血传奇1 76gm口令大全介绍 xff01 很多玩家都在找传奇的GM命令 xff0c 不知道传奇的GM命令是什么小编在这里为大家整理了传奇
服务器配置虚拟kvm功能,服务器配置虚拟kvm功能

服务器配置虚拟kvm功能内容精选换一换使用外部镜像文件创建私有镜像时 xff0c 以上相关步骤操作需要在虚拟机内部完成 xff0c 强烈建议您在原平台的虚拟机实施修改后 xff0c 再导出镜像使用Windows外部镜像文件创建私有
云服务器不需要网站吗,网站不用云服务器可以吗

网站不用云服务器可以吗内容精选换一换在云服务器上搭建网站后 xff0c 部分客户通过本地网络访问网站时出现偶发性无法访问的情况确认客户使用的本地网络若客户的本地网络是NAT网络本地主机通过NAT功能使用公网IP地址访问弹性云服务
与web服务器安全通信所用的协议缩写,WebSocket通信协议应用安全问题分析

51CTO活动 8 26 带你深度了解清华大学搜狗基于算法的IT运维实践与探索 WebSocket是HTML5开始提供的一种浏览器与服务器间进行全双工通讯的网络技术 WebSocket通信协议于2011年被IETF定为标准RFC 6455
关联分割点云中的实例和语义＜论文＞

题目 xff1a Associatively Segmenting Instances and Semantics in Point Clouds 代码 xff1a https github com WXinlong ASIS 文章讨论 x
python2和pytho3切换_Ubuntu环境下python2和python3切换

问题 xff1a Ubuntu环境下python2和python3的切换问题环境 xff1a Ubuntu16 04 Ubuntu自带python2 xff0c 有时候需要使用pytho3 该如何切换呢 xff1f 使用 update a
python爬虫模拟扫码登录_Python爬虫基础-模拟登陆

为什么我们要让爬虫模拟登陆呢 xff1f 有些内容只有登陆才能进行爬取 xff0c 如知乎 xff0c 不登录的主页只能看到注册和登陆 xff1b 你想爬取自己的个人信息有什么方法呢 xff1f cookie 在互联网发展的早期 xff0

python爬虫模拟扫码登录_Python爬虫基础-模拟登陆

python爬虫模拟扫码登录_Python爬虫基础-模拟登陆 的相关文章

随机推荐

热门标签

python爬虫模拟扫码登录_Python爬虫基础-模拟登陆的相关文章