python爬虫怎么登陆_python爬虫scrapy之登录知乎

2023-05-16

下面我们看看用scrapy模拟登录的基本写法：

注意：我们经常调试代码的时候基本都用chrome浏览器，但是我就因为用了谷歌浏览器(它总是登录的时候不提示我用验证码，误导我以为登录时不需要验证码，其实登录时候必须要验证码的)，这里你可以多试试几个浏览器，一定要找个提示你输入验证码的浏览器调试。

1、我们登录的时候，提示我们输入验证码，当验证码弹出之前会有个请求，我们打开这个请求，很明显，type是login，验证码无疑了,就算是看请求的因为名，你也应该知道这个就是验证码的请求，或者打开这个验证码的请求url，这。

验证码的图片，悲惨了，这怎么整。别着急。。

2、验证码提示我们要点击倒着写的字体，这。。。，爬虫和反爬虫就是无休止的互相折磨。这明显就是上面那个图片的信息。

3、机智的我，发现验证码的请求参数里面有三个参数，r是一个13位的数字，type是登录用的，lang很可疑，改改它，把cn给他改成en。mygod这不也是验证码么，就试试它了。

4、页面基本登录原理分析完了，我们接下来看看代码怎么写，首先我们重构scrapy的start_requests方法(有scrapy基础的同学都知道，这个名字可不是瞎写的)。

5、分析这个验证码的请求连接，https://www.zhihu.com/captcha.gif?r=1511878790500&type=login&lang=en，这里面都可以固定，但是这个验证码肯定不行，13位的数字，果断想到了当前时间

最后，我们要请求这个url，这里必须要加上请求头信息，callback就是下面你要执行的方法。

def start_requests(self):

'''

1、首先构造并抓取登录需要提交的验证码

:return:

'''

t = str(int(time.time() * 1000))

captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=en'.format(t)

return [scrapy.Request(url=captcha_url, headers=self.header, callback=self.parser_captcha)]

6、上面请求完成后，就会将请求结果直接返回个下面的这个方法，所以它必须有个形式参数，来接收请求的结果，首先我们将请求的的结果，其实就是刚才我们看到的那个图片，图片的信息就在body里面，直接将整个body存成一个文件，然后我这里用的是Image打开我们存入的文件，文件都给你打开了，你还不得看看输入一下(如果你有云大码平台的服务，就直接让云大码平台搞定就行)，这里我们只能自己看自己输入了。搞完了验证码，我们现在准备开始登陆，这里可不是直接用登陆的url登陆就行，你仔细的话还有个xrsf参数需要我们获取，那就请求的url直接就是登陆页面，注意你的头部信息，不伪装一下，立马给你请求出错。callback就不说了吧。这需要注意的就是，这直接把验证码存入了scrapy的meta里面了。

def parser_captcha(self, response):

'''

1、根据start_requests方法返回的验证码，将它存入本地

2、打开下载下来的验证码

3、这里是需要手动输入的，这里可以接入打码平台

:param response:

:return:

'''

with open('captcha.jpg', 'wb') as f:

f.write(response.body)

f.close()

try:

im = Image.open('captcha.jpg')

im.show()

im.close()

except:

pass

captcha = input("请输入你的验证>")

return scrapy.FormRequest(url='https://www.zhihu.com/#signin', headers=self.header, callback=self.login, meta={

'captcha': captcha

})

7、下面我们来搞定xsrf参数，这里我用xpath，一句话搞定，下面就是post_url就是上面phone_num请求里面的url，也是真正意义上的post提交登录信息的url。因为我们已经把验证码放进了meta里面了，所以这里直接获取就行。基本登录信息伪装完成以后，开始提交登录信息，登录完成以后，我们设置一个callback回调方法，检查一下登录信息。

def login(self, response):

xsrf = response.xpath("//input[@name='_xsrf']/@value").extract_first()

if xsrf is None:

return ''

post_url = 'https://www.zhihu.com/login/phone_num'

post_data = {

"_xsrf": xsrf,

"phone_num": '你的账户名称',

"password": '你的账户密码',

"captcha": response.meta['captcha']

}

return [scrapy.FormRequest(url=post_url, formdata=post_data, headers=self.header, callback=self.check_login)]

8、上面请求完成以后，会返回我们一个字典，这里我们判断一下是否登录成功，如果登录成功以后，就执行我们start_urls里面的url地址，因为已经登录成功了，所以这里我们的start_urls就是https://www.zhihu.com,这样我们就可以再parse方法里面继续解析我们登录后的html信息了。

def check_login(self, response):

js = json.loads(response.text)

print(js)

if 'msg' in js and js['msg'] == '登录成功':

for url in self.start_urls:

print(url)

yield scrapy.Request(url=url, headers=self.header, dont_filter=True)

else:

print("登录失败，请检查！！！")

代码如下：

import json

import scrapy

import time

from PIL import Image

class ZhihuloginSpider(scrapy.Spider):

name = 'zhihu_login'

allowed_domains = ['zhihu.com']

start_urls = ['https://www.zhihu.com/']

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,'

' like Gecko) Chrome/62.0.3202.94 Safari/537.36',

}

def parse(self, response):

#主页爬取的具体内容

print(response.text)

def start_requests(self):

'''

1、首先构造并抓取登录需要提交的验证码

:return:

'''

t = str(int(time.time() * 1000))

captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=en'.format(t)

return [scrapy.Request(url=captcha_url, headers=self.header, callback=self.parser_captcha)]

def parser_captcha(self, response):

'''

1、根据start_requests方法返回的验证码，将它存入本地

2、打开下载下来的验证码

3、这里是需要手动输入的，这里可以接入打码平台

:param response:

:return:

'''

with open('captcha.jpg', 'wb') as f:

f.write(response.body)

f.close()

try:

im = Image.open('captcha.jpg')

im.show()

im.close()

except:

pass

captcha = input("请输入你的验证>")

return scrapy.FormRequest(url='https://www.zhihu.com/#signin', headers=self.header, callback=self.login, meta={

'captcha': captcha

})

def login(self, response):

xsrf = response.xpath("//input[@name='_xsrf']/@value").extract_first()

if xsrf is None:

return ''

post_url = 'https://www.zhihu.com/login/phone_num'

post_data = {

"_xsrf": xsrf,

"phone_num": '你的账户名称',

"password": '你的账户密码',

"captcha": response.meta['captcha']

}

return [scrapy.FormRequest(url=post_url, formdata=post_data, headers=self.header, callback=self.check_login)]

# 验证返回是否成功

def check_login(self, response):

js = json.loads(response.text)

print(js)

if 'msg' in js and js['msg'] == '登录成功':

for url in self.start_urls:

print(url)

yield scrapy.Request(url=url, headers=self.header, dont_filter=True)

else:

print("登录失败，请检查！！！")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫怎么登陆_python爬虫scrapy之登录知乎的相关文章

解决编译BALM过程中找不到livox_ros_driver文件的问题

编译github上的代码BALM时出现了找不到 34 livox ros driver 34 的错误在此之前已根据说明编译成功了livox ros driver 尝试了 1 在CMakeLists文件中添加 34 livox ros dr
记录编译测试LVI-SAM遇到的问题（附测试数据百度云下载链接）

在测试开源的视觉雷达 IMU紧耦合的工作LVI SAM时遇到一些问题 xff0c 在此记录 xff1a 参考博客 xff1a https blog csdn net learning tortosie article details 11
LLA（经纬高）坐标转换成ENU（东北天）坐标的详细推导

这是一篇经纬高 xff08 LLA xff09 坐标转东北天坐标 xff08 ENU xff09 的详细推导 xff0c 并给出近似转换的过程和结果参考资料 xff1a https blog csdn net qq 34213260 ar
编译calibration_publisher时遇到关于opencv的报错

在ubuntu18 04系统上编译calibration publisher这样一个ROS package时遇到如下报错 xff1a undefined reference to 96 cv read span class token pu
matlab使用plot画图时隐藏坐标轴的方法

https blog csdn net qq 43625266 article details 104729284 在代码中画图时输入axis off或者画完图后在工作区直接输入axis off
rosrun找不到catkin_make生成的可执行文件

ros package编译 catkin make 成功后运行source devel setup bash 发现rosrun无法tab出生成的可执行文件但是进入build 目录找到生成的可执行文件手动运行正常针对这一问题参考博
从git主分支创建新分支进行开发的流程及需要注意的问题

在实际开发过程中可能需要从git的主分支创建新分支以满足不同功能的开发需要与版本管理 xff0c 下面记录从git的主分支默认为master 创建新分支进行开发的步骤 xff1a 查看当前所在分支 xff1a span class tok
解决PCL报错: Assertion `point_representation_-＞isValid (point) && “Invalid (NaN, Inf) point coordinates

参考资料 https github com PointCloudLibrary pcl blob master kdtree include pcl kdtree impl kdtree flann hpphttps blog csdn n
导航中姿态角与欧拉角的联系

先引用教科书中的一段关于姿态角的定义 Note 请仔细理解三个姿态角的定义需要注意的是航向角 yaw 与俯仰角 pitch 与当地水平面有关而横滚角 roll 的定义与水平面无关这样就比较容易理解当导航系和载体系的轴向确定后姿态角对
pythoncqt_python基础篇

python脚本开头 usr bin env python coding utf 8 print 34 你好 xff0c 世界 34 不要问为什么 xff0c 记住就好了变量定于的规则变量名只能是字母数字或下划线的任意组合变量名的第
Python线程超时自动终止 | Python利用ThreadPoolExecutor实现对多线程的超时自动终止 | Python3实现单线程超时自动强制停止

文章目录 1 按2 实测代码 1 按 Python多线程适用于IO密集型的应用场景 xff0c 与进程不同的是多线程对计算机资源的占用较少对于Python自带的模块 xff0c threading未实现线程池 xff0c concurre
stm32网页数据交互_STM32单片机开发之利用USART串口实现与电脑的命令交互

1 功能需求利用USART串口实现电脑与STM32单片机的命令交互类似Linux系统一样的shell功能 xff0c 通过这个功能掌握STM32单片机USART串口的基本用法 xff0c 具体我们实现以下功能 xff1a 读取STM32
网关和路由器的区别_5G工业路由器与5G DTU的区别介绍详解

5G工业路由器和5G DTU都是实现无线网络数据传输功能 xff0c 而两者间的区别主要从使用方法外观接口以及应用环境等方面区分 xff0c 今天给大家介绍5G工业路由器和5G DTU的一些不同点使用方法的不同 5G工业路由器 xff1
c语言 json 请求_用C语言实现简单的HTTP数据请求

转载或者引用本文内容请注明来源及原作者 xff01 前言之前在做嵌入式开发时遇到一个项目 xff0c 需要用http与服务器通信 xff0c 移植了一个http库 xff0c 编译后发现固体太大 xff0c flash都差点不够放了 xf
visca协议_云台控制协议VISCA、PELCOD、PELCOP

云台控制协议VISCA PELCO D PELCO P 1 VISCA部分协议命令控制命令格式备注预置点清除预置点8X 01 04 3F 00 ZZ FFX 61 1 7 8是广播码 xff0c 下同 xff1b ZZ 61 00 3F
.net 网络调试助手源码_Mac编译openjdk源码

一前言以Java为主的研发人员 xff0c 掌握JVM虚拟机是成为高级研发的必要门槛本文就给大家分享下 xff0c 如何在mac下编译openjdk源码题外话 xff0c 本人认为 xff1a 要想成为某一技术上的专家 xff0c
linux下c语言http服务器 https_IPV6下NAS的Linux防火墙配置+HTTPS反向代理配置

系统 xff1a Openmediavault5 OMV5 Debian10 防火墙配置 UFW是为了轻量化配置iptables 而开发的一款工具安装UFW防火墙 sudo apt install ufw 启用UFW防火墙 sudo uf
请领导审阅并提意见应怎么说_?公文理论篇№7｜掌握四大“窍门”，让你写出让领导满意的文稿...

文章来源 xff1a 如椽巨笔微信公众号如椽巨笔将陆续为大家推出公文理论篇公文基础篇公文技巧篇公文实践篇四大系列经典文章 xff0c 这对提高文友的公文写作水平大有裨益是为荐公文理论篇讲授基本理论 xff0c 如 xff1a
vmware安装_vmware怎么安装安卓系统 vmware 怎么装安卓系统

vmware虚拟机是一款虚拟PC软件 xff0c 可以用它在电脑上运行第二个系统而且现在虚拟机不仅能够安卓Windows系统 xff0c 同时也可以安装安卓系统那么vmware该怎么安装安卓系统呢 xff1f 接下来小编就给大家带来vm
logistic回归_stata速学|logistic回归分析

NO 07 ZEYI 06 2020 正文共 xff1a 2010字 28图预计阅读时间 xff1a 6分钟嘿喽 xff0c 我是则已这是stata的第七期学习前面学习了最小二乘回归分析 xff0c 非线性回归分析都要求因变量是连续

随机推荐

Win11关闭Windows Defender实时保护，暂时关闭和永久关闭方法 | Win10怎么永久关闭Windows Defender实时保护

文章目录 1 按2 暂时关闭Windows Defender实时保护3 永久关闭实时保护 1 按开启Windows Defender实时保护有时候会导致系统变得异常卡顿 xff0c 严重影响系统的流畅度 xff0c 并且由于会有几率错误拦
submodule切换分支_添加Git子模块时，如何指定分支/标记？

请注意如果你有现有子模不是跟踪一个分支然后如果你有git 1 8 2 43 确保父回购知道它的子模块现在跟踪一个分支 xff1a cd path to your parent repo git config f gitmodules su
python中divmod函数是什么意思_python中divmod是什么

https www php cn python tutorials html p 61 97 python中divmod是什么 xff1f 下面给大家带来divmod的相关介绍 divmod函数是Python的内置函数 xff0c 它可以把
服务器下修改mac地址吗,服务器下修改mac地址吗

服务器下修改mac地址吗内容精选换一换如果IP经过NAT WAF xff0c 则只能获取到NAT WAF转化后的IP地址 xff0c 无法获取到NAT WAF前的IP地址如果客户端为容器 xff0c 只能获取到容器所在主机的IP地址
炉石传说服务器维护有补偿吗,炉石传说维护补偿是什么？炉石维护补偿公布！...

下面为大家带来的是炉石传说维护补偿是什么 xff1f 炉石维护补偿公布 xff01 更多炉石传说精彩内容请关注17173炉石传说专区由于技术原因 xff0c 炉石传说服务器于14日 18之间崩溃并且数据丢失昨日 xff0c 暴雪网易官方
华硕电脑开启无线服务器,华硕ASUS路由器无线中继模式设置步骤图解

原标题 xff1a 34 华硕ASUS路由器无线中继模式设置教程 34 相关路由器设置经验分享来源路由器之家宽带路由器在一个紧凑的箱子中集成了路由器防火墙带宽控制和管理等功能 xff0c 具 34 原标题 xff1a 34 华硕A
HTTP I 认证用户身份的四种方法

目录一 BASIC认证 xff08 基本认证 xff09 二 DIGEST认证 xff08 摘要认证 xff09 三 SSL客户端认证四 FormBase认证 xff08 基于表单认证 xff09 认证用户身份时 xff0c 核对的信息
make c+++ 未定义的引用_Item21 优先使用std::make_unique和std::make_shared来代替new

std make shared是在 C 43 43 11中添加的一个专门用来创建智能指针的方法 xff0c 而不幸的是 std make unique在 C 43 43 11中并没有 xff0c 直到 C 43 43 14才引进来不过实现
python多线程实现异步_python多线程实现异步

import time from threading import Thread def long io cb def func callback print 34 开始耗时操作io 34 time sleep 5 print 34 io耗
getopt函数理解

getopt函数定义如下 include lt unistd h gt int getopt int argc char const argv const char optstring 相关的变量 extern char optarg ex
登录界面ui设计_UI界面的进度条设计！

进度条也被称为进度指示器向导剩余步骤通俗来讲 xff0c 进度条即程序在处理任务时 xff0c 实时的以图形形式显示处理任务进度速度剩余未完成量的界面元素一般以长条状呈现进度条可以让用户预估整个处理流程的速度状态 xff0c
python十六进制运算_十六进制字符串hexstr的计算

在面向比较底层的编程时 xff0c 界面和接口常常需要显示十六进制字符串 hexstr hexstr只包含0 9a f的字符 xff0c 本文汇总一些能够得到hexstr的计算方法 hex函数 hex函数是builtin的 xff0c 随手
python输入一串字符作为密码_Python字符串、集合练习_密码校验

校验密码是否合法 xff1a 1 输入一个密码要求长度在5 10位 xff1a len 2 密码里面必须包含 xff1a 大写字母 xff0c 小写字母和数字 xff1a 字符串方法或者集合 3 最多输入5次 xff1a for 用字符串方
ideaskin软件下载_Idea for android app

App idea generator free app for inspiring and giving idea to make an app This app will show three random words on the sc
西门子实数转整数_西门子PLC模拟量输入输出相关数据类型转换

PLC模拟量输入输出都会涉及到数据类型的互转问题 xff0c 然而西门子300系统对于数据格式有着明确的规定 xff0c 一般的四则运算都是在同一数据类型下才能进行的 xff0c 这也是一直以来困扰初学者的一个问题西门子300编程软件st
python所有单词首字母大写_在Python中将每个单词的首字母大写

在这里我们正在实现一个python程序来大写字符串中每个单词的首字母示例 Input nbsp HELLO nbsp WORLD Output nbsp Hello nbsp World 方法1 使用 title 方法 python程序
怎样选择虚拟服务器,怎样选择虚拟服务器

怎样选择虚拟服务器内容精选换一换由于通用型内存优化型II代的云服务器与通用型内存优化型I代的云服务器具有不同的虚拟化架构和不同的驱动类型 xff0c 所以通用型内存优化型I代云服务器创建的私有镜像需要经过优化才能用来创建II代云
绝地求生信号枪在什么服务器,绝地求生信号枪在哪捡绝地求生信号枪怎么用/有什么用...

本文导航第1页 xff1a 绝地求生信号枪有什么用怎么得绝地求生信号枪有什么用怎么得绝地求生信号枪在哪捡绝地求生信号枪怎么用有什么用 xff0c 除了追加表情动作系统与好友列表之外 xff0c 海外玩家意外发现在自定义游戏 C
服务器系统centos故障,服务器意外死机/centos7系统/提示内核故障/kernel: ERST: Can not request iomem region...

今天易秋网络老易遇到一个问题 xff0c 独立服务器意外死机 xff0c 显示内核有问题 xff0c 具体虽然还是没搞明白 xff0c 顺便找了找网上的教程 xff0c 大概是修改内核启动项grub xff0c 添加一个设置 xff0c 具
python爬虫怎么登陆_python爬虫scrapy之登录知乎

下面我们看看用scrapy模拟登录的基本写法 xff1a 注意 xff1a 我们经常调试代码的时候基本都用chrome浏览器 xff0c 但是我就因为用了谷歌浏览器它总是登录的时候不提示我用验证码 xff0c 误导我以为登录时不需要验证码

python爬虫怎么登陆_python爬虫scrapy之登录知乎

python爬虫怎么登陆_python爬虫scrapy之登录知乎 的相关文章

随机推荐

热门标签

python爬虫怎么登陆_python爬虫scrapy之登录知乎的相关文章