Python爬虫（入门+进阶）学习笔记 1-6 浏览器抓包及headers设置（案例一：爬取知乎）

2023-11-09

爬虫的一般思路：

抓取网页、分析请求
解析网页、寻找数据
储存数据、多页处理

本节课主要讲授如何通过谷歌浏览器开发者工具分析真实请求的方法。

寻找真实请求的三个步骤

分析：使用谷歌浏览器开发者工具分析网页的请求
测试：测试URL请求中每个参数的作用，找出控制翻页等功能的参数

重复：多次重复寻找符合爬虫需要的真实请求

实战环节：爬取知乎

通过爬取知乎“轮子哥”——vczh关注的人分析Ajax或者JavaScript加载的数据的真实请求并展示这种爬取方法的具体过程。

1. 寻找真实请求的测试

首先，进入“轮子哥——vczh”关注的人的页面（注意：需要先登录个人知乎账号）

通过禁止JavaScript加载的方法发现页面不能正常加载，确认该页面的翻页是通过JavaScript加载数据实现的

使用谷歌浏览器开发者工具寻找包含关注人信息的真实请求，可以发现真实请求是以“followees”开头的请求，其返回一个JSON格式的数据，该数据对应下一页的“他关注的人”：

双击这个请求，返回一个JSON格式的数据，可以通过安装JSONView插件在浏览器中更好地显示该数据

接下来便可以尝试爬取该请求的数据

2. 尝试爬取真实请求的数据

首先使用前几节课所学requests.get()尝试爬取数据

可以发现返回了“500 Server Error”，即由于网站反爬虫的原因，服务器返回了“500服务错误”

该问题可以通过添加hearders请求头信息解决

3. 添加hearders请求头信息模拟浏览器访问

请求头信息承载了关于客户端浏览器、请求页面、服务器等相关的信息，用来告知服务器发起请求的客户端的具体信息

知乎的反爬虫机制是通过核对请求头信息实现的，所以需要在使用requests请求数据的时候加上所需的请求头

对比知乎的请求头信息和常见的请求头信息，发现知乎请求头多了authorization和X-UDID的信息

在爬虫程序中添加请求头信息，即添加headers

# -*- coding:utf-8 -*-

import requests

headers = {
   'authorization':' ', #括号中填上你的authorization
   'User-Agent':' ', #括号中填上你的User-Agent
}
url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=20&limit=20'
response= requests.get(url, headers = headers).json()

print(response)

最终代码：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Tue Mar 20 16:01:47 2018

@author: Jackie
"""

import requests
import pandas as pd
import time

headers = {
        'authorization':'Bearer 2|1:0|10:1519627538|4:z_c0|92:Mi4xYzBvWkFBQUFBQUFBSU1JaTVqRU1EQ1lBQUFCZ0FsVk5FdnVBV3dEdHdaRmtBR1lmZEpqT3VvdmtpSm5QMWtkZ1ZB|787597598f41757929f46f687f78434dbc66d6abc980e40fb50b55cd09062b07',
        'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
        'x-udid':'ACDCIuYxDAyPTg7eVnDe8ytVGX6ivGdKZ9E=',
        }


user_data = []

def get_user_data(page):
    
    for i in range(page):
        url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
        response = requests.get(url, headers = headers).json()['data']
        user_data.extend(response)
        print('正在爬取第%s页' %str(i+1))
        time.sleep(1)
    
    
if __name__ == '__main__':
    get_user_data(3)
    df = pd.DataFrame(user_data)
    df.to_csv('users.csv')

补充知识

1. JSON

JSON是一个轻量级的数据交换格式，连接API进行数据爬取的时候，数据的一般返回格式为JSON。

JSONView插件：前往Chrome JSONView插件安装，下载并安装JSONView插件，使JSON格式的数据在谷歌浏览器中更好地呈现

2. HTTP请求

HTTP请求方法：阅读HTTP请求方法，学习HTTP的GET和POST请求方法，了解其它请求方法

HTTP Hearders：阅读HTTP响应头和请求头信息对照表，了解请求头和响应头的概念以及每个Header所代表的具体含义

Headers模拟登录知乎：阅读爬虫入门到精通-headers的详细讲解（模拟登录知乎），学习具体使用Headers模拟登录的方法

更多关于requests headers的用法，可以查阅requests的官方文档

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫（入门+进阶）学习笔记 1-6 浏览器抓包及headers设置（案例一：爬取知乎）的相关文章

键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

斜率优化

如果转移方程中含有既有i 的项又有j的项往往可以考虑斜率优化斜率优化的目标是将dp式转化为 y kx b 这种形式 P3195 HNOI2008 玩具装箱TOY 题意有1 n个玩具需要打包每个玩具的有其长度可以一段区间一段区间地
珍藏多年的各类资源网站分享给大家

学习网站素材巷这个应该有少数人知道吧是我近几年来第一次遇到这样的网站一个专注于分享文字素材的分享平台涵盖文学范围广包含散文小说诗词戏曲科普天文地志阴阳医卜僧道技艺高考作文等网址素材巷文字写作素材分享平
Unity3d接入googleplay内购详细说明（二）

因为本文内容比较多整理花费时间比较长故分几篇完成以下为本文目录结构方便查阅 Unity3d接入googleplay内购详细说明一引言一准备条件二谷歌开发者后台应用创建说明 Unity3d接入googleplay内购详细说
《Python进阶系列》二：Python中的 for-else 语法

for else 语法你是否见过这个语法 for i in xxx pass else pass 是不是一脸懵逼啊哈哈哈事实上在 Python 中 else不仅可以与 if搭配使用还可以与 for结合想不到吧我们先来看一个例子
结合ruoyi-cloud和ruoyi-app实现微信小程序的授权登录

文章目录 1 前言 1 1 环境准备 1 2 登录流程图 2 小程序代码 2 1 RuoYi App编辑api login js 2 4 新增按钮微信授权登录 2 6 新增wxHandleLogin方法获取code 2 9 创建sendWx
重置计算机的本地策略,Win10怎样重置组策略/安全策略

很多windows10系统用户都会使用注册表或组策略来深度调试系统这些系统自带工具虽然能够实现一些表面上没有的功能但也可能会让我们翻车对于注册表来说修改之前做好备份是硬道理恢复起来也很方便但对于组策略和安全策略要如何才能恢复
wxPython 菜单栏工具栏状态栏

coding utf 8 Created on Mon Jun 10 03 56 09 2019 QQ群 476842922 欢迎加群讨论学习 author Administrator coding utf 8 import wx impo
RN_iOS项目部署流程实例

文章目录 1 环境配置 1 1 安装node 1 2 安装Watchman 1 3 安装npm 1 4 安装cocoapods 2 百家云demo下载 3 运行百家云demo 3 1 顺利的话 3 2 踩过的坑按这个目录流程走 3 2 1
如何使用Flask包构建网页

最近接到的任务是用Flask构建简单的算法成果展示网页所以才来研究如何用flask构建网页因为要求展示对前端页面的美化不做要求所以这篇博客的重点在于页面之间的跳转及前后端的数据传输 1 Flask运行HTML代码默认情况下 Fla
C语言例题总结一

目录一两数交换的多种方法二比较两数大小的多种方法三在重复的数字中找出不同的数字 1 在重复的数字中找出一个不同的数字 2 在重复的数字中找出两个不同的数字一两数交换的多种方法第一种引入第三方变量利用了指针将地址传进去
solidworks大型装配体慢卡顿怎么办?来看专业的装配设计与仿真工作站是怎么解决的!

相信很多CAD专业领域的设计工程师都或多或少的遇到慢卡顿的情况按照网上各种设置一通问题依旧换成昂贵的双路品牌图形工作站依然得不到改善那么问题到底出在哪儿下面就依Solidworks为例从三维设计与仿真的特点来分析软件如何与硬件
IEEE Transactions的模板中，出现subfig包和fontenc包冲突的问题，怎么解决？

IEEE Transactions的模板中出现subfig包和fontenc包冲突的问题怎么解决本文章记录如何在IEEE Transactions的模板中出现了subfig包和fontenc包冲突的问题该怎么解决目录 IEEE
【C#排序算法】（三）希尔排序

希尔排序核心定义增量序列不断递减增量至1 做插入排序 public void ShellSort int arr 增量h 等于1时最后一次排序 int h arr Length 2 while h gt 1 这里开始是简单插入排序算法
C# 整套视觉开发(VisionAndMotionPro)

实例截图文件 590m com f 25127180 488329759 5989d1 访问密码 551685 核心代码 VisionAndMotionPro sln vs VisionAndMotionPro v14 v15 Serve
为了对抗内卷，我去阿里“偷了”五套最新Java学习笔记

最近整理了阿里五套最新的笔记分别是Java后端30大核心知识点总结 2022最近金三银四面试题总结阿里巴巴Java开发规范手册 2022版 Spring Cloud Alibaba全解阿里巴巴机器学习算法集合今天分享的内容很多老师
01.03第一篇之数据生成模块

第3 章数据生成模块 3 1 埋点数据基本格式公共字段基本所有安卓手机都包含的字段业务字段埋点上报的字段有具体的业务类型下面就是一个示例表示业务字段的上传下面就是一个示例表示业务字段的上传 ap xxxxx 项目数据来源
Audio Moth代码总结

1 HFLE的定义 HFLE是指高频时钟分频器预分频器 High Frequency Low Energy Clock Divider Prescaler 在低功耗模式下为了节省能量系统需要使用低频时钟 LFCLK 来驱动一些模块如
linux 线程局部存储,tls_windows

线程局部存储线程局部存储 thread local storage TLS 是一个使用很方便的存储线程局部数据的系统利用TLS机制可以为进程中所有的线程关联若干个数据各个线程通过由TLS分配的全局索引来访问与自己关联的数据这样每个
v-model绑定checkbox无法动态更新视图

在vue2中使用v model绑定checkbox
Python爬虫（入门+进阶）学习笔记 1-6 浏览器抓包及headers设置（案例一：爬取知乎）

爬虫的一般思路抓取网页分析请求解析网页寻找数据储存数据多页处理本节课主要讲授如何通过谷歌浏览器开发者工具分析真实请求的方法寻找真实请求的三个步骤分析使用谷歌浏览器开发者工具分析网页的请求测试测试URL请求中每个参数的