爬取拉勾网站出错，各位怎么处理的啊？

2023-10-27

需求确定

需求是数据分析的起点，在没有搞清楚需求的情况下，盲目的抓取一大把数据胡乱分析，最终得不出有用的结论。

本次数据分析的目的如下：

工作年限与薪资之间的关系
不同工作年限薪资水平变化规律
北京地区招聘数据分析师岗位公司的分布
招聘数据分析师的公司类型与薪资关系
数据分析师的岗位职责及要求
……

分析网页结构

打开拉勾网站，城市选择北京，输入数据分析师，进入数据分析师岗位招聘页面。

右键单击检查

如图，切换到需要的数据前面。

分析网页结构，可以找到请求代URL，表头等数据信息。

代码如下

import requests

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

# 从制定的url中通过requests请求携带请求头和请求体获取网页中的信息
def get_json(url, num):
    url1 = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
    headers = {
        'origin': 'https://www.lagou.com'
        'referer‘：’https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        'x-anit-forge-code': '0',
        'x-anit-forge-token': 'None',
        'x-requested-with': 'XMLHttpRequest'
    }
    data = {
        'first': 'true',
        'pn': num,
        'kd': '数据分析'}

    s = requests.Session()
    print('建立session: ', s, '\n\n')

    s.get(url=url1, headers=headers, timeout=3)
    cookie = s.cookies
    print('获取cookie: ', cookie, '\n\n')

    res =requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)
    res.raise_for_status()
    res.ending = 'utf-8'
    page_data = res.json()
    print('请求相应结果: ', page_data, '\n\n')
    
    return page_data

print(get_json(url, 1))

代码问题

代码出现了下面的问题，弄了半天都没有解决，有大佬能帮忙看一下么？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

python

爬虫

爬取拉勾网站出错，各位怎么处理的啊？的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

Colossal AI 并行技术

简介随着深度学习的发展对并行训练的需求越来越大这是因为模型和数据集越来越大如果我们坚持使用单 GPU 训练训练过程的等待将会成为一场噩梦在本节中我们将对现有的并行训练方法进行简要介绍如果您想对这篇文章进行补充欢迎在GitH
webpack实例解析五（用.env.development设置环境变量）

原理 1 利用node的fs模块读取文件处理成对象 2 用webpack DefinePlugin插件设置process env readEnv js const fs require fs const path require path
mfc100u.dll丢失的解决方法

mfc100u dll文件在一些计算机软件计算机游戏等程序的正常运行中起着关键作用用户经常对缺乏此类文件的弹出窗口感到困惑程序显然可以在上次正常运行突然弹出了缺乏dll文件的提醒窗口用户可以通过编辑文章轻松解决这类问题解决方案很
js 获取url携带参数

获取url 携带的参数比如URL url是这样的 HYQuotationsCard html ID 1 name 2 利用这个方法如何获取 var id GetUrlParam ID function GetUrlParam var u
请求参数获取

用户通过浏览器向服务器发送请求有get和post两种方式那么我们怎么获得提交的参数呢方式一 getQueryStringh 和getInputStream 1 get方式提交 System out println get方式提交 St
STM32 PCM1770调试

本文初步介绍了PCM1770配置方法与调试过程希望能起到抛砖引玉的作用 PCM1770是24位的DAC 支持I2S信号输入可直接驱动耳机也可加后级功放来驱动喇叭应用电压范围为 0 3V至4V 普通的3V3就可以如图1所示该DAC
Python Keras神经网络实现iris鸢尾花分类预测

Keras卷积神经网络实现iris鸢尾花分类预测正确率超过99 1 鸢尾花数据iris csv iris数据集是机器学习中一个经典的数据集由英国统计学家Ronald Fisher在1936年收集整理而成该数据集包含了3种不同品种的鸢尾
【模型评估与选择】交叉验证Cross-validation: evaluating estimator performance

Learning the parameters of a prediction function and testing it on the same data is a methodological mistake a model tha
海贼王热血航线正在连接服务器,航海王热血航线进不去怎么办进不去解决方法一览...

航海王热血航线进不去怎么办进不去解决方法一览航海王与今天早上正式开服了相信很多玩家都遇到了进不去的问题相信很多玩家都想知道应该怎么办下面就跟着小编一起来看看吧航海王热血航线进不去游戏怎么办原因1 网络问题如果小伙伴们在登录游
win10出于安全和性能方面的原因，此Windows 模式只运行...是怎么回事?

最近安装了win10操作系统的用户反应电脑中无法安装任何程序的现象在运行exe程序的时候就出现了如下图所示提示出于安全和性能方面的原因此Windows 模式只运行应用商店中经过验证的应用这有助于保护电脑井让其保持平稳运行 x xxx
mysql 连接url中useUnicode=true&characterEncoding=UTF-8 的作用

我们在连接mysql数据库的时候一般都会在url后面添加useUnicode true characterEncoding UTF 8 但是问什么要添加呢添加的作用是指定字符的编码解码格式例如 mysql数据库用的是gbk编码而项
vue 在js 文件中使用store_vue 如何在 .js 文件引入 store

项目中如果配置比较多的话 store的使用可能不只是在store文件夹里面的文件比如下面项目结构例如希望在api index js 文件使用store 改怎么导入呢原因其实在main js我们是导入过store的并挂在到vue实例
学考计算机使用说明,国家医学考试机考（计算机化）模拟系统考生操作指南

国家医学考试系统机考计算机化模拟考试系统考生操作指南由医学教育网为大家整理本操作指南用于帮助考生了解计算机化考试流程熟悉考试系统操作在正式考试前做好准备按照考务规定考生在开考前30分钟可以进入考室候考接下来为大家说一下相关系
关于傅里叶变换的一点体会

与君共勉那些你荒废的时光终究一天会以一种陨石撞击地球的猛烈闯入你的生活而你所能做的也只是悲当以歌 Proton 若你看到上面的话不要为Proton的身份而吃惊因为这是渺小如质子的我并且请你原谅我一个工科生说的一些不够成熟的话
openGL之API学习（七）Unable to get the location of uniform

在使用下面代码时遇到该错误 m textureLocation GetUniformLocation gShadowMap 着色器的代码为 version 330 in vec2 TexCoordOut uniform sampler2D
hbase导入数据同时与phoenix实现映射同步

我们的目标是创建一个hbase表格能够通过phoenix进行访问同时能够导入本地数据到hbase中最后都能够通过phoenix进行访问 1 先在hbase中创建表格 create WHO GOODS LABEL GID INFO 2
基于MATLAB的LS-SVM实现方法以及SVM的一些知识点

使用之前需要把LSSVMlabv1 8 R2009b R2011a解压并在matlab中添加到路径中下载链接 http www esat kuleuven be sista lssvmlab 我使用的是 V1 8版本 matlab版本我
VTK vtkExtractSelection 获取选择部分非选择部分

VTK vtkExtractSelection 获取选择部分非选择部分有时需要获取两部分这里有实现共同学习一下 include
Pandas中的pivot操作

目标读取excel中的长表将其透视为短表一张长表转换成宽表使用函数pivot 前提查看原数据是否有列名如果原数据是左图这样生成dataframe二维数据时会把第一行数据默认为索引如右图造成第一行数据丢失因此在遇到这种数据
爬取拉勾网站出错，各位怎么处理的啊？

需求确定需求是数据分析的起点在没有搞清楚需求的情况下盲目的抓取一大把数据胡乱分析最终得不出有用的结论本次数据分析的目的如下工作年限与薪资之间的关系不同工作年限薪资水平变化规律北京地区招聘数据分析师岗位公司的分布招聘数据分析