爬取拉勾网站出错,各位怎么处理的啊?

2023-10-27

需求确定

需求是数据分析的起点,在没有搞清楚需求的情况下,盲目的抓取一大把数据胡乱分析,最终得不出有用的结论。

本次数据分析的目的如下:

  • 工作年限与薪资之间的关系
  • 不同工作年限薪资水平变化规律
  • 北京地区招聘数据分析师岗位公司的分布
  • 招聘数据分析师的公司类型与薪资关系
  • 数据分析师的岗位职责及要求
  • ……

分析网页结构

打开拉勾网站,城市选择北京,输入数据分析师,进入数据分析师岗位招聘页面

右键单击检查

image-20201116191711105

如图,切换到需要的数据前面。

image-20201116191909925

分析网页结构,可以找到请求代URL,表头等数据信息。

image-20201116193144344

代码如下

import requests

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

# 从制定的url中通过requests请求携带请求头和请求体获取网页中的信息
def get_json(url, num):
    url1 = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
    headers = {
        'origin': 'https://www.lagou.com'
        'referer‘:’https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        'x-anit-forge-code': '0',
        'x-anit-forge-token': 'None',
        'x-requested-with': 'XMLHttpRequest'
    }
    data = {
        'first': 'true',
        'pn': num,
        'kd': '数据分析'}

    s = requests.Session()
    print('建立session: ', s, '\n\n')

    s.get(url=url1, headers=headers, timeout=3)
    cookie = s.cookies
    print('获取cookie: ', cookie, '\n\n')

    res =requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)
    res.raise_for_status()
    res.ending = 'utf-8'
    page_data = res.json()
    print('请求相应结果: ', page_data, '\n\n')
    
    return page_data

print(get_json(url, 1))

代码问题

代码出现了下面的问题,弄了半天都没有解决,有大佬能帮忙看一下么?
image-20201116205650766

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬取拉勾网站出错,各位怎么处理的啊? 的相关文章

随机推荐

  • Colossal AI 并行技术

    简介 随着深度学习的发展 对并行训练的需求越来越大 这是因为模型和数据集越来越大 如果我们坚持使用单 GPU 训练 训练过程的等待将会成为一场噩梦 在本节中 我们将对现有的并行训练方法进行简要介绍 如果您想对这篇文章进行补充 欢迎在GitH
  • webpack实例解析五(用.env.development设置环境变量)

    原理 1 利用node的fs模块读取文件处理成对象 2 用webpack DefinePlugin插件 设置process env readEnv js const fs require fs const path require path
  • mfc100u.dll丢失的解决方法

    mfc100u dll文件在一些计算机软件 计算机游戏等程序的正常运行中起着关键作用 用户经常对缺乏此类文件的弹出窗口感到困惑 程序显然可以在上次正常运行 突然弹出了缺乏dll文件的提醒窗口 用户可以通过编辑文章轻松解决这类问题 解决方案很
  • js 获取url携带参数

    获取url 携带的参数 比如URL url是这样的 HYQuotationsCard html ID 1 name 2 利用这个方法 如何获取 var id GetUrlParam ID function GetUrlParam var u
  • 请求参数获取

    用户通过浏览器向服务器发送请求 有get和post两种方式 那么我们怎么获得提交的参数呢 方式一 getQueryStringh 和getInputStream 1 get方式提交 System out println get方式提交 St
  • STM32 PCM1770调试

    本文初步介绍了PCM1770配置方法与调试过程 希望能起到抛砖引玉的作用 PCM1770是24位的DAC 支持I2S信号输入 可直接驱动耳机 也可加后级功放来驱动喇叭 应用电压范围为 0 3V至4V 普通的3V3就可以 如图1所示 该DAC
  • Python Keras神经网络实现iris鸢尾花分类预测

    Keras卷积神经网络实现iris鸢尾花分类预测 正确率超过99 1 鸢尾花数据iris csv iris数据集是机器学习中一个经典的数据集 由英国统计学家Ronald Fisher在1936年收集整理而成 该数据集包含了3种不同品种的鸢尾
  • 【模型评估与选择】交叉验证Cross-validation: evaluating estimator performance

    Learning the parameters of a prediction function and testing it on the same data is a methodological mistake a model tha
  • 海贼王热血航线正在连接服务器,航海王热血航线进不去怎么办 进不去解决方法一览...

    航海王热血航线进不去怎么办 进不去解决方法一览 航海王与今天早上正式开服了 相信很多玩家都遇到了进不去的问题 相信很多玩家都想知道应该怎么办 下面就跟着小编一起来看看吧 航海王热血航线进不去游戏怎么办 原因1 网络问题 如果小伙伴们在登录游
  • win10出于安全和性能方面的原因,此Windows 模式只运行...是怎么回事?

    最近安装了win10操作系统的用户反应电脑中无法安装任何程序的现象 在运行exe程序的时候就出现了如下图所示提示 出于安全和性能方面的原因 此Windows 模式只运行应用商店中经过验证的应用 这有助于保护电脑井让其保持平稳运行 x xxx
  • mysql 连接url中useUnicode=true&characterEncoding=UTF-8 的作用

    我们在连接mysql数据库的时候一般都会在url后面添加useUnicode true characterEncoding UTF 8 但是问什么要添加呢 添加的作用是 指定字符的编码 解码格式 例如 mysql数据库用的是gbk编码 而项
  • vue 在js 文件中使用store_vue 如何在 .js 文件引入 store

    项目中如果配置比较多的话 store的使用可能不只是在store文件夹里面的文件 比如下面项目结构 例如希望在api index js 文件使用store 改怎么导入呢 原因 其实在main js我们是导入过store的 并挂在到vue实例
  • 学考计算机使用说明,国家医学考试机考(计算机化)模拟系统考生操作指南

    国家医学考试系统机考 计算机化 模拟考试系统考生操作指南由医学教育网为大家整理 本操作指南用于帮助考生了解计算机化考试流程 熟悉考试系统操作 在正式考试前做好准备 按照考务规定 考生在开考前30分钟可以进入考室候考 接下来为大家说一下相关系
  • 关于傅里叶变换的一点体会

    与君共勉 那些你荒废的时光 终究一天会以一种陨石撞击地球的猛烈闯入你的生活 而你所能做的 也只是悲当以歌 Proton 若你看到上面的话 不要为Proton的身份而吃惊 因为这是渺小如质子的我 并且请你原谅我一个工科生说的一些不够成熟的话
  • openGL之API学习(七)Unable to get the location of uniform

    在使用下面代码时遇到该错误 m textureLocation GetUniformLocation gShadowMap 着色器的代码为 version 330 in vec2 TexCoordOut uniform sampler2D
  • hbase导入数据同时与phoenix实现映射同步

    我们的目标是 创建一个hbase表格 能够通过phoenix进行访问 同时能够导入本地数据到hbase中 最后都能够通过phoenix进行访问 1 先在hbase中创建表格 create WHO GOODS LABEL GID INFO 2
  • 基于MATLAB的LS-SVM实现方法以及SVM的一些知识点

    使用之前需要把LSSVMlabv1 8 R2009b R2011a解压 并在matlab中添加到路径中 下载链接 http www esat kuleuven be sista lssvmlab 我使用的是 V1 8版本 matlab版本我
  • VTK vtkExtractSelection 获取 选择部分 非选择部分

    VTK vtkExtractSelection 获取 选择部分 非选择部分 有时需要获取两部分 这里有实现 共同学习一下 include
  • Pandas中的pivot操作

    目标 读取excel中的长表 将其透视为短表 一张长表转换成宽表 使用函数pivot 前提 查看原数据是否有列名 如果原数据是左图这样 生成dataframe二维数据时会把第一行数据默认为索引 如右图 造成第一行数据丢失 因此在遇到这种数据
  • 爬取拉勾网站出错,各位怎么处理的啊?

    需求确定 需求是数据分析的起点 在没有搞清楚需求的情况下 盲目的抓取一大把数据胡乱分析 最终得不出有用的结论 本次数据分析的目的如下 工作年限与薪资之间的关系 不同工作年限薪资水平变化规律 北京地区招聘数据分析师岗位公司的分布 招聘数据分析