找工作必看,用Python爬取数据分析岗位信息并可视化分析

2023-11-03

导读:
最近经常收到人事小姐姐和猎头小哥哥的面试邀请,想想最近也不是招聘旺季呀。但又想到许多小伙伴们有找工作这方面的需求,今天就来分享一篇简单的爬虫案例,旨在跟大家一起分析一下部分招聘市场。以"数据分析"为例。

Tips: 本次爬虫案例分析结果仅供学习参考,不做就业指导,根据自己实际需求自行分析决策。

需要用到的模块

import requests
import time
import random
import os
import requests
from bs4 import BeautifulSoup
import openpyxl
import numpy as np

爬虫代码

本次爬虫难度不大,属于入门级别的,只要懂得requests请求,BeautifulSoup解析即可轻松上手,下面是本次爬虫的主要代码。

def getPosition(url):
    times=time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    print(u'\n本地时间:',times)
    print(u'\n开始采集数据...')
    # 请求获取返回值
    data = getData(url)
    # BeautifulSoup解析网页
    soup = BeautifulSoup(data.text, features='lxml')  # 对html进行解析,完成初始化
    results = soup.find_all(attrs={'class': "job-list"})
    job_list =  results[0].find_all(attrs={'class': "job-primary"})
    lens = len(job_list)
    for num in range(lens):
        positions = []
        job = job_list[num]
        # 根据节点查询相应数据
        positions.extend(job.find_all(attrs={'class': "job-title"})[0].text.split())
        positions.append(job.find_all(attrs={'class': "job-limit"})[0].text.split()[0])
        job_limit = job.find_all(attrs={'class': "job-limit"})[0]
        positions.extend(str(job_limit.p).rstrip('</p>').lstrip('<p>').split('<em class="vline"></em>'))
        positions.append(job.find_all(attrs={'class': "company-text"})[0].text.split()[0])
        company = job.find_all(attrs={'class': "company-text"})[0].p
        positions.extend(company.a.text.split())
        positions.extend(str(company).rstrip('</p>').split('<em class="vline"></em>')[1:])
        positions.extend(job.find_all(attrs={'class': "info-desc"})[0].text.split())
        positions.append(','.join(job.find_all(attrs={'class': "tags"})[0].text.split()))
        write_to_excel(positions)

数据结果

获取到数据之后,需要对原始数据进行一些简单的清洗工作。清洗前需要先思考下你需要获取哪些信息,有针对性的清洗。

在这里插入图片描述

一探究竟

本次可视化分析工具是 Pyecharts

从技能标签找学习方向

将所有公司的技能标签统计后,绘制前十的技能需求直方图。从图中很明显地看到遥遥领先的分别是Python、SQL,数据分析思维及能力及Excel也紧跟其后。像小编做的数据挖掘技能需求量也不小。

图片

似乎在数据分析职位中,PythonerSQL boy都是非常抢手的。

哪些城市的数分岗位更热门

图片

由全国地理图可看的出,北上广深加苏州、厦门、杭州等都是很热门的城市,你会选择哪个城市?

全国都有哪些公司招聘数分职位

以公司名称的大小来表示各个公司招聘职位数,绘制招聘公司词云图。很明显地看的出如腾讯、阿里、OPPO、Boss等大厂需求量较大,因此机会也多。所以大家学好数据分析,进入大厂不是梦。

图片

谈钱不伤感情

大家最关心的还是一个职位能给到我多少钱,比较还要养家糊口。

从全国各城市平均薪资排行榜看,遥遥领先的是北京、深圳、上海和杭州,分别是23K、19.7K、18.6K和18.5K。而小编所在的城市——成都,只有9K。文章不想写了,我想静静。。。

图片

看完各城市平均薪资,再来瞧瞧各个行业的平均薪资吧。人力资源服务银行这两个行业均超过了20K

图片

首先随机查看一个人力资源服务的,这类职位多为商业数据分析,该职位的特点是高学历是硬性,但对于工具使用要求不高,只需熟练使用EXCEL即可,需要些管理经验。

图片

再看看银行行业,薪资水平真香!虽然没有说学历要求,但可能是一个默认的情况吧。职位描述中多次提及到业务数据,说明他对业务要求较高。需要会SQL语句,需要会搭建数据分析模型,这类模型不一定是机器学习模型,也会有很多统计类、数学类模型等等。

图片

为啥北京公司的工资高

单独分析下北京的数据分析公司情况,公司规模在1000-9999人占比第一,达到37.2%,10000人以上的公司也高达22.87%,都是些大厂,工资水平能不高么。

图片

有人说,公司人多,不一定有钱呐。好嘛,再来看看他们公司的融资阶段情况呢。D轮及以上上市的公司已经接近一半了,多半都是有钱的主哇。

图片

成都数据分析公司啥情况

占比最多的是20-99人的小型公司,规模在1000-9999人的公司仅有34家,跟首都简直不能比。所以成都平均公司水平不过万,也是有原因的。

图片

再来看看公司融资情况,大部分都是未融资的,上市公司仅占12.75%,D轮及以上的也只有5.39%呐。但从另一个角度想想,成都的发展潜力还是很大的。作为西南的重要枢纽城市,相信他会越来越棒的。

图片

你还有啥想了解的——福利呐

最后再来看看大家比较关心的公司福利状况。

通过绘制福利词云图,看到大部分公司的常见福利都还是有的。意外的是少部分公司有提供不一样的福利,如无息住房借款、专属健身房、孝顺金等,真让人羡慕哇。

图片

写在最后

最后多说两句。我们上面分析的内容仅是从一些常见的指标,并不能作为你入职一家公司的主要判断依据。个人觉得还需要从一家公司的企业文化、公司发展方向、提供职位的发展空间、所处行业跟你预期是否符合等等方面综合衡量。

打铁还需自身硬,选择都是双向的,你想入职一个理想的公司,首先还是需要达到他的岗位要求。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

找工作必看,用Python爬取数据分析岗位信息并可视化分析 的相关文章

  • JavaScript 算法 -- 贪心算法

    文章目录 贪心算法 例题一 分饼干 例题二 买卖股票的最佳时机 II 贪心算法 贪心算法是算法设计的一种方法 期盼通过每个阶段的局部最优选择 从而达到全局的最优 但最后的结果不一定最优 例题一 分饼干 param number g 胃口 p
  • 【机器学习算法】感知机模型

    文章目录 1 感知机模型 2 收敛性证明 Novikoff定理 3 感知机对偶形式 4 感知机的缺点 5 感知机的几个变形 5 1 投票感知机 5 2 平均感知机 1 感知机模型 感知机模型是一个二分类的模型 它通过形如 y w x
  • 前后端交互之解决跨域问题!!!!

    报错 XMLHttpRequest cannot load http 127 0 0 1 8080 detail all No Access Control Allow Origin header is present on the req
  • 小娜老师的讲义-Docker的管理工具们(Kubernetes)

    Kubernetes k8s 是自动化容器操作的开源平台 这些操作包括部署 调度和节点集群间扩展 如果你曾经用过Docker容器技术部署容器 那么可以将Docker看成Kubernetes内部使用的低级别组件 Kubernetes不仅仅支持
  • Python学习--函数与Lambda表达式

    链接 DataWhale函数与Lambda表达式 目录 1 函数 函数的定义 函数的调用 函数的返回值 函数文档及注解 函数参数 1 位置参数 2 默认参数 3 可变参数 4 关键字参数 5 命名关键字参数 6 参数组合 变量作用域 内嵌函

随机推荐

  • 一个能干掉90%候选人的Kafka面试连环炮!

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录 1 写在前面 2 如何保证宕机时数据不丢失 3 多副本冗余的高可用机制 4 多副本之间数据如何同步 5 ISR到底指的什么东西 6 acks参数的含义 7 最后
  • Less 18 (请求头注入--user-agent注入)

    文章目录 1 题目分析 2 构造SQL 3 手工注入 4 使用python进行注入 5 SQLmap注入 1 题目分析 首先我们来分析一下题目 经过尝试 我们知道 当我们输入正确的用户名和密码的时候 后台会将User Agent返回到屏幕上
  • 全国计算机等级考试题库二级C操作题100套(第89套)

    第89套 给定程序中 函数fun的功能是 求出形参ss所指字符串数组中最长字符串的 长度 其余字符串左边用字符 补齐 使其与最长的字符串等长 字符串数组中共 有M个字符串 且串长
  • 正点STM32F407核心板+ESP8266实现简单通信(详细讲解)

    1 ESP8266固件库的烧录 如果用串口助手连上板子 给8266发送AT指令发现老是报错error 可以重新烧录一下固件库 正点的ESP8266资料下载网址 http www openedv com thread 308397 1 1 h
  • tcp连接多久会自动断开_K8s 节点断开连接后,本在运行的 Pod 会如何?

    在工作节点与主节点断开连接后 工作节点上的 Pod 是什么状态 是否在继续运行 Kubernetes 控制器又在做什么 本文对此进行了实例研究 一一解答 作者 Bhargav Bhikkaji 翻译 Bach 才云 校对 星空下的文仔 才云
  • 微信小程序云开发之初体验(详细教程)

    微信小程序云开发之初体验 小程序云开发是微信最近推出的新的一项能力 它弱化了后端以及运维的概念 开发者无需搭建服务器 使用微信平台提供的api即可完成核心的业务开发 目前提供三大基础能力支持 云函数 在云端运行的代码 微信私有协议天然鉴权
  • 刷脸支付普及逐渐攀升产业生态逐渐形成

    刷脸让支付生态重返硬件年代 刷脸支付机具的生产 销售 铺设 维护涉及大量成本 客观存在压货风险大 后期服务难 地推成本高等问题 模式重而受益低 导致银行和大多数中小支付机构入局刷脸支付的意愿则整体薄弱得多 银联高调入局之际 2019 也是支
  • 《啊哈算法》学习——桶排序

    学习啊哈算法第一天 第一章第一节最快最简单的桶排序 问题描述 班级五名同学的分数排序 十分制 问题分析及思路 借助大小为10的一维数组 初始化为0 意味该分数没有人得 接下来处理分数 如有两个人得5分 即将a 5 2 记录下分数即出现次数后
  • Spring Validation 接口入参校验

    一 前言 JSR 是 Java Specification Requests 的缩写 含义为 JAVA 规范提案 JSR 303 Bean Validation 规范 正是一套基于 JavaBean 参数校验的标准 Hibernate Va
  • s3c2440移植ucGUI

    编译环境 ADS1 2 开发板 TQ2440 主要参考这篇文章 stm32 UCGUI 完美移植 ucGUI版本 3 90 ucGUI3 90下载地址 UCGUI最新3 90版源码 屏幕 联想VGA电脑屏幕 最大分辨率1024x768 1
  • vue如何编写自定义指令directive

    vue已经给我们内置了很多很好用的指令了 v mode v show 等等 但是有时候当这些指令不能满足我们需求的时候 我们还可以使用vue的自定义指令功能编写我们的指令 这是一个很强大的功能 需要说明的是 尽管自定义指令这个功能很强大 但
  • 3D MAX导出插件编写

    转 3D MAX导出插件编写 2011 6 9阅读1667 评论0 文章版权归博客园 BigCoder所有 转载请于明显位置标明原文作者及出处 以示尊重 原文出处 http www cnblogs com csyisong archive
  • 用GDB远程调试运行于QEMU的程序

    1 前言 限于作者能力水平 本文可能存在谬误 因此而给读者带来的损失 作者不做任何承诺 2 测试环境 本文使用 Ubuntu 16 04 4 LTS QEMU 环境进行调试 3 用 GDB 调试 QEMU 内程序 3 1 编写用来调试的程序
  • 国内使用reCaptcha验证码的完整教程

    国内使用reCaptcha验证码的完整教程
  • 查看系统端口占用

    第一步 win R打开 输入cmd进入命令窗口 第二步 输入netstat ano回车 找到对应的进程PID为14472 或者采用这个方法 用 netstat ntlp 查看监听端口 无3000 第三步 输入命令tasklist回车 找到对
  • C#Expression表达式树(lambda)的使用——Parameter、Property、Call、构建Select、构建Where

    1 定义参数 Parameter 访问属性 Property private static void Main string args 1 定义参数 Parameter 访问属性 Property 定义表达式树中的参数或变量 linq表达式
  • SSH密码暴力破解及防御实战

    前言 本文对目前流行的 SSH 密码暴力破解工具进行实战研究 分析和总结 对渗透攻击测试和安全防御具有一定的参考价值 首先介绍几款常用的ssh暴力破解工具 1 hydra 海德拉 指定用户破解 Examples hydra l user P
  • nn.moduleList 和Sequential由来、用法和实例 —— 写网络模型

    对于cnn前馈神经网络如果前馈一次写一个forward函数会有些麻烦 在此就有两种简化方式 ModuleList和Sequential 其中Sequential是一个特殊的module 它包含几个子Module 前向传播时会将输入一层接一层
  • Python爬虫从入门到精通:(36)CrawlSpider实现深度爬取_Python涛哥

    我们来看下CrawlSpider实现深度爬取 爬取阳光热线标题 状态 和详情页内容 https wz sun0769 com political index politicsNewest id 1 type 4 page 创建CrawlSp
  • 找工作必看,用Python爬取数据分析岗位信息并可视化分析

    导读 最近经常收到人事小姐姐和猎头小哥哥的面试邀请 想想最近也不是招聘旺季呀 但又想到许多小伙伴们有找工作这方面的需求 今天就来分享一篇简单的爬虫案例 旨在跟大家一起分析一下部分招聘市场 以 数据分析 为例 Tips 本次爬虫案例分析结果仅